Java 根据网络URL获取该网页上面所有的img标签并下载图片

更新时间：2020年11月05日 10:38:00 作者：Marydon

这篇文章主要介绍了Java 根据网络URL获取该网页上面所有的img标签并下载图片，帮助大家更好的理解和使用Java，感兴趣的朋友可以了解下

说明：根据网络URL获取该网页上面所有的img标签并下载符合要求的所有图片

所需jar包：jsoup.jar

import java.io.BufferedInputStream;
import java.io.BufferedOutputStream;
import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.OutputStream;
import java.net.MalformedURLException;
import java.net.URL;
import java.net.URLConnection;
import java.util.ArrayList;
import java.util.List;
import java.util.UUID;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

/**
 * 图片批量下载工具类
 * @author Marydon
 * @create time 2016-9-3下午2:01:03 
 * @update time 2017年9月30日11:07:02
 * @E-mail:dellshouji@163.com
 */
public class ImgDownloadUtil {

  /**
   * 根据URL获取网页DOM对象
   * @param url
   *      网址
   * @return DOM对象
   */
  public static Document getHtmlDocument(String url) {
    Document document = null;
    URL urlObj = null;
    try {
      // 1.建立网络连接
      urlObj = new URL(url);
      // 2.根据url获取Document对象
      document = Jsoup.parse(urlObj, 5000);// 单位：毫秒超时时间

    } catch (MalformedURLException e) {
      System.out.println("世界上最遥远的距离就是没有网，检查设置！");
      e.printStackTrace();
    } catch (IOException e) {
      System.out.println("您的网络连接打开失败，请稍后重试！");
      e.printStackTrace();
    }

    return document;
  }

  /**
   * 根据URL获取网页源码
   * @param url
   *      网址
   * @return 网页源码
   */
  public static String getHtmlText(String url) {
    String htmlText = "";
    Document document = null;
    URL urlObj = null;
    try {
      // 1.建立网络连接
      urlObj = new URL(url);
      // 2.根据url获取Document对象
      document = Jsoup.parse(urlObj, 5000);// 单位：毫秒超时时间
      // 3.根据dom对象获取网页源码
      htmlText = document.html();
    } catch (MalformedURLException e) {
      System.out.println("世界上最遥远的距离就是没有网，检查设置！");
      e.printStackTrace();
    } catch (IOException e) {
      System.out.println("您的网络连接打开失败，请稍后重试！");
      e.printStackTrace();
    }

    return htmlText;
  }

  /**
   * 操作Dom对象获取图片地址
   * @param document
   *      Dom对象
   * @return 图片地址集合
   */
  public static List<String> getImgAddressByDom(Document document) {
    // 用于存储图片地址
    List<String> imgAddress = new ArrayList<String>();
    if (null != document) {
      // <img src="" alt="" width="" height=""/>
      // 获取页面上所有的图片元素
      Elements elements = document.getElementsByTag("img");
      String imgSrc = "";
      // 迭代获取图片地址
      for (Element el : elements) {
        imgSrc = el.attr("src");
        // imgSrc的内容不为空，并且以http://开头
        if ((!imgSrc.isEmpty()) && imgSrc.startsWith("http://")) {
          // 将有效图片地址添加到List中
          imgAddress.add(imgSrc);
        }
      }
    }

    return imgAddress;
  }

  /**
   * 根据网络URL下载文件
   * @param url
   *      文件所在地址
   * @param fileName
   *      指定下载后该文件的名字
   * @param savePath
   *      文件保存根路径
   */
  public static void downloadFileByUrl(String url, String fileName, String savePath) {
    URL urlObj = null;
    URLConnection conn = null;
    InputStream inputStream = null;
    BufferedInputStream bis = null;
    OutputStream outputStream = null;
    BufferedOutputStream bos = null;
    try {
      // 1.建立网络连接
      urlObj = new URL(url);
      // 2.打开网络连接
      conn = urlObj.openConnection();
      // 设置超时间为3秒
      conn.setConnectTimeout(3 * 1000);
      // 防止屏蔽程序抓取而返回403错误
      conn.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt)");
      // 3.得到输入流
      inputStream = conn.getInputStream();
      bis = new BufferedInputStream(inputStream);

      // 文件保存位置
      File saveDir = new File(savePath);
      if (!saveDir.exists()) {
        saveDir.mkdirs();
      }
      // 文件的绝对路径
      String filePath = savePath + File.separator + fileName;
      File file = new File(filePath);
      // 4.
      outputStream = new FileOutputStream(file);
      bos = new BufferedOutputStream(outputStream);
      byte[] b = new byte[1024];
      int len = 0;
      while ((len = bis.read(b)) != -1) {
        bos.write(b, 0, len);
      }
      System.out.println("info:" + url + " download success,fileRename=" + fileName);
    } catch (MalformedURLException e) {
      System.out.println("世界上最遥远的距离就是没有网，检查设置");
      System.out.println("info:" + url + " download failure");
      e.printStackTrace();
    } catch (IOException e) {
      System.out.println("您的网络连接打开失败，请稍后重试！");
      System.out.println("info:" + url + " download failure");
      e.printStackTrace();
    } finally {// 关闭流
      try {
        if (bis != null) {// 关闭字节缓冲输入流
          bis.close();
        }

        if (inputStream != null) {// 关闭字节输入流
          inputStream.close();
        }
        if (bos != null) {// 关闭字节缓冲输出流
          bos.close();
        }
        if (outputStream != null) {// 关闭字节输出流
          outputStream.close();
        }

      } catch (IOException e) {
        e.printStackTrace();
      }
    }
  }

}

测试

public static void main(String[] args) {
  // 1.确定网址
  String url = "http://www.cnblogs.com/Marydon20170307/p/7402871.html";
  // 2.获取该网页的Dom对象
  Document document = getHtmlDocument(url);
  // 3.获取该网页所有符合要求的图片地址
  List<String> imgAddresses = getImgAddressByDom(document);
  String imgName = "";
  String imgType = "";
  // 4.设置图片保存路径
  String savePath = "C:/Users/Marydon/Desktop";
  // 5.批量下载图片
  for (String imgSrc : imgAddresses) {
    // 5.1图片命名：图片名用32位字符组成的唯一标识
    imgName = UUID.randomUUID().toString().replace("-", "");
    // 5.2图片格式（类型）
    imgType = imgSrc.substring(imgSrc.lastIndexOf("."));
    imgName += imgType;
    // 5.3下载该图片
    downloadFileByUrl(imgSrc, imgName, savePath);
  }
}

以上就是Java 根据网络URL获取该网页上面所有的img标签并下载图片的详细内容，更多关于java 下载网络图片的资料请关注脚本之家其它相关文章！

您可能感兴趣的文章:

Java class文件格式之特殊字符串_动力节点Java学院整理
特殊字符串出现在class文件中的常量池中，本着循序渐进和减少跨度的原则，首先把class文件中的特殊字符串做一个详细的介绍，然后再回过头来继续讲解常量池，对java class 文件格式相关知识感兴趣的的朋友一起学习吧
2017-06-06
java Disruptor构建高性能内存队列使用详解
这篇文章主要为大家介绍了java Disruptor构建高性能内存队列使用详解，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
2022-12-12
基于mybatis 动态SQL查询总结
这篇文章主要介绍了mybatis 动态SQL查询总结，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2021-07-07
springboot集成es插入和查询的简单使用示例详解
这篇文章主要介绍了springboot集成es 插入和查询的简单使用,本文分步骤结合示例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
2023-08-08
springboot断言异常封装与统一异常处理实现代码
异常处理其实一直都是项目开发中的大头,但关注异常处理的人一直都特别少,下面这篇文章主要给大家介绍了关于springboot断言异常封装与统一异常处理的相关资料,需要的朋友可以参考下
2023-01-01
JAVA项目字典与缓存搭配使用方法解析
这篇文章主要介绍了JAVA项目字典与缓存搭配使用方法解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2020-09-09
Java Spring Boot实现简易扫码登录详解
这篇文章主要为大家详细介绍了java Spring Boot实现app扫码登录功能，具有一定的参考价值，感兴趣的小伙伴们可以参考一下，希望能够给你带来帮助
2021-09-09
Java的string类为什么是不可变的
这篇文章主要介绍了Java的string类为什么是不可变的，总结了三个答案,需要的朋友可以参考下
2014-04-04
mybatis分割字符串并循环,实现in多个参数的操作
这篇文章主要介绍了mybatis分割字符串并循环,实现in多个参数的操作，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2021-06-06
改善Java代码之慎用java动态编译
这篇文章主要介绍了改善Java代码之慎用java动态编译,需要的朋友可以参考下
2021-04-04

Java 根据网络URL获取该网页上面所有的img标签并下载图片

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具