Java获取网页数据步骤方法详解

 更新时间:2020年03月25日 14:33:28   作者:摘星族  
这篇文章主要介绍了Java获取网页数据步骤方法详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

在很多行业当中,我们需要对行业进行分析,就需要对这个行业的数据进行分类,汇总,及时分析行业的数据,对于公司未来的发展,有很好的参照和横向对比。面前通过网络进行数据获取是一个很有效而且快捷的方式。
首先我们来简单的介绍一下,利用java对网页数据进行抓取的一些步骤,有不足的地方,还望指正,哈哈。屁话不多说了。

其实一般分为以下步骤:

1:通过HttpClient请求到达某网页的url访问地址(特别需要注意的是请求方式)

2:获取网页源码

3:查看源码是否有我们需要提取的数据

4:对源码进行拆解,一般使用分割,正则或者第三方jar包

5:获取需要的数据对自己创建的对象赋值

6:数据提取保存

下面简单的说一下在提取数据中的部分源码,以及用途:

/**
   * 向指定URL发送GET方法的请求
   *
   * @param url
   *      发送请求的URL
   * @param param
   *      请求参数,请求参数应该是 name1=value1&name2=value2 的形式。
   * @return URL 所代表远程资源的响应结果
   */
  public static String sendGet(String url, String param) {
    String result = "";
    BufferedReader in = null;
    try {
      String urlNameString = url;
      URL realUrl = new URL(urlNameString);
      // 打开和URL之间的连接
      URLConnection connection = realUrl.openConnection();
      // 设置通用的请求属性
      connection.setRequestProperty("accept", "*/*");
      connection.setRequestProperty("connection", "Keep-Alive");
      connection.setRequestProperty("user-agent",
          "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1;SV1)");
      // 建立实际的连接
      connection.connect();
      // 获取所有响应头字段
      Map<String, List<String>> map = connection.getHeaderFields();

      // 定义 BufferedReader输入流来读取URL的响应
      in = new BufferedReader(new InputStreamReader(
          connection.getInputStream())); //这里如果出现乱码,请使用带编码的InputStreamReader构造方法,将需要的编码设置进去
      String line;
      while ((line = in.readLine()) != null) {
        result += line;
      }
    } catch (Exception e) {
      System.out.println("发送GET请求出现异常!" + e);
      e.printStackTrace();
    }
    // 使用finally块来关闭输入流
    finally {
      try {
        if (in != null) {
          in.close();
        }
      } catch (Exception e2) {
        e2.printStackTrace();
      }
    }
    return result;
  }

解析存储数据

public Bid getData(String html) throws Exception {
    //获取的数据,存放在到Bid的对象中,自己可以重新建立一个对象存储
    Bid bid = new Bid();
    //采用Jsoup解析
    Document doc = Jsoup.parse(html);
    // System.out.println("doc内容" + doc.text());
    //获取html标签中的内容tr
    Elements elements = doc.select("tr");
    System.out.println(elements.size() + "****条");
    //循环遍历数据
    for (Element element : elements) {
      if (element.select("td").first() == null){
        continue;
      }
      Elements tdes = element.select("td");
      for(int i = 0; i < tdes.size(); i++){
        this.relation(tdes,tdes.get(i).text(),bid,i+1);
      }
    }
    return bid;
  }

得到的数据

Bid {
  h2 = '详见内容', 
   itemName = '诉讼服务中心设备采购',
   item = '货物/办公消耗用品及类似物品/其他办公消耗用品及类似物品', 
   itemUnit = '详见内容', 
   areaName = '港北区', 
   noticeTime = '2018年10月22日 18:41',
   itemNoticeTime = 'null',
   itemTime = 'null',
   kaibiaoTime = '2018年10月26日 09:00', 
   winTime = 'null',
   kaibiaoDiDian = 'null', 
   yusuanMoney = '¥67.00元(人民币)', 
   allMoney = 'null', 
   money = 'null', 
   text = ''
}

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

相关文章

  • 详解Java中异步转同步的六种方法

    详解Java中异步转同步的六种方法

    针对应用中异步调用,能不能像同步调用一样立刻获取到命令的执行结果,如何实现异步转同步?不要担心,本文就来为大家详细讲讲Java中异步转同步的六种方法,感兴趣的可以了解一下
    2022-06-06
  • 盘点SpringBoot中@Async注解的遇到的坑点及解决办法

    盘点SpringBoot中@Async注解的遇到的坑点及解决办法

    SpringBoot是一个流行的Java开发框架,在异步编程方面,Spring Boot提供了@Async注解,它能够让方法异步执行,然而,在使用@Async注解时,有一些潜在的坑需要注意,本文将深入探讨Spring Boot中使用@Async注解时可能遇到的8大坑点,并提供相应的解决方案
    2024-03-03
  • SpringBoot整合Swagger接口文档工具的流程步骤

    SpringBoot整合Swagger接口文档工具的流程步骤

    我们在开发接口的时候,会将接口文档给前端的开发者进行对接,我们可以通过Postman或者Yapi等接口管理工具进行编写管理,实际开发中,接口的管理确实也应该通过专业的工具管理,本文,我们就来谈谈怎么在SpringBoot整合Swagger接口文档工具
    2023-08-08
  • Java9新特性Module模块化编程示例演绎

    Java9新特性Module模块化编程示例演绎

    这篇文章主要为大家介绍了Java9新特性Module模块化编程的示例演绎,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步早日升职加薪
    2022-03-03
  • Java创建类模式_动力节点Java学院整理

    Java创建类模式_动力节点Java学院整理

    这篇文章主要为大家详细介绍了Java创建类模式的相关方法,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2017-08-08
  • Java异或运算应用场景详解

    Java异或运算应用场景详解

    这篇文章主要给大家介绍了关于Java异或运算应用场景的相关资料,异或运算会应用在很多算法题中,这里整理了几个最常见的应用场景,文中通过代码示例介绍的非常详细,需要的朋友可以参考下
    2023-07-07
  • SpringCloud学习笔记之Feign远程调用

    SpringCloud学习笔记之Feign远程调用

    Feign是一个声明式的http客户端。其作用就是帮助我们优雅的实现http请求的发送。本文将具体为大家介绍一下Feign的远程调用,感兴趣的可以了解一下
    2021-12-12
  • idea中如何使用(Undo Commit...)

    idea中如何使用(Undo Commit...)

    这篇文章主要介绍了idea中如何使用(Undo Commit...)问题,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2023-02-02
  • Java通过百度API实现图片车牌号识别

    Java通过百度API实现图片车牌号识别

    这段时间做项目需要用java程序进行车牌识别,因此尝试做了下这个程序,本代码功能是通过调用百度API实现的,感兴趣的可以了解一下
    2021-06-06
  • 图文详解Java中的序列化机制

    图文详解Java中的序列化机制

    java中的序列化可能大家像我一样都停留在实现Serializable接口上,对于它里面的一些核心机制没有深入了解过。本文将通过示例带大家深入了解Java中的序列化机制,需要的可以参考一下
    2022-10-10

最新评论