使用maven实现有关Jsoup简单爬虫的步骤

 更新时间:2021年09月15日 16:59:00   作者:DrLai  
这篇文章主要介绍了使用maven实现有关Jsoup简单爬虫的步骤,文中附含详细示例代码,有需要的朋友可以借鉴参考下,希望能够有所帮助

一、Jsoup的简介

jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据

二、我们可以利用Jsoup做什么

2.1从URL,文件或字符串中刮取并解析HTML查找和提取数据,

2.2使用DOM遍历或CSS选择器操纵HTML元素,属性和文本

2.3从而使我们输出我们想要的整洁文本

三、利用Jsoup爬取某东示例

可以从图中看到,成功爬取某东的女装热门销量从高到低的标题,从而可以分析到销量高(或者是综合排序)在前列的标题名称。从而可以剖析出热门商品的命名规范。

四、Jsoup用法

4.1先创建maven工程,在maven工程上注入依赖

4.2注入依赖后需要导入依赖,否则在程序中使用Jsoup会全部报错。

4.3利用JSP的知识找出目标元素

如在某东界面我们发现, 控制目标页面的ID为"plist",则我们使用

getElementById("plist");方法去获取到他的ID

接着获取目标标题,可以由上图分析得,标题是由<em>标签所控制,因此我们需要用到

getElementsByTag("em");去捕捉到em的部分

最后循环输出他的部分即可。

五、总结

Jsoup只能应用于简单的页面捕捉,在实际开发中许多网站采用Ajax技术等使得模块在动态变化抑或是有反爬虫技术,因此本技术有局限性。熟悉前端jsp技术的同学应该会游刃有余。

最后附上所有代码

以上就是使用maven实现有关Jsoup简单爬虫的步骤的详细内容,更多关于maven实现Jsoup爬虫的资料请关注脚本之家其它相关文章!

相关文章

  • Java详解对象终止方法finalize()的用法

    Java详解对象终止方法finalize()的用法

    在前面的 jvm 中, 需要补充几个部分的内容, 接着来看 finalize() 机制, 它可以使接近死亡的对象复活, 下来我们来看是怎么一回事
    2022-05-05
  • JAVAlogback日志管理详解

    JAVAlogback日志管理详解

    本篇文章主要介绍了在SpringBoot中使用Logback管理记录日志,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2021-09-09
  • java面向国际化项目开发需遵循的命名规范

    java面向国际化项目开发需遵循的命名规范

    这篇文章主要为大家介绍了在参与开发国际化项目时需遵循的java命名规范,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步
    2022-03-03
  • java servlet获得客户端相关信息的简单代码

    java servlet获得客户端相关信息的简单代码

    这篇文章主要介绍了java servlet获得客户端相关信息的简单代码,有需要的朋友可以参考一下
    2013-12-12
  • 将Java程序包打包为.exe文件的操作步骤

    将Java程序包打包为.exe文件的操作步骤

    将Java程序打包为为.exe文件分为俩个步骤:将Java程序打包成Jar包和打包为.exe文件,文中通过图文结合的方式给大家讲解的非常详细,具有一定的参考价值,需要的朋友可以参考下
    2024-06-06
  • 详解Java如何实现数值校验的算法

    详解Java如何实现数值校验的算法

    给定一个字符串如何判断它是否为数值类型?本文将带着大家学习一下如何利用Java实现这个判断算法,感兴趣的小伙伴可以学习一下
    2022-04-04
  • SpringBoot+SpringSecurity+jwt实现验证

    SpringBoot+SpringSecurity+jwt实现验证

    本文主要介绍了SpringBoot+SpringSecurity+jwt实现验证,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2022-07-07
  • SpringCloud中Eureka的配置及使用讲解

    SpringCloud中Eureka的配置及使用讲解

    Eureka 服务注册中心,主要用于提供服务注册功能,当微服务启动时,会将自己的服务注册到 Eureka Server,这篇文章主要介绍了SpringCloud中Eureka的配置及详细使用,需要的朋友可以参考下
    2023-01-01
  • java对象持久化保存的方法详解

    java对象持久化保存的方法详解

    这篇文章主要介绍了java对象持久化保存的方法详解,在java应用开发的过程中,经常遇到需要持久保存java对象的情况,比如:用户信息、博客评论内容等等,本文针对java对象的持久化保存方法进行讨论,简述各个方法的优劣,需要的朋友可以参考下
    2023-07-07
  • 理解JPA注解@GeneratedValue的使用方法

    理解JPA注解@GeneratedValue的使用方法

    这篇文章主要介绍了理解JPA注解@GeneratedValue的使用方法,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-07-07

最新评论