Java中用爬虫进行解析的实例方法
更新时间:2020年12月24日 08:32:41 作者:小妮浅浅
在本篇文章里小编给大家整理的是一篇关于Java中用爬虫进行解析的实例方法,有需要的朋友们可以学习参考下。
我们都知道可以用爬虫来找寻一些想要的数据,除了可以使用python进行操作,我们最近学习的java同样也支持爬虫的运行,本篇小编就教大家用java爬虫来进行网页的解析,具体内容请往下看:
1、springboot项目,引入jsoup
<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.10.2</version> </dependency>
2、准备解析对象
Content.java package com.asia.pojo; import lombok.AllArgsConstructor; import lombok.Data; import lombok.NoArgsConstructor; @Data @NoArgsConstructor @AllArgsConstructor public class Content { private String title; private String img; private String price; }
3、爬虫工具类
HtmlParseUtil.java package com.asia.utils; import java.net.URL; import java.net.URLDecoder; import java.util.ArrayList; import java.util.List; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; import com.asia.pojo.Content; public class HtmlParseUtil { public static void main(String[] args) throws Exception { new HtmlParseUtil().parseJD("西瓜").forEach(System.out::println); } public List<Content> parseJD(String keywords) throws Exception { String url = "https://search.jd.com/Search?keyword=" + URLDecoder.decode(keywords, "GBK"); // 解析网页.(Jsoup返回Document就是浏览器的Document对象) Document document = Jsoup.parse((new URL(url)), 30000); Element element = document.getElementById("J_goodsList"); Elements elements = element.getElementsByTag("li"); List<Content> list = new ArrayList<Content>(); for (Element el : elements) { String src = el.getElementsByTag("img").eq(0).attr("data-lazy-img"); String price = el.getElementsByClass("p-price").eq(0).text(); String name = el.getElementsByClass("p-name").eq(0).text(); list.add(new Content(name, src, price)); } return list; } }
到此这篇关于Java中用爬虫进行解析的实例方法的文章就介绍到这了,更多相关Java中如何使用爬虫进行解析内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!
相关文章
spring boot国际化之MessageSource的使用方法
这篇文章主要给大家介绍了spring boot国际化之MessageSource使用的相关资料,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧2020-11-11
最新评论