使用Java快速将Web中表格转换成Excel的方法

 更新时间:2023年06月15日 11:40:20   作者:夜郎king  
在平时做系统项目时,经常会需要做导出功能,下面这篇文章主要给大家介绍了关于使用Java快速将Web中表格转换成Excel的相关资料,需要的朋友可以参考下

背景

随着后疫情时代的到来,在过去的2022年,全国的经济情况,想必是很多学者和研究对象都非常关心的事。而这些数据在国家统计局网站上都有相应的记录。通过分析这些数据,可以从某一个角度来验证和观察当下的经济情况。

全国共计有1279个县级单位已经披露了2022年GDP和一般公共预算收入数据情况,企业预警通根据这些数据整理出中国百强县gdp排行榜和百强县一般公共预算收入排行榜。其中昆山市以5006.66亿元GDP蝉联榜单榜首,江阴市、晋江市位列百强县第二三位,长沙县是湖南省唯一进入全国前十的(Top7)。来源:2023中国县城GDP百强榜揭晓 2023中国百强县排行榜一览

第一张图是以图片的形式发布的,第二种是采用Html的表格(table)形式展示的。在离线分析使用数据的时候非常不方便。作为程序猿,这一定难不倒您。我们可以采用网页抓取的技术对数据进行整理。本文将以Java语言为编程语言,讲解使用Jsoup对Web网页知识进行爬取,文中给出了详细的示例代码,希望对大家有帮助。

一、初识Jsoup抓取

1、网页结构分析

在使用Jsoup对页面进行抓取时,需要对网页的结构进行初步的分析,便于制定相对应的抓取策略。首先打开浏览器,输入目标网站的地址,同时打开F12进入调试,找到目标网页的元素。

打开上面gdp百强榜表格中的div下table表格,找到如下的数据

同理,对于一般公共预算收入的数据处理也是同样的处理办法,在此不再赘述。

二、Java开发Jsoup抓取

1、引用Jsoup相关依赖包

这里我们采用Maven的jar进行包的依赖处理管理。因此先定义Pom.xml,关键代码如下所示:

<project xmlns="http://maven.apache.org/POM/4.0.0"
	xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
	xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
	<modelVersion>4.0.0</modelVersion>
	<groupId>com.yelang</groupId>
	<artifactId>jsoupdemo</artifactId>
	<version>0.0.1-SNAPSHOT</version>
	<dependencies>
		<dependency>
			<groupId>org.jsoup</groupId>
			<artifactId>jsoup</artifactId>
			<version>1.11.3</version>
		</dependency>
		<dependency>
			<groupId>com.alibaba</groupId>
			<artifactId>easyexcel</artifactId>
			<version>3.0.5</version>
		</dependency>
	</dependencies>
</project>

2、 信息实体类的处理

对比发现两个表格处理具体的指标不一样,前面的排名和县名称,所在省份名称都是一样的。因此我们采用面向对象的设计方法对信息处理的类进行开发。相应的类图如下所示:

3、数据采集实体

package com.yelang.entity;
 
import java.io.Serializable;
import com.alibaba.excel.annotation.ExcelProperty;
public class CountyBase implements Serializable {
	private static final long serialVersionUID = -1760099890427975758L;
 
	@ExcelProperty(value= {"序号"},index = 1)
	private Integer index;
 
	@ExcelProperty(value= {"县级地区"},index = 2)
	private String name;
 
	@ExcelProperty(value= {"所属省"},index = 3)
	private String province;
 
	public Integer getIndex() {
		return index;
	}
 
	public void setIndex(Integer index) {
		this.index = index;
	}
 
	public String getName() {
		return name;
	}
 
	public void setName(String name) {
		this.name = name;
	}
 
	public String getProvince() {
		return province;
	}
 
	public void setProvince(String province) {
		this.province = province;
	}
 
	public CountyBase(Integer index, String name, String province) {
		super();
		this.index = index;
		this.name = name;
		this.province = province;
	}
 
	public CountyBase() {
		super();
	}
 
}

在上面的代码中,将排序、县级地区、省作为父类抽象出来,设计两个子类:GDP类和一般公共收入类。这里需要注意的是,由于这里我们需要将采集的数据保存到本地的Excel表格中,这里我们采用EasyExcel作为技术生成组件。@ExcelProperty这个属性中,我们定义了写入的Excel表头以及具体的排序。

package com.yelang.entity;
 
import java.io.Serializable;
import com.alibaba.excel.annotation.ExcelProperty;
public class Gdp extends CountyBase implements Serializable {
 
	private static final long serialVersionUID = 5265057372502768147L;
 
	@ExcelProperty(value= {"GDP(亿元)"},index = 4)
	private String gdp;
	
	public String getGdp() {
		return gdp;
	}
 
	public void setGdp(String gdp) {
		this.gdp = gdp;
	}
 
	public Gdp(Integer index, String name, String province, String gdp) {
		super(index,name,province);
		this.gdp = gdp;
	}
 
	public Gdp(Integer index, String name, String province) {
		super(index, name, province);
	}
 
}
package com.yelang.entity;
 
import java.io.Serializable;
 
import com.alibaba.excel.annotation.ExcelProperty;
 
public class Gpbr extends CountyBase implements Serializable {
 
	private static final long serialVersionUID = 8612514686737317620L;
 
	@ExcelProperty(value= {"一般公共预算收入(亿元)"},index = 4)
	private String gpbr;// General public budget revenue
 
	public String getGpbr() {
		return gpbr;
	}
 
	public void setGpbr(String gpbr) {
		this.gpbr = gpbr;
	}
 
	public Gpbr(Integer index, String name, String province, String gpbr) {
		super(index, name, province);
		this.gpbr = gpbr;
	}
 
	public Gpbr(Integer index, String name, String province) {
		super(index, name, province);
	}
}

4、实际爬取

下面是处理GDP数据的转换代码,如果不熟悉Jsoup可以先熟悉下相关语法,如果有类似Jquery的开发经验,对于Jsoup上手非常快。

static void grabGdp() {
		String target = "https://www.maigoo.com/news/665462.html";
		try {
            Document doc = Jsoup.connect(target)
                    .ignoreContentType(true)
                    .userAgent(FetchCsdnCookie.ua[1])
                    .timeout(300000)
                    .header("referer","https://www.maigoo.com")
                    .get();
            Elements elements = doc.select("#t_container > div:eq(3) table tr");
            List<Gdp> list = new ArrayList<Gdp>();
            for(int i = 1;i<elements.size();i++) {
            	Element tr = elements.get(i);//获取表头
            	Elements tds = tr.select("td");
            	Integer index = Integer.valueOf(tds.get(0).text());
            	String name = tds.get(1).text();
            	String province = tds.get(2).text();
            	String gdp = tds.get(3).text();
            	Gdp county = new Gdp(index, name, province, gdp);
            	list.add(county);
            }
            String fileName = "E:/gdptest/2023全国百强县GDP排行榜 .xlsx";
            EasyExcel.write(fileName, Gdp.class).sheet("GDP百强榜").doWrite(list);
            System.out.println("完成...");
		} catch (Exception e) {
			System.out.println(e.getMessage());
			System.out.println("发生异常,继续下一轮循环");
		}
	}

这里需要注意的是在jsoup中如何进行网页的元素定位及抓取。在上面这里,我们使用类似jquery的Dom获取方法。

Elements elements = doc.select("#t_container > div:eq(3) table tr");

通过这一行去获取表格下的每一个tr,然后再循环每个td就可以获取对应的数据。 

三、过程分析及结果

1、采集过程分析

这里采用对源程序进行debug的方法对网页进行抽丝剥茧的分析。使用jsou进行网页模拟访问

采用select(xxx)的方法获取页面元素,

获取tr下的td单元格数据,

2、运行结果         

上述代码运行完成后,在目的磁盘可以看到以下两个文件,

打开上述两个excel文件可以看到想要采集的数据已经采集完毕,数据的顺序也是完全按照网页上的顺序来进行生成的。

总结

以上就是本文的主要内容。本文将以Java语言为编程语言,详细讲解了如何使用Jsoup对Web网页知识进行爬取,结合EasyExcel将网页表格转换成Excel表格,同时文中给出了详细的示例代码。

到此这篇关于使用Java快速将Web中表格转换成Excel的方法的文章就介绍到这了,更多相关Java将Web表格转换Excel内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Java并发编程之详解ConcurrentHashMap类

    Java并发编程之详解ConcurrentHashMap类

    在之前的文章中已经为大家介绍了java并发编程的工具:BlockingQueue接口、ArrayBlockingQueue、DelayQueue、LinkedBlockingQueue、PriorityBlockingQueue、SynchronousQueue、BlockingDeque接口,本文为系列文章第八篇.需要的朋友可以参考下
    2021-06-06
  • ShardingSphere如何进行sql重写示例详解

    ShardingSphere如何进行sql重写示例详解

    这篇文章主要为大家介绍了ShardingSphere如何进行sql重写示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-09-09
  • Java经典排序算法之希尔排序详解

    Java经典排序算法之希尔排序详解

    这篇文章主要为大家详细介绍了Java经典排序算法之希尔排序,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2017-04-04
  • java编程调用存储过程中得到新增记录id号的实现方法

    java编程调用存储过程中得到新增记录id号的实现方法

    这篇文章主要介绍了java编程调用存储过程中得到新增记录id号的实现方法,涉及Java数据库操作中存储过程的相关使用技巧,需要的朋友可以参考下
    2015-10-10
  • java.math包下计算浮点数和整数的类的实例

    java.math包下计算浮点数和整数的类的实例

    这篇文章主要介绍了java.math包下计算浮点数和整数的类的实例代码,本文通过使用BigDecimal进行浮点数比较给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-02-02
  • SpringBoot中@Test的介绍和使用案例

    SpringBoot中@Test的介绍和使用案例

    SpringBoot提供了方便的测试功能,可以很容易地进行单元测试和集成测试,这篇文章主要介绍了SpringBoot中@Test的介绍和使用,需要的朋友可以参考下
    2023-08-08
  • java学习之利用TCP实现的简单聊天示例代码

    java学习之利用TCP实现的简单聊天示例代码

    这篇文章主要给大家介绍了关于java学习笔记之利用TCP实现的简单聊天的相关资料,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧。
    2017-12-12
  • Spring和Websocket相结合实现消息的推送

    Spring和Websocket相结合实现消息的推送

    这篇文章主要介绍了Spring和Websocket相结合实现消息的推送的相关资料,本文介绍的非常详细具有参考借鉴价值,感兴趣的朋友一起学习吧
    2016-02-02
  • java配置变量的解释,搬运他人优质评论(推荐)

    java配置变量的解释,搬运他人优质评论(推荐)

    这篇文章主要介绍了java配置变量,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-04-04
  • java IO流读取图片供前台显示代码分享

    java IO流读取图片供前台显示代码分享

    这篇文章主要介绍了java IO流读取图片供前台显示代码分享,具有一定借鉴价值,需要的朋友可以参考下。
    2017-12-12

最新评论