一种使用Java的快速将Web中表格转换成Excel的方法

news2025/1/18 16:51:51

背景

        随着后疫情时代的到来,在过去的2022年,全国的经济情况,想必是很多学者和研究对象都非常关心的事。而这些数据在国家统计局网站上都有相应的记录。通过分析这些数据,可以从某一个角度来验证和观察当下的经济情况。

        全国共计有1279个县级单位已经披露了2022年GDP和一般公共预算收入数据情况,企业预警通根据这些数据整理出中国百强县gdp排行榜和百强县一般公共预算收入排行榜。其中昆山市以5006.66亿元GDP蝉联榜单榜首,江阴市、晋江市位列百强县第二三位,长沙县是湖南省唯一进入全国前十的(Top7)。来源:2023中国县城GDP百强榜揭晓 2023中国百强县排行榜一览。

         第一张图是以图片的形式发布的,第二种是采用Html的表格(table)形式展示的。在离线分析使用数据的时候非常不方便。作为程序猿,这一定难不倒您。我们可以采用网页抓取的技术对数据进行整理。本文将以Java语言为编程语言,讲解使用Jsoup对Web网页知识进行爬取,文中给出了详细的示例代码,希望对大家有帮助。

一、初识Jsoup抓取

1、网页结构分析

        在使用Jsoup对页面进行抓取时,需要对网页的结构进行初步的分析,便于制定相对应的抓取策略。首先打开浏览器,输入目标网站的地址,同时打开F12进入调试,找到目标网页的元素。

         打开上面gdp百强榜表格中的div下table表格,找到如下的数据

         同理,对于一般公共预算收入的数据处理也是同样的处理办法,在此不再赘述。

二、Java开发Jsoup抓取

1、引用Jsoup相关依赖包

        这里我们采用Maven的jar进行包的依赖处理管理。因此先定义Pom.xml,关键代码如下所示:

<project xmlns="http://maven.apache.org/POM/4.0.0"
	xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
	xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
	<modelVersion>4.0.0</modelVersion>
	<groupId>com.yelang</groupId>
	<artifactId>jsoupdemo</artifactId>
	<version>0.0.1-SNAPSHOT</version>

	<dependencies>
		<dependency>
			<groupId>org.jsoup</groupId>
			<artifactId>jsoup</artifactId>
			<version>1.11.3</version>
		</dependency>

		<dependency>
			<groupId>com.alibaba</groupId>
			<artifactId>easyexcel</artifactId>
			<version>3.0.5</version>
		</dependency>
	</dependencies>

</project>

2、 信息实体类的处理

        对比发现两个表格处理具体的指标不一样,前面的排名和县名称,所在省份名称都是一样的。因此我们采用面向对象的设计方法对信息处理的类进行开发。相应的类图如下所示:

 3、数据采集实体

package com.yelang.entity;

import java.io.Serializable;
import com.alibaba.excel.annotation.ExcelProperty;
public class CountyBase implements Serializable {
	private static final long serialVersionUID = -1760099890427975758L;

	@ExcelProperty(value= {"序号"},index = 1)
	private Integer index;

	@ExcelProperty(value= {"县级地区"},index = 2)
	private String name;

	@ExcelProperty(value= {"所属省"},index = 3)
	private String province;

	public Integer getIndex() {
		return index;
	}

	public void setIndex(Integer index) {
		this.index = index;
	}

	public String getName() {
		return name;
	}

	public void setName(String name) {
		this.name = name;
	}

	public String getProvince() {
		return province;
	}

	public void setProvince(String province) {
		this.province = province;
	}

	public CountyBase(Integer index, String name, String province) {
		super();
		this.index = index;
		this.name = name;
		this.province = province;
	}

	public CountyBase() {
		super();
	}

}

         在上面的代码中,将排序、县级地区、省作为父类抽象出来,设计两个子类:GDP类和一般公共收入类。这里需要注意的是,由于这里我们需要将采集的数据保存到本地的Excel表格中,这里我们采用EasyExcel作为技术生成组件。@ExcelProperty这个属性中,我们定义了写入的Excel表头以及具体的排序。

package com.yelang.entity;

import java.io.Serializable;
import com.alibaba.excel.annotation.ExcelProperty;
public class Gdp extends CountyBase implements Serializable {

	private static final long serialVersionUID = 5265057372502768147L;

	@ExcelProperty(value= {"GDP(亿元)"},index = 4)
	private String gdp;
	
	public String getGdp() {
		return gdp;
	}

	public void setGdp(String gdp) {
		this.gdp = gdp;
	}

	public Gdp(Integer index, String name, String province, String gdp) {
		super(index,name,province);
		this.gdp = gdp;
	}

	public Gdp(Integer index, String name, String province) {
		super(index, name, province);
	}

}
package com.yelang.entity;

import java.io.Serializable;

import com.alibaba.excel.annotation.ExcelProperty;

public class Gpbr extends CountyBase implements Serializable {

	private static final long serialVersionUID = 8612514686737317620L;

	@ExcelProperty(value= {"一般公共预算收入(亿元)"},index = 4)
	private String gpbr;// General public budget revenue

	public String getGpbr() {
		return gpbr;
	}

	public void setGpbr(String gpbr) {
		this.gpbr = gpbr;
	}

	public Gpbr(Integer index, String name, String province, String gpbr) {
		super(index, name, province);
		this.gpbr = gpbr;
	}

	public Gpbr(Integer index, String name, String province) {
		super(index, name, province);
	}
}

 4、实际爬取

        下面是处理GDP数据的转换代码,如果不熟悉Jsoup可以先熟悉下相关语法,如果有类似Jquery的开发经验,对于Jsoup上手非常快。

static void grabGdp() {
		String target = "https://www.maigoo.com/news/665462.html";
		try {
            Document doc = Jsoup.connect(target)
                    .ignoreContentType(true)
                    .userAgent(FetchCsdnCookie.ua[1])
                    .timeout(300000)
                    .header("referer","https://www.maigoo.com")
                    .get();
            Elements elements = doc.select("#t_container > div:eq(3) table tr");
            List<Gdp> list = new ArrayList<Gdp>();
            for(int i = 1;i<elements.size();i++) {
            	Element tr = elements.get(i);//获取表头
            	Elements tds = tr.select("td");
            	Integer index = Integer.valueOf(tds.get(0).text());
            	String name = tds.get(1).text();
            	String province = tds.get(2).text();
            	String gdp = tds.get(3).text();
            	Gdp county = new Gdp(index, name, province, gdp);
            	list.add(county);
            }
            String fileName = "E:/gdptest/2023全国百强县GDP排行榜 .xlsx";
            EasyExcel.write(fileName, Gdp.class).sheet("GDP百强榜").doWrite(list);
            System.out.println("完成...");
		} catch (Exception e) {
			System.out.println(e.getMessage());
			System.out.println("发生异常,继续下一轮循环");
		}
	}

         这里需要注意的是在jsoup中如何进行网页的元素定位及抓取。在上面这里,我们使用类似jquery的Dom获取方法。

 Elements elements = doc.select("#t_container > div:eq(3) table tr");

        通过这一行去获取表格下的每一个tr,然后再循环每个td就可以获取对应的数据。 

三、过程分析及结果

1、采集过程分析

        这里采用对源程序进行debug的方法对网页进行抽丝剥茧的分析。使用jsou进行网页模拟访问

         采用select(xxx)的方法获取页面元素,

         获取tr下的td单元格数据,

2、运行结果         

        上述代码运行完成后,在目的磁盘可以看到以下两个文件,

         打开上述两个excel文件可以看到想要采集的数据已经采集完毕,数据的顺序也是完全按照网页上的顺序来进行生成的。

 总结

        以上就是本文的主要内容。本文将以Java语言为编程语言,详细讲解了如何使用Jsoup对Web网页知识进行爬取,结合EasyExcel将网页表格转换成Excel表格,同时文中给出了详细的示例代码。由于行文仓促,难免有误,欢迎批评指正交流。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/576195.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Less基础速学 —— 嵌套、变量、注释、

关于CSS的预处理有读者了解到的就有主流的这三种&#xff1a;less 、sass/sacc 和 stylus&#xff0c;那么在使用这些CSS的预处理器&#xff0c;有浏览器的用法和服务器端的方法&#xff0c;例如使用Node来通过NPM包管理工具下载安装less在服务端来跑&#xff0c;那么在浏览器上…

go渲染静态html引擎模版

写个小例子介绍一下渲染html引擎模板的使用&#xff0c;大致目录结果如下&#xff1a; templates目录下三个html内容如下: index.html <title>模板1</title><link rel"stylesheet" href"/css/index.css" /><h1 class"text&quo…

数据链路层:差错检测

1.数据链路层&#xff1a;差错检测 笔记来源&#xff1a; 湖科大教书匠&#xff1a;差错检测 声明&#xff1a;该学习笔记来自湖科大教书匠&#xff0c;笔记仅做学习参考 比特差错&#xff1a;比特在传输过程中1可能变为0&#xff0c;0可能变为1 误码率BER&#xff1a;传输错误…

数据链路层:以太网/ARP协议

本文将分享数据链路层的相关知识点&#xff1a;以太网、以太网帧格式、MAC地址、MTU和ARP协议 以太网 "以太网" 不是一种具体的网络, 而是一种技术标准; 既包含了数据链路层的内容, 也包含了一些物理层的内容。例如: 规定了网络拓扑结构, 访问控制方式, 传输速率等。…

Linux学习笔记 --- Linux用户和权限

一. 认知root用户 目标&#xff1a;1. 了解什么是root用户(超级管理员) 2. 掌握用户切换的相关命令 3. 掌握sudo命令 root用户&#xff08;超级管理员&#xff09; 无论是Windows、MacOS、Linux均采用多用户的管理模式进行权限管理。 在Linux系统中&#xff0c;拥有…

STM32 UDS Bootloader开发-需求篇

文章目录 前言内存分配UDS诊断协议需求CAN ID及时间参数诊断服务Bootloader诊断服务 APP诊断服务DID刷写流程预编程主编程后编程 总结 前言 最近断断续续的在做基于STM32F103的UDS Bootloader,没有项目驱动&#xff0c;只是自己感兴趣。目前基本已经可以实现功能了&#xff0c…

关于 OpenCV 图像处理工具包 imutils 简单认知

写在前面 博文内容涉及 基本的图像处理工具包 imutils 的简单介绍以及使用Demo理解不足小伙伴帮忙指正 对每个人而言&#xff0c;真正的职责只有一个&#xff1a;找到自我。然后在心中坚守其一生&#xff0c;全心全意&#xff0c;永不停息。所有其它的路都是不完整的&#xff0…

2023年真无线蓝牙耳机品牌有哪些推荐?无线蓝牙耳机选购指南

今天就来给大家测评一下2023年最受用户欢迎的蓝牙耳机&#xff0c;在不断地测试耳机&#xff0c;并挖掘好的耳机出来&#xff0c;不得不说&#xff0c;蓝牙和麦克风以及音频技术的驱动的迭代更新&#xff0c;性能确实惊叹不已。 对于刚接触无线耳机的小白来说&#xff0c;选购…

【服务器】支付宝SDK接口调试

​ 文章目录 1.测试环境2.本地配置3. 内网穿透3.1 下载安装cpolar内网穿透3.2 创建隧道 4. 测试公网访问5. 配置固定二级子域名5.1 保留一个二级子域名5.2 配置二级子域名 6. 使用固定二级子域名进行访问 转发自cpolar内网穿透的文章&#xff1a;Java支付宝沙箱环境支付&#…

低代码的“钱景”——专业的事交给专业的人来做

你需要知道的低代码 低代码通常是指一种可视化的开发方法&#xff0c;用较少的代码、较快的速度来交付应用程序&#xff0c;相似的概念还有“无代码”&#xff0c;也是一种开发方法&#xff0c;通常是面向非技术性员工&#xff0c;让业务人员也可以成为“技术人员”&#xff0…

首发Yolov8涨点神器:华为诺亚2023极简的神经网络模型 VanillaNet---VanillaBlock助力检测,实现暴力涨点

强烈推荐:博主多个数据集亲测有效,实现暴力涨点,可快速迁移到论文创新性十足,刚新鲜出炉的论文,华为诺亚共同提出!!! 1.VanillaNet 论文:https://arxiv.org/pdf/2305.12972.pdf 来自华为诺亚、悉尼大学的研究者们提出了一种极简的神经网络模型 VanillaNet,以极简主义…

表情包APP小程序制作开发功能有哪些?

表情包小程序在实际的开发过程中所具备的功能都是至关重要的&#xff0c;功能完善好操作才能更受用户青睐。表情包小程序制作开发功能包括但不仅限于以下几点&#xff1a; 1、热门表情包推荐。表情包制作小程序为用户推荐最热门的表情包&#xff0c;让用户可以紧跟当下流…

串口屏-迪文10寸T5串口屏简单上手

先看效果 调试所需软件 DGUS上位机 下载链接 调试所需硬件 SD卡一张 读卡器一个 USB转TTL一个 DGUS上位机调试 点击新建工程(会让你选尺寸) 分别生成0号字库和DWIN ICL文件 0号字库文件在你软件的安装目录可以找到 ICL文件输出到你能找到的位置 等会要用 添加背景图片 …

异常检测论文1

本文仅作为个人阅读文献&#xff0c;做笔记记录。 <> \usepackage[dvipsnames]{xcolor} 一、摘要部分&#xff1a; 我们发现&#xff0c;现有的数据集偏向于局部结构异常&#xff0c;如划痕、凹痕或污染。特别是&#xff0c;它们缺乏违反逻辑约束形式的异常&#xff0…

【redis】Stream、String 超详细介绍

文章目录 一、Stream1.1 写入数据XADD条目 ID 的格式 1.2 获取数据XRANGE 和 XREVRANGEXREAD 监听新条目非阻塞形式阻塞形式 1.3 消费者组XGROUP 创建消费者组XREADGROUP 通过消费者组消费XACK 确认消息消费者组示例 1.4 XPENDING 和 XCLAIM 认领 其他消费者 的待处理消息XPEND…

(2022,MaskedGAN)掩蔽的生成对抗网络是数据高效生成学习者

Masked Generative Adversarial Networks are Data-Efficient Generation Learners 公众号&#xff1a;EDPJ 目录 0. 摘要 1. 简介 2. 相关工作 3. 方法 3.1 任务定义 3.2 掩蔽的生成对抗网络 3.3 理论见解 4. 实验 4.1 在 CIFAR-10、CIFAR-100 和 ImageNet 上使用…

算法基础学习笔记——④前缀和\差分\双指针\位运算

✨博主&#xff1a;命运之光 ✨专栏&#xff1a;算法基础学习 目录 ✨前缀和 ✨一维前缀和 &#x1f353;一维前缀和模板&#xff1a; ✨二维前缀和 &#x1f353;二位前缀和模板&#xff1a; 前言&#xff1a;算法学习笔记记录日常分享&#xff0c;需要的看哈O(∩_∩)O&a…

Python二级编程:分词去重

一、原题 参考编程模板&#xff0c;完善代码&#xff0c;实现以下功能。‪‪‪‪‪‫‫‪‪‪‪‪‪‪‪‪‪‪‪‪‪‪‪‪‫‪‪‪‪‪‪‪‪‪‪‪‪‪‫ 利用 jieba 库实现中文分词。对分词后的列表进行去重处理&#xff0c;然后将分词结果中字符数大于等于 3 的词语&…

大话手游原始服务端搭建教程Centos

大话手游原始服务端搭建教程Centos 大家好&#xff0c;我是艾西&#xff0c;今天给大家分享一款回合制的ARPG大话手游搭建教程。游戏场景、精美的画面以及多元的人物做的非常棒。在游戏中可以穿越神话世界&#xff0c;同时也可以结交好友&#xff0c;加入团队&#xff0c;共同…

按键的单击、双击、连续按、短按和长按实现思路

概念区分 看到好多教程说了这些概念&#xff0c;有的说单击就是短按&#xff0c;连续按就是长按等等。 其实&#xff0c;仔细想想&#xff0c;这几个概念是有一些区别的。 假如一个按键&#xff0c;没按下时是高电平&#xff0c;按下时是低电平&#xff0c;以此来理解这些概念。…