【Java 进阶篇】使用 Java 和 Jsoup 进行 XML 处理

news2024/9/30 13:22:48

在这里插入图片描述

XML(可扩展标记语言)是一种常用的数据交换格式,它被广泛用于在不同系统之间传递和存储数据。Java作为一种强大的编程语言,提供了多种方式来处理XML数据。其中,Jsoup 是一个流行的Java库,用于解析和操作XML文档。本篇博客将详细介绍如何使用Java和Jsoup来处理XML数据,无论您是初学者还是有一定经验的开发者,都能受益匪浅。

什么是 Jsoup?

Jsoup 是一个用于解析HTML和XML文档的Java库。尤其在网页抓取、数据提取和文档处理方面非常强大。它提供了一种简单的方式来遍历、搜索和修改文档树,使得XML处理变得非常容易。除了XML,Jsoup还支持HTML5,因此您可以用它来处理网页数据。

安装 Jsoup

要开始使用 Jsoup,您需要将它的库文件添加到您的Java项目中。您可以从 Jsoup 的官方网站上下载最新的jar文件,然后将它添加到您的项目的类路径中。

如果您使用 Maven 作为项目构建工具,只需在您的 pom.xml 文件中添加以下依赖:

<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.14.3</version> <!-- 使用最新的版本 -->
</dependency>

现在,让我们开始使用 Jsoup 来处理 XML 数据。

使用 Jsoup 解析 XML

在这个示例中,我们将使用 Jsoup 来解析一个简单的 XML 文档。我们的 XML 文档如下:

<?xml version="1.0" encoding="UTF-8"?>
<bookstore>
    <book>
        <title>Java Programming</title>
        <author>John Doe</author>
        <price>29.99</price>
    </book>
    <book>
        <title>Web Development with Jsoup</title>
        <author>Jane Smith</author>
        <price>19.95</price>
    </book>
</bookstore>

让我们从头开始,首先导入 Jsoup 和其他必要的类:

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

然后,我们将加载上面的 XML 文档:

public class XmlParsingExample {
    public static void main(String[] args) {
        String xml = "<?xml version=\"1.0\" encoding=\"UTF-8\"?>" +
                     "<bookstore>" +
                     "    <book>" +
                     "        <title>Java Programming</title>" +
                     "        <author>John Doe</author>" +
                     "        <price>29.99</price>" +
                     "    </book>" +
                     "    <book>" +
                     "        <title>Web Development with Jsoup</title>" +
                     "        <author>Jane Smith</author>" +
                     "        <price>19.95</price>" +
                     "    </book>" +
                     "</bookstore>";

        Document doc = Jsoup.parse(xml);
    }
}

现在,doc 包含了整个 XML 文档的内容。我们可以使用 Jsoup 来轻松地遍历和操作这个文档。

获取根元素

要获取根元素,我们可以使用 docselect 方法并传入根元素的标签名,通常是 “bookstore”。

Element rootElement = doc.select("bookstore").first();

获取子元素

要获取子元素,我们可以使用 select 方法并传入子元素的标签名,如 “book”。

Elements bookElements = rootElement.select("book");

获取元素内容

要获取元素的文本内容,我们可以使用 text() 方法。

String title = bookElement.select("title").text();
String author = bookElement.select("author").text();
String price = bookElement.select("price").text();

现在,我们已经成功解析了 XML 数据并提取了相关信息。

使用 Jsoup 修改 XML

除了解析,Jsoup 也允许我们修改 XML 文档。例如,我们可以添加、修改或删除元素。让我们看一个添加新书籍的例子。

假设我们想要添加一本新书到我们的 XML 文档中。首先,我们创建一个新的 Element,设置它的标签名和文本内容:

Element newBook = new Element("book");
newBook.appendChild(new Element("title").text("Data Structures in Java"));
newBook.appendChild(new Element("author").text("Alice Johnson"));
newBook.appendChild(new Element("price").text("24.95"));

然后,我们将这本新书添加到根元素中:

rootElement.appendChild(newBook);

最后,我们可以将整个文档转换为字符串:

String updatedXml = doc.outerHtml();

updatedXml 包含了已更新的 XML 数据。

使用 Jsoup 查询元素

Jsoup 还提供了强大的元素查询功能,允许您根据各种条件来查找和选择元素。这对于从复杂的XML文档中提取特定数据非常有用。以下是一些常用的查询方法:

  • 通过标签名查询元素:

    Elements elements = doc.select("tagname");
    
  • 通过类名查询元素:

    Elements elements = doc.select(".classname");
    
  • 通过属性查询元素:

    Elements elements = doc.select("[attribute=value]");
    
  • 通过多种条件组合查询元素:

    Elements elements = doc.select("tagname.classname[attribute=value]");
    

让我们通过一个示例来演示如何使用 Jsoup 查询元素。假设我们要找到所有价格低于 25 的书籍:

Elements cheapBooks = doc.select("book:has(price:matchesOwn(\\d+\\.\\d+))");

在上述示例中,我们使用 select 方法并传入查询条件 "book:has(price:matchesOwn(\\d+\\.\\d+))"。这个条件的含义是查找标签名为 “book” 的元素,其中包含名为 “price” 的元素,且价格匹配正则表达式 \\d+\\.\\d+,即匹配价格为小数形式的书籍。

然后,我们可以遍历 cheapBooks 集合来获取满足条件的书籍元素,以便进一步处理它们。

使用 Jsoup 处理 HTML

虽然本篇博客主要关注 XML 处理,但是 Jsoup 也是一种出色的 HTML 处理工具。它允许您解析和操作网页,从中提取有用的信息。

以下是一个简单的示例,演示如何使用 Jsoup 解析 HTML 页面并提取页面中的超链接:

import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;

public class HtmlParsingExample {
    public static void main(String[] args) {
        String url = "https://example.com"; // 替换为您要解析的网页地址

        try {
            Document doc = Jsoup.connect(url).get();
            Elements links = doc.select("a[href]");

            for (Element link : links) {
                String href = link.attr("href");
                String text = link.text();
                System.out.println("Link: " + text + " (" + href + ")");
            }
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

在这个示例中,我们使用 Jsoup.connect(url).get() 来下载指定网页的内容,然后使用 select 方法查找所有带有 href 属性的超链接。最后,我们遍历链接并提取链接的文本和 URL。

高级用法

Jsoup 还提供了许多高级功能,允许您进行更复杂的文档操作,包括:

  • 处理表单数据:Jsoup 允许模拟表单提交和处理表单数据。

  • 处理Cookie:您可以设置和处理Cookie来模拟用户会话。

  • 处理文件上传:Jsoup 可以用于上传文件到Web服务器。

  • 处理响应数据:您可以使用 Jsoup 处理来自Web服务器的响应数据,例如处理 JSON 或 XML 数据。

  • 爬取网页:Jsoup 在网页抓取方面非常有用,您可以编写爬虫来提取网站上的信息。

  • 过滤和清理HTML:Jsoup 允许您清理和过滤HTML,以防止跨站脚本攻击。

安全注意事项

当使用 Jsoup 处理来自不受信任源的数据时,请谨慎处理,以防止安全漏洞。Jsoup 有一些防范跨站脚本攻击(XSS)的功能,但您仍然需要小心处理来自用户的数据,以避免潜在的漏洞。

总结

本篇博客介绍了如何使用 Java 和 Jsoup 来解析和处理XML数据。我们了解了如何加载、解析和操作XML文档,以及如何使用查询和选择功能来提取特定元素。此外,我们还提到了如何使用 Jsoup 处理HTML页面,以及一些高级用法和安全注意事项。

无论您是处理XML数据、抓取网页信息还是进行数据清理,Jsoup 都是一个功能强大且易于使用的工具。希望这篇博客对您有所帮助,让您更好地掌握如何在Java中处理XML和HTML数据。如果您有任何问题或需要进一步的指导,请随时提问。祝您在XML和HTML数据处理中取得成功!

作者信息

作者 : 繁依Fanyi
CSDN: https://techfanyi.blog.csdn.net
掘金:https://juejin.cn/user/4154386571867191

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1129486.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【数据结构练习题】消失的数字 --- 三种解法超详解

✨博客主页&#xff1a;小钱编程成长记 &#x1f388;博客专栏&#xff1a;数据结构练习题 &#x1f388;相关博文&#xff1a;添加逗号 消失的数字 1. &#x1f388;题目2. &#x1f388;解题思路✨方法一&#xff1a;先排序&#xff0c;再找缺失的值✨方法二&#xff1a;按位…

怎么禁止员工上班追剧

怎么禁止员工上班追剧 安企神终端安全管理软件下载使用 说到员工上班追究打游戏摸鱼&#xff0c;其实是一种不负责任的行为&#xff0c;这样的行为不仅会影响到工作效率&#xff0c;还会给周围的同事带来不好的工作氛围&#xff0c;会造成恶性循环&#xff0c;所以&#xff0…

windows下安装配置CGAL

一、下载安装Boost、CGAL 下载地址&#xff1a;https://sourceforge.net/projects/boost/files/boost-binaries/ Boost是CGAL的强制依赖项。SourceForge上提供了Boost的二进制版本&#xff08;此版本无须编译&#xff0c;可直接使用&#xff09;。Boost安装程序会同时安装Boos…

30天精通Nodejs--第二天:模块系统与npm

深入了解Node.js&#xff1a;模块系统与npm Node.js作为一款强大的服务器端JavaScript运行环境&#xff0c;模块系统和npm&#xff08;Node Package Manager&#xff09;是其成功的重要组成部分。为我们平时提供了便捷的工具和资源&#xff0c;使得在Node.js平台上构建应用变得…

五、Qt中的常用类

1. QString 字符串类 QString是Qt中的字符串类&#xff0c;与C/C不同的是&#xff0c;不再使用ASCII编码&#xff0c;而使用Unicode编码。因此一个字符不是8位的char&#xff0c;而是16位的QChar&#xff0c;这就是为什么之前一个汉字占用一个字符的原因。、 QString几乎向前兼…

使用jdbc技术连接数据库

连接数据库 <dependencies><dependency><groupId>mysql</groupId><artifactId>mysql-connector-java</artifactId><version>8.0.28</version><scope>compile</scope></dependency> </dependencies> g…

腾讯云阿里云服务器mongdb数据库设置密码

避坑点 数据库绑定ip一定要设置0.0.0.0 设置超级管理员账号密码 1、可以使用navicat15连接mongodb数据库&#xff0c;进入命令行界面&#xff0c;输入以下命令 如出现找不到MongoDB shell为可执行文件&#xff0c;选择设置路径&#xff0c;路径为&#xff1a;MongoDB shell是…

【底层服务/编程功底系列】「网络通信体系」深入探索和分析TCP协议的运输连接管理的核心原理和技术要点

【底层服务/编程功底系列】「网络通信体系」深入探索和分析TCP协议的运输连接管理的核心原理和技术要点 TCP的运输连接管理TCP三次握手三次握手流程分析注意要点 TCP四次挥手TCP之保活计时器&#xff08;keepalive timer&#xff09;保活计时器&#xff08;keepalive timer&…

入门人工智能 —— 学习数据持久化、使用 Python 将数据保存到mysql(7)

入门人工智能 —— 学习数据持久化、使用 Python 将数据保存到mysql 什么是数据持久化&#xff1f;使用 Python 进行数据持久化步骤 1: 安装 MySQL步骤 2: 安装必要的 Python 库步骤 3: 连接到 MySQL 数据库步骤 4: 创建数据表步骤 5: 插入数据步骤 6: 查询数据步骤 7: 关闭连接…

管理类联考——英语二——翻译篇——定语从句的翻译方法

第三节 定语从句的翻译方法 定语从句的翻译主要分为限制性定语从句和非限制性定语从句的翻译。主要可以分为三种方法&#xff1a;合译法、分译法和转译法。 一、限制性定语从句的翻译方法 限制性定语从句所修饰的先行词自身意义不明确&#xff0c;被定语从句修饰限定后其意…

很多技术人就是会存在自己技术能力不错但是是茶壶里煮饺子倒不出来,如何解决?可以用笔和纸去画一画?

所描述的情况通常指的是一些技术人员虽然拥有丰富的技术知识和实践经验&#xff0c;但在表达和沟通方面存在困难&#xff0c;无法有效地将自己的思考和解决方案传达给他人。这种情况在技术领域相对常见&#xff0c;因为技术人员往往更注重技术深度而非沟通技巧。为了解决这个问…

Azure - 机器学习企业级服务概述与介绍

目录 一、什么是 Azure 机器学习&#xff1f;大规模生成业务关键型机器学习模型 二、Azure 机器学习适合哪些人群&#xff1f;三、Azure 机器学习的价值点加快价值实现速度协作并简化 MLOps信心十足地开发负责任地设计 四、端到端机器学习生命周期的支持准备数据生成和训练模型…

基于LiteOS的智慧农业案例实验分享

最近在指导一位读者朋友做毕业设计&#xff0c;该毕设是关于端云互通的&#xff0c;基于小熊派LiteOS华为云。 在指导他的过程中我也学到了不少东西&#xff0c;这里通过一个案例实验&#xff08;智慧农业&#xff09;给大家分享一些知识。 实验框图 相关模块简介 1、STM32L4…

管理类联考——英语二——翻译篇——名词性从句的译法

第四节 名词性从句的译法 英语的名词性从句有四种&#xff0c;分别是主语从句&#xff0c;宾语从句&#xff0c;表语从句和同位语从句。整体而言&#xff0c;名词性从句的理解和中文语序的理解大致相同&#xff0c;因此在英译汉时&#xff0c;它无须作太大的调整&#xff08;…

Centos安装gitlabce

服务器配置要求&#xff08;2c4g&#xff09; 1、 安装其他组件 yum install -y curl policycoreutils-python openssh perl2、 安装Postfix服务以发送电子邮件通知&#xff0c;启动服务并自启 yum -y install postfix systemctl enable postfix --now3、 安装gitlab&#xf…

Linux C语言开发-D5常量

指数形式的实数一般由尾数部分、字母e或E和指数部分组成。格式如下&#xff1a; 字符常量 常见的字符常量的ASCII码的值为&#xff1a; A&#xff1a;65&#xff1b;Z&#xff1a;90&#xff1b; &#xff1a;32&#xff1b;0&#xff1a;48&#xff1b; a&#xff1a;97&…

怎么进行设备维护与保养?智能巡检系统有什么用?

设备维护与保养需要遵循三个原则&#xff1a;故障设备全面分析的原则、故障设备深入检查的原则以及故障设备分析排查的原则。 一、故障设备全面分析的原则   检修人员在对设备维护与保养时&#xff0c;如果看到设备在运行中出现了异常的现象&#xff0c;要立刻停止设备的工作…

有一门课不及格的学生

系列文章目录 进阶的卡莎C_睡觉觉觉得的博客-CSDN博客数1的个数_睡觉觉觉得的博客-CSDN博客双精度浮点数的输入输出_睡觉觉觉得的博客-CSDN博客足球联赛积分_睡觉觉觉得的博客-CSDN博客大减价(一级)_睡觉觉觉得的博客-CSDN博客小写字母的判断_睡觉觉觉得的博客-CSDN博客纸币(C…

2023年香港《施政报告》即将发布,人才引进计划最新政策解读!

2023年香港《施政报告》即将发布&#xff0c;人才引进计划最新政策解读&#xff01; 香港行政长官李家超将于10月25日发表任内第二份《施政报告》。李家超昨日&#xff08;10月22日&#xff09;在社交媒体分享视频&#xff0c;他手持新一份施政报告&#xff0c;封面是浅绿色为背…

【C语言|关键字】C语言32个关键字详解(4)——其他(typedef、sizeof)

&#x1f601;博客主页&#x1f601;&#xff1a;&#x1f680;https://blog.csdn.net/wkd_007&#x1f680; &#x1f911;博客内容&#x1f911;&#xff1a;&#x1f36d;嵌入式开发、Linux、C语言、C、数据结构、音视频&#x1f36d; &#x1f923;本文内容&#x1f923;&a…