文章目录
- XML
- 什么是XML?
- XML的作用?
- XML语法
- 文档声明
- XML注释
- 元素(标签)
- xml属性
- 语法规则
- 5.4、xml解析技术介绍
- dom4j 解析技术(重点)
- dom4j 编程步骤:
- 使用
- 遍历标签 获取所有标签中的内容(重点)
XML
什么是XML?
xml是可扩展标记语言
XML的作用?
xml的主要作用有:
用来保存数据,而且这些数据具有自我描述性
它还可以作为项目或模块的配置文件
还可以作为网络传输数据的格式(JSON为主)
XML语法
文档声明
元素(标签)
xml属性
xml注释
文本区域(CDATA区)
文档声明
<?xml version="1.0" encoding="UTF-8" ?>
<!--
<?xml version="1.0" encoding="UTF-8" ?>
以上内容都是xml文件的声明
version="1.0" version表示xml的版本
encoding="utf-8" encoding表示xml文件本身的编码
-->
<books><!--books表示多个图书信息-->
<book sn="SN1345649644"><!--book表示一个图书信息 sn属性表示图书序列号-->
<name>时间简史</name><!--name标签表示书名-->
<author>霍金</author><!--author表示作者-->
<price>99.9</price><!--price表示图书价格-->
</book>
<book sn="SN1345649654">
<name>java</name>
<author>张三</author>
<price>9.9</price>
</book>
</books>
而且这个<?xml 要连在一起写,否则会有报错
属性
version 是版本号
encoding 是 xml 的文件编码
standalone=“yes/no” 表示这个 xml 文件是否是独立的 xml 文件
<?xml version="1.0" encoding="UTF-8"?>
<!-- xml 声明 version 是版本的意思 encoding 是编码 -->
<books> <!-- 这是 xml 注释 -->
<book id="SN123123413241"> <!-- book 标签描述一本图书 id 属性描述 的是图书 的编号 -->
<name>java 编程思想</name> <!-- name 标签描述 的是图书 的信息 -->
<author>华仔</author> <!-- author 单词是作者的意思 ,描述图书作者 -->
<price>9.9</price> <!-- price 单词是价格,描述的是图书 的价格 -->
</book>
<book id="SN12341235123"> <!-- book 标签描述一本图书 id 属性描述 的是图书 的编号 -->
<name>葵花宝典</name> <!-- name 标签描述 的是图书 的信息 -->
<author>班长</author> <!-- author 单词是作者的意思 ,描述图书作者 -->
<price>5.5</price><!-- price 单词是价格,描述的是图书 的价格 -->
</book>
</books>
图书有 id 属性 表示唯一 标识,书名,有作者,价格的信息
XML注释
html和xml注释一样:
< !-- html 注释 -->
元素(标签)
html标签:
- 格式:<标签名>封装数据</标签名>
- 单标签:<标签名/> < br/>换行 < hr/>水平线
- 双标签:<标签名>封装数据</标签名>
- 标签名大小写不敏感
- 标签有属性,有基本属性和事件属性
- 标签要闭合(不闭合,html中不会报错。但我们要养成良好的书写习惯,闭合标签)
什么是xml元素?
xml元素指的是从(且包括)开始标签直到(且包括)结束标签的部分。
元素可包含其他元素、文本或者两者的混合物,元素也可以拥有属性。
元素是指从开始标签到结束标签的内容。
元素命名规则
名称可以含字母、数字以及其他字符
名称不能以数字或者标点符号开始
名称不能以字符“xml”(或者“XML”、“Xml”)开始(其实可以,只是不建议这么做)
名称不能包含空格
xml中的元素(标签)也分为单标签和双标签:
单标签:
格式:<标签名 属性=“值” 属性=“值“…/>
双标签:
格式:<标签名 属性=”值“ 属性=”值“…>文本数据或子标签</标签名>
xml属性
xml的标签属性和html的标签属性是非常类似的,属性可以提供元素的额外信息
在标签上可以书写属性:
一个标签上可以书写多个属性。每个属性值必须使用引号引起来
语法规则
所有xml元素都必须有关闭标签
xml标签对大小写敏感
xml标签必须进行正确的嵌套
xml文档必须有根元素
根元素就是顶级元素
没有父标签的元素,叫顶级元素。
根元素是没有父标签的顶级元素,而且是唯一一个
xml的属性值须加引号
xml中的特殊字符<: & lt; >: & lt;
文本区域(CDATA区)
CDATA语法可以告诉解析器,我们CDATA里的文本内容,只是纯文本,不需要xml语法解析
CDATA格式:
<![CDATA[这里可以把你输入的字符原样显示,不会解析xml]]>5.4、xml解析技术介绍
xml 可扩展的标记语言。
不管是 html 文件还是 xml 文件它们都是标记型文档,都可以使用 w3c 组织制定的 dom 技术来解析。
document 对象表示的是整个文档(可以是 html 文档,也可以是 xml 文档)
早期 JDK 为我们提供了两种 xml 解析技术 DOM 和 Sax 简介(已经过时,但我们需要知道这两种技术)
- dom 解析技术是 W3C 组织制定的,而所有的编程语言都对这个解析技术使用了自己语言的特点进行实现。
Java 对 dom 技术解析标记也做了实现。
sun 公司在 JDK5 版本对 dom 解析技术进行升级:SAX( Simple API for XML ) - SAX 解析,它跟 W3C 制定的解析不太一样。它是以类似事件机制通过回调告诉用户当前正在解析的内容。
它是一行一行的读取 xml 文件进行解析的。不会创建大量的 dom 对象。
所以它在解析 xml 的时候,在内存的使用上。和性能上。都优于 Dom 解析。 - 第三方的解析:
jdom 在 dom 基础上进行了封装 、
dom4j 又对 jdom 进行了封装。
pull 主要用在 Android 手机开发,是在跟 sax 非常类似都是事件机制解析 xml 文件。
这个 Dom4j 它是第三方的解析技术。我们需要使用第三方给我们提供好的类库才可以解析 xml
dom技术,就是每个标签都会变成一个对象,每读到一个标签都会创建一个对象
dom4j 解析技术(重点)
由于 dom4j 它不是 sun 公司的技术,而属于第三方公司的技术,我们需要使用 dom4j 就需要到 dom4j 官网下载 dom4j的 jar 包。
dom4j 编程步骤:
第一步: 先加载 xml 文件创建 Document 对象
第二步:通过 Document 对象拿到根元素对象
第三步:通过根元素.elelemts(标签名); 可以返回一个集合,这个集合里放着。所有你指定的标签名的元素对象
第四步:找到你想要修改、删除的子元素,进行相应在的操作
第五步,保存到硬盘上
使用
需要解析的 books.xml 文件内容:
<?xml version="1.0" encoding="UTF-8"?>
<books>
<book sn="SN12341232">
<name>辟邪剑谱</name>
<price>9.9</price>
<author>班主任</author>
</book>
<book sn="SN12341231">
<name>葵花宝典</name>
<price>99.99</price>
<author>班长</author>
</book>
</books>
首先创建一个book类,和对应的xml标签有一个对应关系:
先创建一个package:
创建一个book类,并生成对应的get、set方法,和toString方法:
快捷键:alt+insert
创建一个 lib 目录,并添加 dom4j 的 jar 包。并添加到类路径
仍然还是选择add as library,选择module library:
global library是项目中会用的
project library是每个模块都可使用
再将另外两个jar包添加进来:
解析获取 Document 对象的代码
第一步,先创建 SaxReader 对象。这个对象,用于读取 xml 文件,并创建 Documen
/*
* dom4j 获取 Documet 对象
*/
@Test
public void getDocument() throws DocumentException {
// 要创建一个 Document 对象,需要我们先创建一个 SAXReader 对象
SAXReader reader = new SAXReader();
// 这个对象用于读取 xml 文件,然后返回一个 Document。
Document document = reader.read("src/books.xml");
// 打印到控制台,看看是否创建成功
System.out.println(document);
}
遍历标签 获取所有标签中的内容(重点)
需要分四步操作:
第一步,通过创建 SAXReader 对象。来读取 xml 文件,获取 Document 对象
第二步,通过 Document 对象。拿到 XML 的根元素对象
第三步,通过根元素对象。获取所有的 book 标签对象
第四小,遍历每个 book 标签对象。然后获取到 book 标签对象内的每一个元素,再通过 getText() 方法拿到起始标签和结
束标签之间的文本内容
/*
* 读取 xml 文件中的内容
*/
@Test
public void readXML() throws DocumentException {
// 需要分四步操作:
// 第一步,通过创建 SAXReader 对象。来读取 xml 文件,获取 Document 对象
// 第二步,通过 Document 对象。拿到 XML 的根元素对象
// 第三步,通过根元素对象。获取所有的 book 标签对象
// 第四小,遍历每个 book 标签对象。然后获取到 book 标签对象内的每一个元素,再通过 getText() 方法拿到
起始标签和结束标签之间的文本内容
// 第一步,通过创建 SAXReader 对象。来读取 xml 文件,获取 Document 对象
SAXReader reader = new SAXReader();
Document document = reader.read("src/books.xml");
// 第二步,通过 Document 对象。拿到 XML 的根元素对象
Element root = document.getRootElement();
// 打印测试
// Element.asXML() 它将当前元素转换成为 String 对象
// System.out.println( root.asXML() );
// 第三步,通过根元素对象。获取所有的 book 标签对象
// Element.elements(标签名)它可以拿到当前元素下的指定的子元素的集合
//有element和elements两个方法,返回的元素个数不同,element只返回一个,elements返回多个
List<Element> books = root.elements("book");
// 第四小,遍历每个 book 标签对象。然后获取到 book 标签对象内的每一个元素,
for (Element book : books) {
// 测试
// System.out.println(book.asXML());
// 拿到 book 下面的 name 元素对象
Element nameElement = book.element("name");
// 拿到 book 下面的 price 元素对象
Element priceElement = book.element("price");
// 拿到 book 下面的 author 元素对象
Element authorElement = book.element("author");
// 再通过 getText() 方法拿到起始标签和结束标签之间的文本内容
System.out.println("书名" + nameElement.getText() + " , 价格:"
+ priceElement.getText() + ", 作者:" + authorElement.getText());
}
}
最后的system.out语句还可以这样写:
打印根元素:
asXML打印出的内容:
通过element(“name”)得到的内容打印:
通过getText方法得到的内容:
打印内容: