08 Python进阶：XML 解析

什么是 XML？

在这里插入图片描述

XML（可扩展标记语言，Extensible Markup Language）是一种用于表示和传输数据的标记语言。它被设计用来以一种结构化的形式描述文档的内容，并且具有良好的跨平台和跨语言的特性。XML使用标签来定义数据的结构，并可以通过自定义标签来适应各种不同的应用领域。

XML的主要特点包括：

可扩展性：XML允许用户自定义标签，因此可以根据不同需求灵活扩展和定义数据结构。
适应性：XML可以用于描述各种不同类型的数据，包括文本、图像、音频、视频等多媒体数据。
平台无关性：XML是一种纯文本格式，不依赖于任何特定的硬件或软件平台。
易于阅读和编写：XML文档使用标签进行结构化表示，使其易于人类阅读和编辑。
广泛应用：XML在诸如Web服务（Web Services）、配置文件、数据交换等领域得到广泛应用。

通常，在XML中，数据以标签（tag）的形式包裹，并且可以使用属性（attributes）来提供更多的信息。下面是一个简单的XML示例：

<person>
    <name>John Doe</name>
    <age>30</age>
    <gender>Male</gender>
</person>

这段XML描述了一个人员信息，包括姓名、年龄和性别。XML的灵活性和通用性使其成为数据交换、配置文件、Web服务等领域中常用的数据表示格式。

Python 对 XML 的解析方案

在这里插入图片描述

常见的 XML 编程接口有 DOM 和 SAX，这两种接口处理 XML 文件的方式不同，当然使用场合也不同。

Python 有三种方法解析 XML：ElementTree、SAX 以及 DOM。

ElementTree
xml.etree.ElementTree 是 Python 标准库中用于处理 XML 的模块，它提供了简单而高效的 API，用于解析和生成 XML 文档。
SAX (simple API for XML )
Python 标准库包含 SAX 解析器，SAX 用事件驱动模型，通过在解析 XML 的过程中触发一个个的事件并调用用户定义的回调函数来处理 XML 文件。
DOM(Document Object Model)
将 XML 数据在内存中解析成一个树，通过对树的操作来操作 XML。

后面用到的实例文件：

<collection shelf="New Arrivals">
<movie title="Enemy Behind">
   <type>War, Thriller</type>
   <format>DVD</format>
   <year>2003</year>
   <rating>PG</rating>
   <stars>10</stars>
   <description>Talk about a US-Japan war</description>
</movie>
<movie title="Transformers">
   <type>Anime, Science Fiction</type>
   <format>DVD</format>
   <year>1989</year>
   <rating>R</rating>
   <stars>8</stars>
   <description>A schientific fiction</description>
</movie>
   <movie title="Trigun">
   <type>Anime, Action</type>
   <format>DVD</format>
   <episodes>4</episodes>
   <rating>PG</rating>
   <stars>10</stars>
   <description>Vash the Stampede!</description>
</movie>
<movie title="Ishtar">
   <type>Comedy</type>
   <format>VHS</format>
   <rating>PG</rating>
   <stars>2</stars>
   <description>Viewable boredom</description>
</movie>
</collection>

Python 使用 ElementTree 解析 xml

xml.etree.ElementTree 是 Python 标准库中用于处理 XML 的模块。

以下是 xml.etree.ElementTree 模块的一些关键概念和用法：

ElementTree 和 Element 对象:

ElementTree： ElementTree 类是 XML 文档的树形表示。它包含一个或多个 Element 对象，代表整个 XML 文档。
Element： Element 对象是 XML 文档中元素的表示。每个元素都有一个标签、一组属性和零个或多个子元素。

接下来，让我们分步进行解释：

解析 XML

首先，需要导入 ElementTree 模块，并使用 ET.parse() 方法加载 XML 文件。

本例中文件名为 example.xml。

使用 ET.parse() 方法加载 XML 文件，并使用 getroot() 方法获取 XML 树的根元素 root。

import xml.etree.ElementTree as ET

tree = ET.parse('example.xml')
root = tree.getroot()

遍历 XML 树

要遍历 XML 树，可以使用循环来遍历子元素。每个元素都有标签名 (tag)、属性 (attrib) 和文本内容 (text)。

for movie in root.findall('movie'):
    title = movie.get('title')
    print(f"Movie title: {title}")

    description = movie.find('description').text
    print(f"Description: {description}")

    format = movie.find('format').text
    print(f"Format: {format}")

在上面的示例中，使用 findall('movie') 方法遍历所有 movie 元素。然后，我们使用 get('title') 获取电影的标题属性，以及 find('description').text 获取描述子元素的文本内容，以及格式等。

访问元素属性和文本

使用 get('attr_name') 方法来访问元素的属性。
使用 find('subelement') 方法来获取子元素，然后使用 .text 属性来获取子元素的文本内容。

创建 XML 元素

要创建新的 XML 元素，可以使用 ET.SubElement() 方法，并将其附加到父元素中。

new_movie = ET.SubElement(root, 'movie')
new_movie.set('title', 'New Movie Title')

new_description = ET.SubElement(new_movie, 'description')
new_description.text = 'Exciting new movie'

上面的例子中，我们创建了一个新的 movie 元素，并设置了它的标题属性和描述子元素的文本内容。

修改和删除 XML 元素

要修改现有元素的属性或文本内容，只需直接对相应的属性进行赋值操作即可。要删除元素，可以使用 remove() 方法。

# 修改元素属性
movie.set('title', 'New Title')

# 修改子元素文本内容
description.text = 'New description'

# 删除元素
root.remove(movie)

简单读取 XML 内容：

import xml.etree.ElementTree as ET

# 定义一个 XML 字符串
xml_string = '''
<bookstore>
    <book>
        <title>Introduction to Python</title>
        <author>John Doe</author>
        <price>29.99</price>
    </book>
    <book>
        <title>Data Science with Python</title>
        <author>Jane Smith</author>
        <price>39.95</price>
    </book>
</bookstore>
'''

# 使用 ElementTree 解析 XML 字符串
root = ET.fromstring(xml_string)

# 遍历 XML 树
for book in root.findall('book'):
    title = book.find('title').text
    author = book.find('author').text
    price = book.find('price').text
    print(f'Title: {title}, Author: {author}, Price: {price}')

以上代码执行输出结果为：

Title: Introduction to Python, Author: John Doe, Price: 29.99
Title: Data Science with Python, Author: Jane Smith, Price: 39.95

Python 使用 SAX 解析 xml

SAX 是一种基于事件驱动的API。

利用 SAX 解析 XML 文档牵涉到两个部分: 解析器和事件处理器。

解析器负责读取 XML 文档，并向事件处理器发送事件，如元素开始跟元素结束事件。

而事件处理器则负责对事件作出响应，对传递的 XML 数据进行处理。

对大型文件进行处理；
只需要文件的部分内容，或者只需从文件中得到特定信息。
想建立自己的对象模型的时候。

在 Python 中使用 sax 方式处理 xml 要先引入 xml.sax 中的 parse 函数，还有 xml.sax.handler 中的 ContentHandler。
ContentHandler 类方法介绍

使用xml.dom解析xml

ContentHandler 类是 Python 的 xml.sax 模块中定义的一个标准接口，用于处理 XML 文档的内容。下面是常用的 ContentHandler 类方法、参数和简要介绍，以及配合示例：

方法介绍与参数：

startDocument()
- 参数：无
- 介绍：开始解析文档时调用，用于初始化解析状态。

def startDocument(self):
    print("Start parsing document")

endDocument()
- 参数：无
- 介绍：结束解析文档时调用，用于清理解析过程中占用的资源。

def endDocument(self):
    print("End parsing document")

startElement(tag, attributes)
- 参数：tag 表示元素标签名，attributes 是一个字典类型，包含了元素的属性。
- 介绍：遇到 XML 元素的开始标签时调用，用于处理元素的开始部分。

def startElement(self, tag, attributes):
    print(f"Start element: {tag}")
    if attributes:
        print("Attributes:", attributes)

endElement(tag)
- 参数：tag 表示元素标签名。
- 介绍：遇到 XML 元素的结束标签时调用，用于处理元素的结束部分。

def endElement(self, tag):
    print(f"End element: {tag}")

characters(content)
- 参数：content 是元素内的字符数据（文本内容）。
- 介绍：用于处理元素内的字符数据。

def characters(self, content):
    print("Character data:", content)

make_parser, parser 和 parseString 都是与 XML 解析相关的函数或类，通常用于解析和处理 XML 数据。下面是它们的简要介绍：

xml.sax.make_parser()
- xml.sax.make_parser() 函数用于创建并返回一个新的 SAX 解析器对象。
- 示例：
```
import xml.sax
parser = xml.sax.make_parser()
```
parser
- parser 是由 xml.sax.make_parser() 创建的 SAX 解析器对象。它可以通过调用其他方法和设置内容处理器来实现 XML 数据的解析和处理。
- 示例：
```
parser.setFeature(xml.sax.handler.feature_namespaces, 0)
```

parseString()

在针对 XML 字符串进行解析时使用的方法。它是 xml.sax 模块中 xml.sax.parseString() 的同义词。

示例：

xml_string = "<note><to>Tove</to><from>Jani</from><heading>Reminder</heading><body>Don't forget me this weekend!</body></note>"
parser = xml.sax.make_parser()
handler = MyContentHandler()
parser.setContentHandler(handler)
parser.parseString(xml_string)

这些函数和方法都是 xml.sax 模块中用于解析 XML 的一部分。通过使用它们，可以有效地处理和操作 XML 数据。

示例代码：

import xml.sax

class MyContentHandler(xml.sax.ContentHandler):
    
    def startDocument(self):
        print("Start parsing document")
    
    def endDocument(self):
        print("End parsing document")
    
    def startElement(self, tag, attributes):
        print(f"Start element: {tag}")
        if attributes:
            print("Attributes:", attributes)
    
    def endElement(self, tag):
        print(f"End element: {tag}")
    
    def characters(self, content):
        print("Character data:", content)

# 创建 XML 解析器对象
parser = xml.sax.make_parser()
# 关闭命名空间处理
parser.setFeature(xml.sax.handler.feature_namespaces, 0)

# 设置内容处理器
content_handler = MyContentHandler()
parser.setContentHandler(content_handler)

# 解析 XML 文件
xml_file = "example.xml"
with open(xml_file, "r") as file:
    parser.parse(file)

以上示例展示了如何创建一个自定义的 ContentHandler 类 MyContentHandler 并使用它来解析 XML 文件。在这个例子中，我们重写了 startDocument()、endDocument()、startElement()、endElement() 和 characters() 方法来处理不同类型的事件和内容。

使用xml.dom解析xml

文件对象模型（Document Object Model，简称DOM），是W3C组织推荐的处理可扩展置标语言的标准编程接口。

一个 DOM 的解析器在解析一个 XML 文档时，一次性读取整个文档，把文档中所有元素保存在内存中的一个树结构里，之后你可以利用DOM 提供的不同的函数来读取或修改文档的内容和结构，也可以把修改过的内容写入xml文件。

#!/usr/bin/python3

from xml.dom.minidom import parse
import xml.dom.minidom

# 使用minidom解析器打开 XML 文档
DOMTree = xml.dom.minidom.parse("movies.xml")
collection = DOMTree.documentElement
if collection.hasAttribute("shelf"):
   print ("Root element : %s" % collection.getAttribute("shelf"))

# 在集合中获取所有电影
movies = collection.getElementsByTagName("movie")

# 打印每部电影的详细信息
for movie in movies:
   print ("*****Movie*****")
   if movie.hasAttribute("title"):
      print ("Title: %s" % movie.getAttribute("title"))

   type = movie.getElementsByTagName('type')[0]
   print ("Type: %s" % type.childNodes[0].data)
   format = movie.getElementsByTagName('format')[0]
   print ("Format: %s" % format.childNodes[0].data)
   rating = movie.getElementsByTagName('rating')[0]
   print ("Rating: %s" % rating.childNodes[0].data)
   description = movie.getElementsByTagName('description')[0]
   print ("Description: %s" % description.childNodes[0].data)

结果：

Root element : New Arrivals
*****Movie*****
Title: Enemy Behind
Type: War, Thriller
Format: DVD
Rating: PG
Description: Talk about a US-Japan war
*****Movie*****
Title: Transformers
Type: Anime, Science Fiction
Format: DVD
Rating: R
Description: A schientific fiction
*****Movie*****
Title: Trigun
Type: Anime, Action
Format: DVD
Rating: PG
Description: Vash the Stampede!
*****Movie*****
Title: Ishtar
Type: Comedy
Format: VHS
Rating: PG
Description: Viewable boredom