Python 如何创建和解析 XML 文件

news2026/3/26 6:53:39

XML（可扩展标记语言）是一种广泛使用的标记语言，主要用于存储和传输数据。它具有结构化、层次化的特点，常被用作数据交换格式。Python 提供了多种工具和库来处理 XML 文件，包括创建、解析和操作 XML 文档。

一、XML 简介

XML 是一种用于描述结构化数据的标记语言，其设计目的是让人和机器都可以轻松读取和处理数据。一个典型的 XML 文件由多个嵌套的元素组成，每个元素都有一个开始标签和一个结束标签，中间包含数据或其他元素。

例如，一个简单的 XML 文件可能是这样的：

<bookstore>
    <book>
        <title>Python Programming</title>
        <author>John Doe</author>
        <price>29.99</price>
    </book>
    <book>
        <title>Learning XML</title>
        <author>Jane Doe</author>
        <price>39.95</price>
    </book>
</bookstore>

在这个示例中，<bookstore> 是根元素，它包含了两个 <book> 元素，每个 <book> 元素包含三个子元素：<title>、<author> 和 <price>。

二、在 Python 中创建 XML 文件

Python 提供了多种方法来创建 XML 文件，常用的方法包括使用 xml.etree.ElementTree 模块和 minidom 模块。

1. 使用 `xml.etree.ElementTree` 创建 XML 文件

xml.etree.ElementTree 是 Python 标准库中的一个模块，用于生成和解析 XML。我们可以使用它轻松创建一个 XML 文档。

以下是一个使用 ElementTree 创建 XML 文件的示例：

import xml.etree.ElementTree as ET

# 创建根元素
root = ET.Element("bookstore")

# 创建第一个书籍元素
book1 = ET.SubElement(root, "book")
title1 = ET.SubElement(book1, "title")
title1.text = "Python Programming"
author1 = ET.SubElement(book1, "author")
author1.text = "John Doe"
price1 = ET.SubElement(book1, "price")
price1.text = "29.99"

# 创建第二个书籍元素
book2 = ET.SubElement(root, "book")
title2 = ET.SubElement(book2, "title")
title2.text = "Learning XML"
author2 = ET.SubElement(book2, "author")
author2.text = "Jane Doe"
price2 = ET.SubElement(book2, "price")
price2.text = "39.95"

# 创建 XML 树结构
tree = ET.ElementTree(root)

# 将 XML 树写入文件
tree.write("bookstore.xml", encoding="utf-8", xml_declaration=True)

在这个示例中，我们首先创建了一个根元素 <bookstore>，然后为每本书创建了一个 <book> 元素，并为每本书添加了 <title>、<author> 和 <price> 子元素。最后，我们使用 ElementTree.write 方法将 XML 树保存到文件中。

2. 使用 `minidom` 创建 XML 文件

minidom 是一个用于处理 XML 的轻量级 DOM 实现，可以让我们更灵活地操作 XML 文档。

以下是一个使用 minidom 创建 XML 文件的示例：

from xml.dom.minidom import Document

# 创建文档对象
doc = Document()

# 创建根元素
root = doc.createElement("bookstore")
doc.appendChild(root)

# 创建第一个书籍元素
book1 = doc.createElement("book")
root.appendChild(book1)

title1 = doc.createElement("title")
title1.appendChild(doc.createTextNode("Python Programming"))
book1.appendChild(title1)

author1 = doc.createElement("author")
author1.appendChild(doc.createTextNode("John Doe"))
book1.appendChild(author1)

price1 = doc.createElement("price")
price1.appendChild(doc.createTextNode("29.99"))
book1.appendChild(price1)

# 创建第二个书籍元素
book2 = doc.createElement("book")
root.appendChild(book2)

title2 = doc.createElement("title")
title2.appendChild(doc.createTextNode("Learning XML"))
book2.appendChild(title2)

author2 = doc.createElement("author")
author2.appendChild(doc.createTextNode("Jane Doe"))
book2.appendChild(author2)

price2 = doc.createElement("price")
price2.appendChild(doc.createTextNode("39.95"))
book2.appendChild(price2)

# 将 XML 文档写入文件
with open("bookstore_minidom.xml", "w", encoding="utf-8") as f:
    f.write(doc.toprettyxml(indent="  "))

在这个示例中，我们使用 minidom 来创建 XML 文档。与 ElementTree 相比，minidom 提供了更多的控制，可以方便地格式化输出（如缩进和换行）。

三、在 Python 中解析 XML 文件

解析 XML 文件是指读取 XML 文件并提取所需数据。Python 提供了多种方法来解析 XML 文件，包括 xml.etree.ElementTree、minidom 以及 xml.sax 等模块。

1. 使用 `xml.etree.ElementTree` 解析 XML 文件

ElementTree 模块不仅可以创建 XML 文件，还可以用来解析 XML 文件。以下是一个简单的解析示例：

import xml.etree.ElementTree as ET

# 解析 XML 文件
tree = ET.parse('bookstore.xml')
root = tree.getroot()

# 遍历根元素的子元素
for book in root.findall('book'):
    title = book.find('title').text
    author = book.find('author').text
    price = book.find('price').text
    
    print(f"Title: {title}, Author: {author}, Price: {price}")

在这个示例中，我们使用 ElementTree.parse 方法解析 XML 文件，并通过 getroot 方法获取根元素。接着，我们使用 findall 方法遍历所有的 <book> 元素，并提取其中的 <title>、<author> 和 <price> 元素的文本内容。

2. 使用 `minidom` 解析 XML 文件

minidom 模块也可以用来解析 XML 文件。以下是一个示例：

from xml.dom.minidom import parse

# 解析 XML 文件
doc = parse('bookstore_minidom.xml')

# 获取所有的书籍元素
books = doc.getElementsByTagName("book")

# 遍历每本书
for book in books:
    title = book.getElementsByTagName("title")[0].childNodes[0].data
    author = book.getElementsByTagName("author")[0].childNodes[0].data
    price = book.getElementsByTagName("price")[0].childNodes[0].data
    
    print(f"Title: {title}, Author: {author}, Price: {price}")

在这个示例中，我们使用 minidom.parse 方法解析 XML 文件，并使用 getElementsByTagName 方法获取所有的 <book> 元素。然后，我们从每个 <book> 元素中提取出 <title>、<author> 和 <price> 元素的文本内容。

3. 使用 `xml.sax` 解析 XML 文件

xml.sax 是 Python 中处理 XML 的另一种方式，它是基于事件驱动的解析方式，适合处理大型 XML 文件。sax 的工作原理是通过事件（如开始元素、结束元素、字符数据等）来解析 XML。

以下是一个使用 xml.sax 解析 XML 文件的示例：

import xml.sax

class BookHandler(xml.sax.ContentHandler):
    def __init__(self):
        self.currentData = ""
        self.title = ""
        self.author = ""
        self.price = ""

    # 元素开始事件处理
    def startElement(self, tag, attributes):
        self.currentData = tag

    # 元素结束事件处理
    def endElement(self, tag):
        if self.currentData == "title":
            print(f"Title: {self.title}")
        elif self.currentData == "author":
            print(f"Author: {self.author}")
        elif self.currentData == "price":
            print(f"Price: {self.price}")
        self.currentData = ""

    # 内容事件处理
    def characters(self, content):
        if self.currentData == "title":
            self.title = content
        elif self.currentData == "author":
            self.author = content
        elif self.currentData == "price":
            self.price = content

# 创建一个 XMLReader
parser = xml.sax.make_parser()

# 关闭命名空间
parser.setFeature(xml.sax.handler.feature_namespaces, 0)

# 重写 ContentHandler
Handler = BookHandler()
parser.setContentHandler(Handler)

parser.parse("bookstore.xml")

在这个示例中，我们定义了一个 BookHandler 类，它继承自 xml.sax.ContentHandler。这个类中包含了三个主要的方法：startElement、endElement 和 characters，它们分别在元素开始、元素结束和处理元素内容时被调用。通过 xml.sax.make_parser 创建解析器并设置内容处理器后，可以使用 parser.parse 方法来解析 XML 文件。

在 Python 中处理 XML 文件有多种方法，包括 xml.etree.ElementTree、minidom 和 xml.sax 等。这些方法各有优劣，ElementTree 和 minidom 更适合小型 XML 文档的创建和解析，而 xml.sax 则适合处理大型 XML 文档。通过这些工具，可以方便地创建、读取和操作 XML 文件，为数据的存储和交换提供了有力的支持。

在实际应用中，选择合适的工具取决于具体的需求和场景。例如，如果需要快速创建和解析 XML 文件，ElementTree 是一个很好的选择；如果需要处理大型 XML 文件，xml.sax 可能更为合适。