一、先认识XML

XML有两个先驱——SGML（标准通用标记语言）和HTML（超文本标记语言），这两个语言都是非常成功的标记语言。SGML多用于科技文献和政府办公文件中，SGML非常复杂，其复杂程度对于网络上的日常使用简直不可思议。HTML免费、简单，已经获得了广泛的支持，方便大众的使用。而XML（可扩展标记语言）它既具有SGML的强大功能和可扩展性，同时又具有HTML的简单性。

XML注入攻击也称为XXE（XML External Entity attack）漏洞，XML文件的解析依赖于libxml库，libxml 2.9及以前的版本默认支持并开启了外部实体的引用，服务端解析用户提交的XML文件时未对XML文件引用的外部实体（含外部普通实体和外部参数实体）进行合适的处理，并且实体的URL支持file://和php://等协议，攻击者可以在XML文件中声明URI指向服务器本地的实体造成攻击。

XXE漏洞一旦被攻击者利用，可以读取服务器任意文件、执行任意代码、发起DDos攻击。

在XML中引入外部实体一定要注意其安全性，需要进行严格的检查，或者禁止引入。

（1）对用户的输入进行过滤，如<、>、"、"、&等。

（2）常见的XML解析方法有DOMDocument、SimpleXML、XMLReader，这三者都基于libxml库解析XML，所以均受影响。xml_parse()函数则基于expact解析器，默认不载入外部DTD，不受影响。可以在PHP解析XML文件之前使用libxml_disable_entity_loader(true)来禁止加载外部实体（对上述三种XML解析组件都有效），并使用libxml_use_internal_errors()禁止报错。

二、XML 与 HTML 的主要差异

XML 被设计为传输和存储数据，其焦点是数据的内容。

HTML 被设计用来显示数据，其焦点是数据的外观。

HTML 旨在显示信息，而 XML 旨在传输信息。

三、DTD

文档类型定义（DTD）可定义合法的XML文档构建模块。它使用一系列合法的元素来定义文档的结构。 DTD如果存在那么一定会被包裹在 DOCTYPE 声明中，DTD 可被成行地声明于 XML 文档中，也可作为一个外部引用。不过，XML对于标记的语法规定比HTML要严格地多

区分大小写，在标记中必须注意区分大小写，在XML中，<TEST>和<test>是两个截然不同的标记
要有正确的结束标记，结束标记除了要和开始编辑在拼写和大小上完全相同，还必须在前面加上一个斜杠“/”。若开始标记<test>，结束标记则为</test>。
XML严格要求标记配对，HTML中的<br>、<hr>的元素形式在XML中是不合法的。当一对标记之间没有任何文本内容时，可以不写结束标记，在开始标记的末尾加上斜杠”/”来确认，例如：<test /> 这样的标记被称为“空标记”。
标记要正确嵌套，在一个XML元素中允许包含其他XML元素，但这些元素之间必须满足嵌套性
有效使用属性，标记中可以包含任意多个属性。在标记中，属性以名称/取值对出现，属性名不能重复，名称与取值之间用等号“=”分隔，且取值用引号引起来。

举子：<衣服品牌=“耐克” 类型=“T恤” >

四、 XML基础

XML声明：<?xml version="1.0" encoding="utf-8" ?>

内部DTD声明：<!DOCTYPE 根元素名称 [元素声明]>

在DTD中定义属性：<!ATTLIST 元素名 (属性名属性类型缺省值)*>

外部实体声明：<!ELEMENT 实体名称 SYSTEM “URI/URL”>

xml包括xml声明、文档类型定义（可选）、文档元素，如下图所示：

五、XML文件引用DTD的方式

内部直接定义DTD

引用外部DTD

六、xml原理

七、xml分类

① 普通xml攻击

（1）xml原理

XML注入攻击和SQL注入攻击的原理一样，利用了XML解析机制的漏洞，如果系统对用户输入"<",">"没有做转义的处理，攻击者可以修改XML的数据格式，或者添加新的XML节点，就会导致解析XML异常，对流程产生影响。

（2）攻击手段

如下XML是用于注册访问用户，其中用户名是由用户自己输入的。

攻击者在输入用户的时候，可以构造" user1 < /user> < user role=“admin”>user2"数据去拼接XML，之后整个XML字符串将会变成如下格式。这样就添加了一个管理员权限的用户。

（3）如何防御

使用白名单校验，可以使用正则的方式对用户的输入做严格的校验，比如用户输入的用户名只能含有中文，英文大小写字母，数字以及下划线等等。
使用安全的XML库，正确代码使用dom4j来构建XML，dom4j是一个定义良好，开源的XML工具库，Dom4j将会对文本数据进行XML编码，从而使得XML的原始结构和格式免受破坏。代码中最终生成的XML会进行编码，会被替换，从而防止了XML注入。
对用户输入的字段进行转码处理，代码中对传过来的参数进行了转码处理，之后去构造XML字符串，就不会导致XML字符串结构被篡改。

② XML外部实体注入攻击

（1）原理

XML外部实体注入（XML External Entity）简称XXE漏洞。

XXE:XML External Entity 即外部实体，从安全角度理解成XML External Entity attack 外部实体注入攻击，由于程序在解析输入的XML数据时，解析了攻击者伪造的外部实体而产生的。

概括一下就是"攻击者通过向服务器注入指定的xml实体内容,从而让服务器按照指定的配置进行执行,导致问题"也就是说服务端接收和解析了来自用户端的xml数据,而又没有做严格的安全控制,从而导致xml外部实体注入。

（2）攻击手段

1、利用外部实体的引用功能实现对任意文件的读取
这个是解析的xml文件，我们定义了一个通用实体，并且在文件中去引用这个实体。
password.txt文件中记录了敏感的一些信息。

具体解析代码

2. 使用参数实体和避免XML解析语法错误，构造恶意的实体解析
使用参数实体和<CDATA[]>避免XML解析语法错误，构造恶意的实体解析：
XML文件：构造参数实体 % start；% goodies；% end；% dtd 定义一个恶意的combine.dtd

恶意DTD combine.dtd中定义实体&all;

甚至可以这样构造恶意的DTD combine.dtd，将结果发送到目标地址，最后会获得file:///etc/fstab文件。

（3）防御

禁止解析DTDs
禁止解析外部实体

③内部xml实体注入

（1）原理

内部实体攻击比较常见的是XML Entity Expansion攻击，它主要试图通过消耗目标程序的服务器内存资源导致DoS攻击。外部实体攻击和内部实体扩展攻击有不同的防护措施（禁止DTDs解析可以防护外部实体和内部实体攻击）。

（2）攻击

拒绝服务攻击
下面恶意的XML内部实体解析，占用服务器内存资源，导致拒绝服务攻击。

（3）防御

内部实体扩展攻击最好的防护措施是禁止DTDs的解析。另外也可以对内部实体数量进行限制，以消减内部实体展攻击发生的可能性。所以在不需要使用内部实体时，应该禁止DTDs解析，需要使用内部实体时，严格限制内部实体的数量及xml内容的大小。

八、xml格式举例

<?xml version = "1.0"?>

<!DOCTYPE note [

<!ENTITY test "test">

<?xml version="1.0"?>

<!DOCTYPE ANY [

<!ENTITY xxe "菜鸟" > ]>

九、靶场

在pikachu靶场中，以xxe漏洞举例：

XXE -"xml external entity injection"
既"xml外部实体注入漏洞"。
概括一下就是"攻击者通过向服务器注入指定的xml实体内容,从而让服务器按照指定的配置进行执行,导致问题"
也就是说服务端接收和解析了来自用户端的xml数据,而又没有做严格的安全控制,从而导致xml外部实体注入。

现在很多语言里面对应的解析xml的函数默认是禁止解析外部实体内容的,从而也就直接避免了这个漏洞。
以PHP为例,在PHP里面解析xml用的是libxml,其在≥2.9.0的版本中,默认是禁止解析xml外部实体内容的。