RAG中对于PDF复杂格式文件的预处理的解决方案:MinerU
1. 场景
在RAG场景下,我们所遇到的文档格式可不仅仅局限于txt文件,而对于复杂的PDF文件,里面有图片格式的Excel、图片格式的文字、以及公式等等复杂的格式,我们很难用传统的方式去解析预处理成我们可以用的类似于TXT格式的纯文本。
2. 解决方案
你的PDF解析大杀器,让LLM更懂你的数据.
面临的挑战:
1、结构复杂:可以包含文本、图像、矢量图形、注释、表单、公式等各种内容,每种内容的表示方式都不一样.
2、布局复杂:PDF文件的文本并不是线性存储的,而是根据页面布局存储.这意味着解析器需要处理复杂的布局来重建文本的顺序.
3、字体和编码:PDF文件中的文本可以使用多种编码方式和字体.
4、结构信息缺乏:与HTML或XML等格式不同,PDF文件通常不包含明确的结构信息(如标签、段落、表格结构等).
1. MinerU(极力推荐)
MinerU 是一款将 PDF 转换为机器可读格式(例如 markdown、JSON)的工具,可轻松提取为任何格式。MinerU 诞生于InternLM的预训练过程中。我们