来自工业界的开源知识库 RAG 项目结构化文件解析方案比较

news2024/9/21 18:39:39

背景介绍

在过去实践 RAG 的过程中,深刻体会到 RAGFlow 提出的 "Quality in, quality out", 只有高质量的文件处理才能获得良好的 RAG 效果。

RAG 的第一步是对文件进行解析,由于 Embedding 和 LLM 模型的长度限制,往往需要将解析后的文件进行切片。原始的 RAG 就是直接按照固定长度对文件进行切分,导致最终检索到的内容都是碎片化的,效果往往不佳。因此后续的改进期望能按照文件的结构进行切分,保证分块信息的完整性,这就是所谓的 "structure-aware" chunker

但是并非所有的文件都容易获取到结构信息,比如 pdf 文件获取结构化的信息就比较困难,一个可选的方案就是将 pdf 等难以处理的文档转换为相对容易获取结构的格式,基于转换后的文档进行结构化解析和切分。目前一般会选择转换为 html 或 markdown 格式。

本文就以相对基础的 html 文件为例,比较目前热门 RAG 项目中的结构化解析文件的能力,看看目前 RAG 项目处理文件的基本功如何。

技术方案比较

在梳理了现有的 RAG 开源项目之后,发现使用的技术存在不少相似之处,因此先总结使用的技术方案,后面在与开源项目意义对应。

实际测试时使用的是如下所示的一个 html 片段:

请添加图片描述

基于 unstructured 解析方案

unstructured 是一个目前热门的开源非结构化文件解析方案,专门为 RAG 场景进行设计,支持了文件的解析,切片等多种场景。

目前基于 unstructured 的方案存在两种用法:

  1. 使用 unstructured 提取出完整的文本内容,之后将完整的内容提供给 RAG 的 Splitter 环节进行切片,这种方案没办法做任何结构化的优化,因为结构化信息在解析环节已经全部丢弃,后续只能根据符号和文本内容进行分片;
  2. 使用 unstructured 拆分出 html 元素,提取各个元素的内容并进行必要的拼接,之后再提交给 Splitter 环节进行处理,这种方式可以保留部分文件结构化信息;

下面简单实现 unstructed 的文档解析拆分如下所示:

from langchain_community.document_loaders import UnstructuredHTMLLoader

loader = UnstructuredHTMLLoader(
    "./xxx.html",
    mode="elements",
    strategy="fast",
)
docs = loader.load()
for doc in docs:
    print("-------------->")
    print(doc.page_content)

查看 unstructured 拆分的结果如下所示:

请添加图片描述

可以看到 unstructed 的切分是按照细粒度的元素切分的,导致大量人工看起来不太合适的内容也被切分开了,后续使用的效果可能不是特别理想。但是可以保证基础元素内部不会出现断句的情况。

下面是基于 unstructed 提供的 chunk_by_title() 方法进行合并后看到的分片效果:

请添加图片描述

可以看到合并后分片的新的分片可能在在视觉上单行中间,效果表现一般,但是预期比直接忽略结构分片可能会略好一些。

基于 html_text 解析方案

html_text 是一个相对小众的 html 解析开源项目,同样用于 html 内容提取。html_text 提取了内容后,会在接近可视化内容的部分增加换行符,后续可以基于换行符进行切分。

目前开源项目是基于 html_text + readability 实现的,简化后如下所示:

import chardet
import html_text
import readability

# 获取文件编码

def get_encoding(file):
    with open(file, "rb") as f:
        tmp = chardet.detect(f.read())
        return tmp["encoding"]


def get_data(file_path):
    with open(file_path, "r", encoding=get_encoding(file_path)) as f:
        txt = f.read()
        html_doc = readability.Document(txt)
        # 基于 html_text 提取内容

        content = html_text.extract_text(html_doc.summary(html_partial=True))
        sections = content.split("\n")
        return sections

ret = get_data(file_path)
for d in ret:
    print("---------->")
    print(d)

实际基于 html_text 解析得到的内容如下所示:

请添加图片描述
可以看到实际的分片位置更符合可视化页面的效果,不会将最原始的元素拆分开。实际测试下来,<span> 这种不会产生换行的元素不会被切分,<p> 这种产生换行的元素会切分为不同块。相对 unstructed 而言更符合视觉效果一些

基于 BeautifulSoup 解析方案

BeautifulSoup 是 python 生态中比较常用的 html 解析方案,所以部分 RAG 项目中会基于 BeautifulSoup 实现,这种情况一般会基于 get_text() 将文本内容全部获取出来,放弃文件的结构信息。实现如下所示:

from bs4 import BeautifulSoup

with open(file_path, "rb") as fp:
    soup = BeautifulSoup(fp, "html.parser")
    text = soup.get_text()
    text = text.strip() if text else ""
    print(text)
基于 trafilatura 解析方案

Trafilatura 是一个类似 BeautifulSoup 的 html 解析方案,从官方文档描述来看,Trafilatura 解析的速度和质量都比较高。

使用 Trafilatura 解析后,直接提取了文档的内容,放弃了文件的结构,其实现也比较简单:

import trafilatura

with open(file_path, "rb") as file:
    html_content = file.read()

    # 使用 Trafilatura 提取内容

    result = trafilatura.extract(html_content)

开源项目方案比较

之前在文章 来自工业界的开源知识库 RAG 项目最全细节对比 中对常规的开源项目进行了详细对比,本文就对其中的一些热门开源项目的 html 解析方案进行比较:

项目html 技术方案
RAGFlowhtml_text 解析
Langchain-Chatchatunstructured 解析
difyBeautifulSoup 解析
GoMatehtml_text 解析
haystacktrafilatura 解析
QAnything暂未支持,但是很多格式都是基于 unstructured 解析
langchain支持 unstructured 和 BeautifulSoup 解析,同时也支持 按照指定元素进行切分

从目前来看,基于 unstructured 的方案是最多的,原因是 unstructured 作为开源非结构化解析库,对不同的格式都能提供一个还不错的支持。但是从上面的测试来看,html_text 在 html 的分片支持上,看起来可以提供一个更符合人类可视化效果的切分。

总结

本文对现有开源项目的结构化文件解析的方案进行了比较,从目前来看,主要分为两种方案:

  1. 放弃文档结构化信息,直接提取内容,后续依赖 splitter 提供一个语义上合适的分片;
  2. 基于文档结构化信息进行文档拆分,接下来根据长度要求进行必要的组合,尽可能保证在元素交界处切分;

预期方案 2 可以一定程度上减少 RAG 中段落中间被切断导致的效果不佳的问题,但是如果特定段落确实过长,超过 Embedding 模型的合适长度,依旧需要在段落中选择一个合适的位置进行分片。结构化解析分片无法完全解决段落分片问题,但是可以提供一个还不错的分片选项,一定程度缓解分片不合适的问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1967294.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python批量下载音乐功能

Python批量下载音乐功能 Python批量下载音乐,调用API接口,同时下载歌曲和歌词 先安排一下要用的模块&#xff0c;导入进来。 import re import json import requests目录结构 下载音乐 Awking_Class.pymusic.txt 文件文件写的是音乐名字,使用换行分割 new_music 注意这个 ne…

[极客大挑战 2019]Secret File-web

打开题目 查看源码 直接访问Archive_room.php 第二个页面是个点击框&#xff0c;这里bp抓包确认&#xff1b;若是直接SECRET&#xff0c;会跳到end.php 直接访问secr3t.php 代码审计一下 playload&#xff1a;secr3t.php?fileflag.php 改为php协议读取权限 secr3t.php?f…

CAPL使用结构体的方式组装一条DoIP车辆声明消息(方法1)

如果你参加过我的《CAPL编程系统性课程》,你就结构体类型天然就能表示报文结构,用结构体表示报文虽然麻烦,但灵活度更高。 我们今天试着用结构体类型表示DoIP车辆声明消息的DoIP报头,然后组装一条DoIP消息发送出去。 DoIP消息结构如下: DoIP车辆声明消息结构如下: /**…

SPSSAU | Power功效分析之线性回归

Power功效分析常用于实验研究时样本量的计算&#xff08;或功效值计算&#xff09;&#xff0c;如果是涉及线性回归相关的回归系数差异计算时&#xff0c;SPSSAU共提供三种情况时的Power功效分析&#xff0c;具体如下表格所述&#xff1a; 名词说明R 方值线性回归时R 方值或者…

大数据信用查询什么样的平台比较靠谱?

随着互联网的发展和普及&#xff0c;大数据技术逐渐应用到各行各业中&#xff0c;其中之一就是信用查询领域&#xff0c;大数据信用查询平台能够为用户提供全面、准确的大数据信用评估&#xff0c;然而&#xff0c;由于市场上出现了许多不同的大数据信用查询平台&#xff0c;我…

NICE Seminar(2022-1-23)基于进化优化的鲁棒区间搜索(华东理工大学堵威博士)

论文题目&#xff1a;Searching for Robustness Intervals in Evolutionary Robust Optimization 关于非支配解附近较高质量解搜集的工作。

DC-7靶机通关

今天咱们来学习第七个靶机&#xff01;&#xff01;&#xff01; 1实验环境 攻击机&#xff1a;kali2023.2 靶机&#xff1a;DC-7 2.1主机发现 2.2端口扫描 依旧是开了两个端口&#xff0c;一个 22 一个 80 &#xff01;&#xff01;&#xff01; 3.1查看对方网页 在这里我…

数据结构_study(六)

图 顶点的有穷非空集合和顶点之间边的集合 G(V,E)&#xff0c;G&#xff1a;图&#xff0c;V&#xff1a;顶点集合&#xff0c;E&#xff1a;边的集合 顶点&#xff1a;图中的数据元素&#xff0c;有穷&#xff0c;非空 边&#xff1a;顶点之间的逻辑关系&#xff0c;边集合…

如何编写一个多线程、非阻塞的python代码

一、【写在前面】 最近csdn每天写两篇文章有推广券&#xff0c;趁这个机会写一个python相关的文章吧。 一般我们的任务都可以分为计算密集型任务和IO密集型任务。 python因为全局GIL锁的存在&#xff0c;任何时候只有一个python线程在运行&#xff0c;所以说不能利用多核CPU…

基于人工智能技术开发的一种医疗诊断工具:智慧3D导诊系统源码

概述 智能导诊基于医疗 AI 、自然语言处理技术&#xff0c;覆盖导诊、智能问答、科普宣教等就医服务&#xff1b;智能导诊通过人体图、症状列表等形式进行疾病自测&#xff0c;快速推荐就诊科室、医生推荐。产品可应用于微信线上挂号、互联网医院、区域平台等场景中&#xff0…

【搜索核心技术】经典搜索核心算法:BM25及其变种

随着基于检索增强的生成&#xff08;Retrieval-Augmented Generation—RAG&#xff09;逐渐成为当前大模型落地方案的主流选择&#xff0c;搜索技术在这一过程中扮演着至关重要的角色。然而&#xff0c;仅依赖向量相似性检索往往无法达到理想的效果。因此&#xff0c;为了进一步…

计算机网络之http状态码和https

目录 HTTP协议 TCP/IP协议 TCP/IP的分层管理 各个协议和HTTP之间的关系 了解并区分URI和URL 返回结果的HTTP状态码 2XX 成功 2.1 200 ok 2.2 204 No Content 2.3 206 Partial Content 3xx表示重定向 3.1 301 Moved Permanently 3.2 302 Found 3.3 303 See …

探索全光网技术 | 全光网络技术方案选型建议二 (宿舍场景)

目录 一、场景设计需求二、宿舍场景拓扑三、部署方式四、产品相关规格说明五、方案优势 注&#xff1a;本文章参考资料为&#xff1a;华三官方资料 - “新华三全光网络3.0解决方案&#xff08;教育&#xff09;”与 锐捷官方资料 - “【锐捷】高校极简以太全光3.X方案设计(V1.3…

pinecone向量库的介绍和基本使用(增删改查)

本文来自于【向量库】pinecone向量库的介绍和基本使用&#xff08;增删改查&#xff09; Pinecone是一个实时、高性能的向量数据库&#xff0c;专为大规模向量集的高效索引和检索而设计。它提供亚秒级的查询响应时间&#xff0c;确保用户可以迅速获取所需信息。Pinecone采用高…

SAP与九恒星资金系统集成案例(医药行业)

一、项目环境 江西某药业有限公司是一家以医药产业为主营、资本经营为平台的大型民营企业集团。公司成立迄今&#xff0c;企业经营一直呈现稳健、快速发展的态势集团总销售额超40亿元。 为了帮助企业更好的进行资金流、结算、资金调度和运作管理、风险控制&#xff0c;济民…

计算机毕业设计选题推荐-篮球馆会员信息管理系统-Java/Python项目实战

✨作者主页&#xff1a;IT研究室✨ 个人简介&#xff1a;曾从事计算机专业培训教学&#xff0c;擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑ 精彩专栏推荐⬇⬇⬇ Java项目 Python…

前端初期知识点回顾

1.跳转&#xff1a;其中target“_blank”意思是跳转会新标签页打开 2.锚点定位&#xff1a;点击文字跳转到对应页面 3&#xff1a;表单 单元格合并 4.input属性变化 前期vue样式 5.画原神&#xff1a; 6.画学生管理系统&#xff1a; 购物车升序降序 累加函数 保留两位小数点 删…

2023年亚太杯A题:果园采摘机器人的图像识别,一二题(题目代码及结果)

问题一&#xff1a;基于附件1中提供的可收获苹果的图像数据集&#xff0c;提取图像特征&#xff0c;建立数学模型&#xff0c;计算每幅图像中的苹果的数量&#xff0c;并绘制附件1中所有苹果的分布直方图。 对于自动采摘机器人&#xff0c;首要的能力就是识别出苹果对象&#…

K3 BOS单据获取制单人工号

新建BOS单据&#xff0c;打印时有时不想在单据上体现制单人姓名&#xff0c;只要打印出工号就行了 新建时&#xff0c;在单据头增加一个“制单人工号”的字段&#xff0c;字段名一定要设置成"FBillerno"&#xff0c; 然后在插件中增加资源中的DLL 效果 套打单据中的…

爬虫:jsonpath模块及腾讯招聘数据获取

目录 jsonpath模块 腾讯招聘数据获取 jsonpath模块 # pip install jsonpath -i https://pypi.tuna.tsinghua.edu.cn/simple import jsonpathdata {"store": {"book":[{"category": "reference","author": "Nigel Ree…