RAG的数据清洗和拆分

news2024/9/27 12:13:57

在大模型实际落地的时候,存在一些问题,主要集中在以下方面:

  • 缺少垂直领域知识:虽然大模型压缩了大量的人类知识,但在垂直场景上明显存在短板,需要专业化的服务去解决特定问题。

  • 存在幻觉、应用有一定门槛:在大模型使用上有一些幻觉、合规问题,没有办法很好地落地,配套工作不足,缺乏现成的方案来管理非结构化文本、进行测试、运营和管理等。

  • 存在重复建设:各业务孤立摸索,资产无法沉淀,存在低水平重复建设,对公司来说ROI低,不够高效。

站在应用的角度,需要一种能够有效解决大模型在垂直领域知识短板、降低应用门槛、提高效率并发挥规模优势的技术方案。

在经过一段时间对RAG整个流程的了解和优化,感受到数据的清洗和拆分对于知识库的检索有很重要的影响,这个环节对于一个完善的rag来说是至关重要的

一、数据的提取 

对于上传的一些文件来说也是各式各样的,有PDF,WORD,EXCEL,TXT等等 甚至还有图片

首先要做的第一步就是把文本提取出来

由于pdf的解析效果比较好,所以在这我将全部文件转换成pdf再用pymupdf进行解析获取内容 

安装pymupdf库!这个库主要是干文本提取用!

pip install --upgrade pymupdf

 

安装pandas库!用它生成CSV表格信息!

pip install --upgrade pandas
def extract_text_and_tables(pdf_path):    """    从PDF文件中提取文本和表格。

    :param pdf_path: PDF文件的路径。    :return: 提取的文本字符串和表格列表。    """    text = ""    tables = []

    with fitz.open(pdf_path) as doc:        for page in doc:            text += page.get_text()

    with pdfplumber.open(pdf_path) as doc:        for page in doc.pages:            for table in page.extract_tables():                tables.append(table)

然后处理路径中的所有PDF文档,如果找不到文档的话,返回找不到!

def process_pdf_folder(folder_path):    """    处理给定文件夹中的所有PDF文件,提取文本和表格。

    :param folder_path: 包含PDF文件的文件夹的路径。    """    if not os.path.exists(folder_path):        print(f"未找到文件夹: {folder_path}")        return

 

对于一些图片可以采用ocr的方式进行提取 

import numpy as np  # 导入numpy库

# 初始化OCR模型,可以指定使用不同的模型,例如:chineseocr_mobile_v2.0,或者使用默认的
ocr = PaddleOCR(use_angle_cls=True, lang='ch')  # lang参数指定识别语言,'ch'代表中英文

# 读取图片
img_path = '测试.jpg'
img = Image.open(img_path).convert('RGB')

# 将PIL图像转换为numpy数组
img = np.array(img)
# 进行OCR识别
result = ocr.ocr(img, cls=True)

# 打印识别结果
for line in result[0]:
    print(line[1])

二、数据清洗

与任何数据科学管道一样,数据的质量严重影响RAG管道的结果。在继续执行以下任何步骤之前,请确保您的数据符合以下标准:

1)数据干净:可以应用一些自然语言处理中常用的基本数据清理技术,例如确保所有特殊字符都正确编码;

2)数据准确:确保信息一致且事实准确,以避免信息冲突误导LLM

一方面我们可以把pdf的像页眉页脚等进行删除 还有一些像电子邮件URL等都可以删除

另一方面可以交给大模型进行数据的清洗和拆解,保证语义的完整性

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2067260.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

解决 Navicat 删除唯一键(unique)后保存失败的问题:1-near “)“:syntax error

1、问题描述 我按照以下步骤删除如下图所示的 studentId 唯一键: 可以看到唯一键已经被删除了,但是此时我点击保存按钮时报错,保存失败: 2、解决方法 还需要点击如下图所示的删除唯一键按钮,才算是真正删除成功&…

作为一个电子工程师,在选择合适的网络变压器

作为一个电子工程师,在选择合适的网络变压器(Network Transformer)设计PCB时,应该遵循一系列的准则和步骤,确保所设计的电路既满足功能需求,又具备良好的性能和可靠性。以下是选择和设计过程中应该考虑的关…

坚持绿色发展的上海智算中心,稳步推进中

自今年年初正式封顶以来,云端股份上海智算中心在外墙及内部的建设进展顺利。这座智算中心地理位置优越,正逐步成为推动数字经济发展的重要力量。 位置优势 云端股份上海智算中心毗邻智慧岛数据产业园,是崇明区目前建设的唯一一座智算中心&am…

Flutter ListView控件

ListView是flutter中线性排列的可滚动的列表部件。ListView 是最常用的滚动小部件。它在滚动方向上一个接一个地显示其子项。在交叉轴上,子项需要填满 ListView。 如果非空,则 itemExtent 会强制子项在滚动方向上具有给定的范围。 如果非空,…

@Transactional 注解 this调用注解不生效

如果在一个方法上标注Transactional,要确定这个方法的调用方是容器中的代理对象还是普通的java对象. 如果是代理对象事务会开启生效 如果是普通的java对象事务会失效 如果是这样调用,那 grantDayBonus 方法肯定是容器中的代理对象调起的.事务会生效

【机器学习练习】糖尿病预测

🍨 本文为🔗365天深度学习训练营 中的学习记录博客🍖 原作者:K同学啊 一、数据预处理 1. 数据导入 import numpy as np import pandas as pd import seaborn as sns from sklearn.model_selec…

第二十九节、场景管理和切换

使用这个加载场景,实现场景的切换 是一个打包工具,使包体变小,不会重复打包包体 这个也可以远程进行打包,将代码上传到网上的库中,实现热更新 勾选后就会默认将当前场景加载到这里 简化名字 当物体需要跨场景&#xf…

观测云对接 Pinpoint 最佳实践

简介 Pinpoint 是一个开源的分布式应用性能监控工具,由韩国搜索引擎公司 Naver 开发。它主要用于跟踪和监控分布式应用程序和微服务架构中的性能问题。Pinpoint 的核心功能包括对分布式链路的追踪和监控,通过收集和分析数据来帮助开发者定位问题所在。P…

node版本管理工具Node Version Manager(nvm)的安装及使用

文章目录 一、nvm安装1.1,下载nvm安装包程序(选最高版本安装即可,安装前先把本机电脑node卸载,不然管理不到)双击安装包进行安装(傻瓜式下一步即可) 二、配置镜像2.1、使用管理员运行命令提示符2.2、检查nv…

健康减调攻略:1月轻松掉十斤

减调减调,有减才有调,饮食为调、运动重在减,他们是相互作用的,要瘦,只有饮食与运动结合才能事半功倍。 饮食调减: 不需要花多大钱,也不用费精力和时间自己做饭,或狂抠饮食量和食物…

6款ai伪原创软件app,自动生成文章效率更高

在当今信息爆炸的时代,内容创作的需求日益增长。无论是专业的写手、自媒体从业者,还是企业的营销人员,都在不断寻求提高创作效率的方法。而ai伪原创软件app的出现,为创作者们带来了新的解决方案。下面就为大家介绍6个强大的ai伪原…

6款大学生电脑里的必装软件,装进电脑慢慢用

分享6款大学生爱用的windows软件,个个功能强大,装进电脑能提升效率,让大学生活更轻松! 1、Everything 大学四年怎么都得积攒下一堆PPT和文档,日子久了存放的乱七八糟,想找的时候一个头两个大。这时候Every…

中断和异常(X86架构)

中断和异常是强制性的执行流的转移,从当前正在执行的任务或程序转移到一个特殊的称作句柄的例程或任务。当硬件发出信号时,便产生中断,中断的产生是同现在正在执行的任务是异步的,即中断的产生是随机的。异常是处理器在执行指令的…

2024年金属非金属矿山(露天矿山)安全管理人员证考试题库及金属非金属矿山(露天矿山)安全管理人员试题解析

题库来源:安全生产模拟考试一点通公众号小程序 2024年金属非金属矿山(露天矿山)安全管理人员证考试题库及金属非金属矿山(露天矿山)安全管理人员试题解析是安全生产模拟考试一点通结合(安监局)…

后端给前端传递数据形式:广播 单播以及组播

目录 1.单播2.广播3.组播4.任播5.总结 网络数据在传输时需要使用特定的传输方式,其中最常见的包括单播、广播、组播和任播。本文将对这四种不同的网络传输方式进行详细介绍,并列举多个例子以说明不同场景下使用何种传输方式。 1.单播 单播是指一种向单个…

联想24春招算法方向部分试题解析

来自牛客题库,浅浅记录一下 CNN模型支持输入不定长序列:错。CNN模型通常用于处理具有固定尺寸输入的图像或类似结构的数据。虽然可以通过一些技术(如滑动窗口或填充)来处理不同尺寸的图像,但CNN本身并不直接支持输入…

解决arcmap发布影像切片,注册传输数据慢的问题

1、本地服务器进行切片步骤: 开发环境按照正常方案发布影像切片。 2、生产环境切片步骤 a、使用范文等同影像文件范围的矢量面数据,作为切片数据发布切片服务 重点:【服务名称必须一致】 b、获取开发环境切片的切片方案文件conf.xml 重点&am…

探索Python的配置管理大师:ConfigParser的奥秘

文章目录 探索Python的配置管理大师:ConfigParser的奥秘背景:为什么选择ConfigParser?库简介:ConfigParser是什么?安装指南:如何安装ConfigParser?基础用法:五个简单函数介绍1. 创建…

Milvus实践(5) ---- 从attu2.4x窥探Milvus数据结构变化及原理

目录 背景 启动 attu 首页 数据库 系统信息 剖析数据库存储 整体 集合描述 collection & shard segment & partition index 图解 设计动机 可视化对应部分 collection partition segment 查询数据段状态 持久数据段状态 query部分 向量搜索 scal…

PyCharm 运行项目时python 项目时报错:Please select a valid Python interpreter的处理办法

目录 问题现象 问题原因 问题解决办法 问题现象 问题如下图所示: 这种情况下,强行运行也依旧是会报错的。 问题原因 没有选择运行Python的程序。 问题解决办法 修改PyCharm设置: 文件---设置(在热键不冲突的情况下&#…