4.5K Stars!为 RAG 而生的数据工程神器

news2024/11/15 21:39:58

 —1 大模型 RAG 的难题是什么?  

RAG 或者 Fine-tuning 微调作为大模型的增强技术,最核心的技术在于如何把企业的私有数据清洗转换成知识,企业中能够第一时间拿到的私有数据,往往是异构的、数据质量参差不齐,通过数据工程把数据变成知识就不是一件很容易的事儿。
OmniParse 正是为此而生的利器!它将任何非结构化数据转换为结构化知识。


Github 地址:https://github.com/adithya-s-k/omniparse


 —2 OmniParse 有哪些核心功能?  

OmniParse是一个平台,能够将任何非结构化数据摄取并解析为结构化、可操作的数据,这些数据已针对大模型应用程序进行了优化。无论您正在处理文档、表格、图像、视频、音频文件还是网页,OmniParse 都会使您的数据变得干净、结构化,并为诸如 RAG、微调 等 AI 大模型应用程序做好准备。

OmniParse 平台核心特性如下所示:
✅ 完全本地化,无需外部 API
✅ 适配 T4 GPU
✅ 支持约20种文件类型
✅ 将文档、多媒体和网页转换为高质量的结构化 Markdown
✅ 表格提取、图像提取/加标注、音频/视频转录、网页爬虫
✅ 易于使用 Docke r和 Skypilot 进行部署
✅ Colab 友好
✅ 由 Gradio 驱动的交互式用户界面

OmniParse 目前支持以下的数据类型,主流的数据格式都提供了良好的支持。

 

 —3 OmniParse 如何安装和使用? 

OmniParse 平台支持以下2种安装方式:
第一、通过源码直接安装
目前 OmniParse 源码安装仅适用于基于 Linux 的系统。这是由于某些依赖项和系统特定配置与 Windows 或 macOS 不兼容。

git clone <https://github.com/adithya-s-k/omniparse>
cd omniparse


创建虚拟环境

conda create --n omniparse-venv python=3.10
conda activate omniparse-venv


安装依赖项

poetry install
# or
pip install -e .
# or
pip install -r pyproject.toml 


第二、通过 Docker 安装

也可以通过 Docker 来使用 OmniParse

docker build -t omniparse .
# if you are running on a gpu
docker run --gpus all -p 8000:8000 omniparse
# else
docker run -p 8000:8000 omniparse


第三、运行服务

#运行服务器:
python server.py --host 0.0.0.0 --port 8000 --documents --media --web

#--documents:加载所有帮助您解析和提取文档的模型(Surya OCR 系列模型和 Florence-2)。
#--media:加载 Whisper 模型来转录音频和视频文件。
#--web:设置 selenium 爬虫。


启动后会提供一个 API 服务,展示内容参考如下:

第四、执行案例

第一、以下是执行文档解析的例子,可以解析 PDF、PowerPoint 或 Word 文档。

#Curl 命令:
curl -X POST -F "file=@/path/to/document" <http://localhost:8000/parse_document>


第二、解析图像文件(PNG、JPEG、JPG、TIFF、WEBP)。

#Curl 命令:

curl -X POST -F "file=@/path/to/image.jpg" <http://localhost:8000/parse_media/image>

 —4 总结 

OmniParse 旨在构建一个全面的数据摄取与解析平台,该平台能够处理包括文档、图像、音频、视频及 Web 内容在内的各类数据,并输出高度结构化、易于操作且专为 GenAI(大型语言模型)优化的数据。当前,该项目的核心理念展现出良好的实用性,尽管在实际应用中仍面临一些待完善的方面。例如,它在处理英语数据方面表现出色,但面对中文等语言时可能会遇到挑战;同时,对于 PDF 文件中的公式转换为 LaTeX 格式,也存在一定的难度。当然相信随着开源社区持续的更新,这些问题都会逐步解决。

来源:玄姐讲 AGI 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1975735.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ICM-20948芯片详解(3)

接前一篇文章&#xff1a;ICM-20948芯片详解&#xff08;2&#xff09; 三、引脚图、信号描述及内部框图 1. 引脚图 ICM-20948的引脚图如下图所示&#xff1a; 2. 引脚详细描述 ICM-20948的引脚详细描述如下表所示&#xff1a; 注意&#xff1a;不支持在SCL/SCLK和nCS引脚保…

Linux系统窗口水印难点分析

给应用程序加水印是保护数据的一种方式&#xff0c;window上可以通过给进程通过注入的方法给进程的窗口创建一个同大小的副窗口&#xff0c;在副窗口上绘制水印内容&#xff0c;同时设置副窗口透明同时透传事件&#xff0c;这样就可以达到在源窗口上显示水印的效果且不影响程序…

易媒助手:神似融媒宝的自媒体运营工具,新人送7天中级VIP

自媒体运营工具中还有一个易媒助手&#xff0c;功能与融媒宝、蚁小二类似&#xff0c;免费用户可发5个账号&#xff0c;三者同时用就可发15个账号了&#xff0c;所以今天也给大家介绍下&#xff1a; 易媒助手简介 易媒助手于2017年开发&#xff0c;致力于成为中国更优秀的新媒…

springboot集成海康SDK,设备抓图,热成像仪设置多个点代码获取,以及针对红外图点击某一点获取该点温度的需求

本文会介绍java对海康sdk的三个功能&#xff1a; 1、用代码实时抓图 2、用代码获取热成像仪21个点的坐标及其实时温度 3、针对海康热成像仪抓取的热图能够随便点击任意一个点就能获取其温度的功能。 第一个功能&#xff0c;抓图 抓图 在海康提供的sdk中取流后抓图调用的是 …

ollama运行阿里云通义千问72B大模型

准备 安装ollama https://github.com/ollama/ollama 模型 合并gguf copy /B qwen2-72b-instruct-q5_k_m-00001-of-00002.gguf qwen2-72b-instruct-q5_k_m-00002-of-00002.gguf qwen2-72b-instruct-q5_k_m.gguf设置并启动 新建Modelfile FROM ./qwen2-72b-instruct-q5_k…

【课程总结】Day18:Seq2Seq的深入了解

前言 在上一章【课程总结】Day17&#xff08;下&#xff09;&#xff1a;初始Seq2Seq模型中&#xff0c;我们初步了解了Seq2Seq模型的基本情况及代码运行效果&#xff0c;本章内容将深入了解Seq2Seq模型的代码&#xff0c;梳理代码的框架图、各部分组成部分以及运行流程。 框…

想做linux内核开发,该怎么开始(上)

作为一名应届生在选择从事 Linux 内核开发这一职业领域时&#xff0c;需要系统地规划自己的职业道路&#xff0c;这将有助于你更准确地了解未来的发展方向并制定相应的学习和职业发展计划。在这篇文章中&#xff0c;我将向你介绍应届生在 Linux 内核开发领域的职业道路规划&…

O’Reilly

--江上往来人&#xff0c;但爱鲈鱼美。 --君看一叶舟&#xff0c;出没风波里。 OReilly OReilly出版社出版的技术类图书 俗称动物系列 应该是每个技术人员的必备手册。 OReilly动物系列&#xff08;中译本&#xff09; 简介" 动物系列作为 OReilly 书籍的典型代表被普遍…

【Apache Doris】周FAQ集锦:第 18 期

【Apache Doris】周FAQ集锦&#xff1a;第 18 期 SQL问题数据操作问题运维常见问题其它问题关于社区 欢迎查阅本周的 Apache Doris 社区 FAQ 栏目&#xff01; 在这个栏目中&#xff0c;每周将筛选社区反馈的热门问题和话题&#xff0c;重点回答并进行深入探讨。旨在为广大用户…

基于级联深度学习算法在双参数MRI中检测前列腺病变的评估| 文献速递-AI辅助的放射影像疾病诊断

Title 题目 Evaluation of a Cascaded Deep Learning–based Algorithm for Prostate Lesion Detection at Biparametric MRI 基于级联深度学习算法在双参数MRI中检测前列腺病变的评估 Background 背景 Multiparametric MRI (mpMRI) improves prostate cancer (PCa) dete…

如何对我们要多次使用的页面进行一个抽取

有的时候,一个页面我们要多次使用,该怎么抽取呢? 创建一个文件夹,用于存放多次使用的页面 将要多次使用的组件(<template>)和风格(<style>)剪切出来,放入新建的页面 直接进行引用 导入 然后就可以使用

【FPGA设计】Vitis AI概述

一. Vitis AI简介 Vitis AI 是由 Xilinx&#xff08;现已被 AMD 收购&#xff09;提供的一套工具链和软件开发平台&#xff0c;用于简化和加速在基于 Xilinx FPGA 或自适应计算加速平台 (ACAP) 上部署深度学习推理应用的过程。Vitis AI 的目标是让开发者能够更容易地利用 FPGA…

python-素数回文数的个数(赛氪OJ)

[题目描述] 求 11 到 n 之间&#xff08;包括 n&#xff09;&#xff0c;既是素数又是回文数的整数有多少个。输入&#xff1a; 一个大于 11 小于 10000 的整数 n。输出&#xff1a; 11 到 n 之间的素数回文数个数。样例输入1 23 样例输出1 1 提示&#xff1a; 回文数指左右对…

【Python 逆向滑块】(实战五)逆向滑块,并实现用Python+Node.js 生成滑块、识别滑块、验证滑块、发送短信

逆向日期&#xff1a;2024.08.03 使用工具&#xff1a;Python&#xff0c;Node.js 本章知识&#xff1a;滑块距离识别&#xff0c;滑块轨迹生成&#xff0c;验证滑块并获取【validate】参数 文章难度&#xff1a;中等&#xff08;没耐心的请离开&#xff09; 文章全程已做去敏处…

MySQL:初识数据库初识SQL建库

目录 1、初识数据库 1.1 什么是数据库 1.2 什么是MySQL 2、数据库 2.1 数据库服务&数据库 2.2 C/S架构 3、 初识SQL 3.1 什么是SQL 3.2 SQL分类 4、使用SQL 4.1 查看所有数据库 4.1.2 语句解析 4.2 创建数据库 4.2.1 if not exists校验 4.2.2 手动明确字符集…

新款奔驰S450升级动态按摩座椅有哪些功能

奔驰 S450 升级前排动态按摩座椅通常具有以下功能&#xff1a; 1. 多种按摩模式和强度选择&#xff1a;通过精心设计的气囊和机械装置&#xff0c;能够模拟如揉捏、敲击、推拿等不同的按摩手法&#xff0c;为驾驶者和前排乘客舒缓肌肉疲劳&#xff0c;放松身心。 2. 广泛的按…

本地部署文生图模型 Flux

本地部署文生图模型 Flux 0. 引言1. 本地部署1-1. 创建虚拟环境1-2. 安装依赖模块1-3. 创建 Web UI1-4. 启动 Web UI1-5. 访问 Web UI 0. 引言 2024年8月1日&#xff0c;blackforestlabs.ai发布了 FLUX.1 模型套件。 FLUX.1 文本到图像模型套件&#xff0c;该套件定义了文本到…

2024年最有效的谷歌外链技巧!

在2024年&#xff0c;谷歌外链的战略在谷歌SEO领域依然占据重要地位。有效的外链战略不仅仅依赖于数量&#xff0c;更注重质量和结构的多样性。以下是一些最有效的策略 1.多样化的链接结构&#xff1a; 排名靠前的网站通常拥有复杂多元的外链结构。这意味着他们的链接来自不同…

【Python机器学习】支持向量机——SMO高效优化算法

最小化的目标函数、优化过程中必须要遵循的额约束条件。不久之前&#xff0c;人们使用二次规划求解工具来解决上述最优化问题&#xff0c;这种工具是一种用于在线性约束下优化具有多个变量的二次目标函数的软件&#xff0c;而这些二次规划求解工具需要强大的计算能力支撑&#…