MinIO 和 Apache Tika:文本提取模式

news2025/1/11 15:01:00

Tl;dr:

在这篇文章中,我们将使用 MinIO Bucket Notifications 和 Apache Tika 进行文档文本提取,这是大型语言模型训练和检索增强生成 LLM和RAG 等关键下游任务的核心。

前提

假设我想构建一个文本数据集,然后我可以用它来微调 LLM.为了做到这一点,我们首先需要组装各种文档(由于它们的来源,这些文档可能采用不同的形式)并从中提取文本。数据集安全性和可审计性至关重要,因此这些非结构化文档需要存储在对象存储中以进行匹配。MinIO 是针对这些情况以及更多情况构建的对象存储。另一方面,Apache Tika 是一个工具包,可以“从一千多种不同的文件类型(例如 PPT、XLS 和 PDF)中检测和提取元数据和文本”。它们共同形成一个可以实现我们目标的系统。

在之前的一篇文章中,我们将一个带有 MinIO 的对象检测推理服务器和大约 30 行代码放在一起。我们将再次利用这种高度可移植和可重复的架构,这次是文本提取任务。下面是我们将要构建的系统的粗略描述。

设置 Apache Tika

启动并运行 Apache Tika 的最简单方法是使用官方 Docker 映像。检查 Docker Hub 以获取所需的 Tika 映像版本/标记。

在此示例中,我允许它使用并公开默认端口 9998。

docker pull apache/tika:<version>
docker run -d -p 127.0.0.1:9998:9998 apache/tika:<version>

构建文本提取服务器

现在 Tika 正在运行,我们需要构建一个服务器,该服务器可以通过编程方式对新对象发出 Tika 提取请求。之后,我们需要在 MinIO 存储桶上配置 webhook,以提醒此服务器新对象的到来(换句话说,存储桶的 PUT 事件)。让我们一步一步地走一遍。

为了保持相对简单并突出这种方法的可移植性,文本提取服务器将使用流行的 Flask 框架在 Python 中构建。以下是服务器的代码(也可在 MinIO 博客资源存储库的 extraction_server.py 下找到),该服务器使用 Tika(通过 Tika-Python)对添加到存储桶的新文档执行文本提取

"""
This is a simple Flask text extraction server that functions as a webhook service endpoint 
for PUT events in a MinIO bucket. Apache Tika is used to extract the text from the new objects.
"""
from flask import Flask, request, abort, make_response
import io
import logging
from tika import parser
from minio import Minio

# Make sure the following are populated with your MinIO details
# (Best practice is to use environment variables!)
MINIO_ENDPOINT = ''
MINIO_ACCESS_KEY = ''
MINIO_SECRET_KEY = ''


# This depends on how you are deploying Tika (and this server):
TIKA_SERVER_URL = 'http://localhost:9998/tika'

client = Minio(
    MINIO_ENDPOINT,
    access_key=MINIO_ACCESS_KEY,
    secret_key=MINIO_SECRET_KEY,
)

logger = logging.getLogger(__name__)

app = Flask(__name__)

@app.route('/', methods=['POST'])
async def text_extraction_webhook():
    """
    This endpoint will be called when a new object is placed in the bucket
    """
    if request.method == 'POST':
        # Get the request event from the 'POST' call
        event = request.json
        bucket = event['Records'][0]['s3']['bucket']['name']
        obj_name = event['Records'][0]['s3']['object']['key']

        obj_response = client.get_object(bucket, obj_name)
        obj_bytes = obj_response.read()
        file_like = io.BytesIO(obj_bytes)
        parsed_file = parser.from_buffer(file_like.read(), serverEndpoint=TIKA_SERVER_URL)
        text = parsed_file["content"]
        metadata = parsed_file["metadata"]
        logger.info(text)
        result = {
            "text": text, 
            "metadata": metadata
            }
        resp = make_response(result, 200)
        return resp
    else:
        abort(400)

if __name__ == '__main__':
    app.run()

让我们启动提取服务器:

设置存储桶通知

现在,剩下的就是在 MinIO 服务器上为存储桶配置 Webhook,以便存储桶中的任何 PUT 事件(也称为添加的新对象)都将触发对提取终端节点的调用。使用该 mc 工具,我们只需几个命令即可完成此操作。

首先,我们需要设置一些环境变量,以向 MinIO 服务器发出信号,表明您正在启用要调用的 Webhook 和相应的端点。替换为您选择的函数名称。为简单起见,我选择了“提取”。此外,请确保将终端节点环境变量设置为推理服务器的正确主机和端口。在本例中,http://localhost:5000 是运行 Flask 应用程序的位置。

export MINIO_NOTIFY_WEBHOOK_ENABLE_<YOURFUNCTIONNAME>=on 
export MINIO_NOTIFY_WEBHOOK_ENDPOINT_<YOURFUNCTIONNAME>=http://localhost:5000

设置这些环境变量后,启动 MinIO 服务器(或者,如果它已在运行,请重新启动它)。在以下步骤中,我们将需要一个“别名”用于 MinIO 服务器部署。要了解有关别名以及如何设置别名的更多信息,请查看文档。我们还将使用 mc MinIO 客户端命令行工具,因此请确保您已安装它。

接下来,让我们为存储桶配置事件通知以及我们想要收到通知的事件类型。出于这个项目的目的,我创建了一个全新的存储桶,也命名为“extraction”。您可以通过 MinIO 控制台或 mc 命令执行此操作 由于我们希望在将新对象添加到“提取”存储桶时触发 Webhook,因此 PUT 事件是我们的重点。将 ALIAS 替换为 MinIO 服务器部署的别名,将 BUCKET 替换为该服务器上所需的存储桶。和以前一样,请确保替换为在前面步骤中使用的相同值。

mc event add ALIAS/BUCKET arn:minio:sqs::<YOURFUNCTIONNAME>:webhook --event put

最后,您可以通过验证运行此命令时是否输出了存储桶通知来检查是否 s3:ObjectCreated:* 为存储桶通知配置了正确的事件类型:

mc event ls ALIAS/BUCKET arn:minio:sqs::<YOURFUNCTIONNAME>:webhook

如果您想了解有关将存储桶事件发布到 Webhook 的更多信息,请查看文档以及对事件通知的深入探讨。现在,我们准备试用我们的文本提取服务器。

尝试一下

这是我想从中提取文本的文档。这是 2000 年《商品未来现代化法案》的 PDF 文件,该法案是美国一项有影响力的金融立法。


我使用 MinIO 控制台将此 PDF 放入我的“提取”存储桶中。


此 PUT 事件会触发存储桶通知,然后将该通知发布到提取服务器终端节点。因此,文本由 Tika 提取并打印到控制台。

后续步骤

虽然我们现在只是打印出提取的文本,但正如 The Premise 中所暗示的那样,该文本可以用于许多下游任务。例如:

  1. 创建用于LLM微调的数据集:假设您想要对以各种文件格式(即 PDF、DOCX、PPTX、Markdown 等)存在的公司文档集合进行微调大型语言模型。要为此任务创建LLM友好的文本数据集,您可以将所有这些文档收集到配置了类似 Webhook 的 MinIO 存储桶中,并将每个文档提取的文本传递到微调/训练集的数据帧中。此外,通过将数据集的源文件放在 MinIO 上,可以更轻松地管理、审核和跟踪数据集的组成。

  2. 检索增强生成:RAG 是LLM应用程序可以利用精确上下文并避免幻觉的一种方式。这种方法的一个核心方面是确保可以提取文档的文本,然后将其嵌入到向量中,从而实现语义搜索。此外,通常最佳做法是将这些向量的实际源文档存储在对象存储中(如 MinIO!)。使用本文中概述的方法,您可以轻松实现两者。如果您想了解有关 RAG 及其优势的更多信息,请查看这篇之前的文章。

  3. LLM应用:通过编程方式从新存储的文档中即时提取文本,可能性是无穷无尽的,特别是如果您可以使用LLM.想想关键词检测(即提示:“提到了哪些股票代码?”),内容评估(即提示:“根据评分标准,这篇论文提交应该得到什么分数?),或者几乎任何类型的基于文本的分析(即提示:”根据这个日志输出,第一个错误是什么时候发生的?“)。

除了存储桶通知用于这些任务的实用性之外,MinIO 还旨在为任何类型和数量的对象(无论是 Powerpoint、图像还是代码片段)提供世界一流的容错和性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1451332.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【实战】二、Jest难点进阶(一) —— 前端要学的测试课 从Jest入门到TDD BDD双实战(五)

文章目录 一、Jest 前端自动化测试框架基础入门二、Jest难点进阶1.snapshot 快照测试 学习内容来源&#xff1a;Jest入门到TDD/BDD双实战_前端要学的测试课 相对原教程&#xff0c;我在学习开始时&#xff08;2023.08&#xff09;采用的是当前最新版本&#xff1a; 项版本babe…

STM32F1 - 中断系统

Interrupt 1> 硬件框图2> NVIC 中断管理3> EXTI 中断管理3.1> EXTI与NVIC3.2> EXTI内部框图 4> 外部中断实验4.1> 实验概述4.2> 程序设计 5> 总结 1> 硬件框图 NVIC&#xff1a;Nested Vectored Interrupt Controller【嵌套向量中断控制器】 管理…

分布式锁redisson

文章目录 1. 分布式锁1.1 基本原理和实现方式对比synchronized锁在集群模式下的问题多jvm使用同一个锁监视器分布式锁概念分布式锁须满足的条件分布式锁的实现 1.2 基于Redis的分布式锁获取锁&释放锁操作示例 基于Redis实现分布式锁初级版本ILock接口SimpleRedisLock使用示…

OS设备管理

设备管理 操作系统作为系统资源的管理者&#xff0c;其提供的功能有&#xff1a;处理机管理、存储器管理、文件管理、设备管理。其中前三个管理都是在计算机的主机内部管理其相对应的硬件。 I/O设备 I/O即输入/输出。I/O设备即可以将数据输入到计算机&#xff0c;或者可以接收…

差分与前缀和的含义、应用及示例代码

差分与前缀和 求差分 与 求前缀和 是一组“互逆”的操作。 使用差分 可以实现&#xff1a;以时间复杂度为O(1)&#xff0c;对数组区间各元素 / 矩阵区域各元素 一个常数。 使用前缀和 可以实现&#xff1a;以时间复杂度为O(1)&#xff0c;对数组区间各元素 / 矩阵区域各元素…

C++ 图上 bfs(五十八)【第五篇】

今天我们来学习一下图上bfs。 1.图上bfs 在图上&#xff0c;我们也可以进行 BFS&#xff0c;也可以解决图上 DFS 能解决的问题&#xff0c;比如连通块。 除此以外&#xff0c;根据 BFS 的性质&#xff0c;第一次到一个点的时候记下来的步数一定是到从起点到这个点的最小步数&…

Netty Review - 直接内存的应用及源码分析

文章目录 Pre概述应用访问效率&#xff1a; 堆内存 VS 直接内存申请效率&#xff1a; 堆内存 VS 直接内存数据存储结构&#xff1a; 堆内存 VS 直接内存结论 ByteBuffer.allocateDirect 源码分析unsafe.allocateMemory(size) ---> C方法 JVM参数 -XX:MaxDirectMemorySize直接…

并发编程(1)基础篇

1 概览 1.1 这门课讲什么 这门课中的【并发】一词涵盖了在 Java 平台上的 进程线程并发并行 以及 Java 并发工具、并发问题以及解决方案&#xff0c;同时也会讲解一些其它领域的并发 1.2 为什么学这么课 我工作中用不到并发啊&#xff1f; 那你还是没有接触到复杂项目. …

【Python--网络编程之Ping命令的实现】

&#x1f680; 作者 &#xff1a;“码上有前” &#x1f680; 文章简介 &#xff1a;Python开发技术 &#x1f680; 欢迎小伙伴们 点赞&#x1f44d;、收藏⭐、留言&#x1f4ac; Python网络编程之Ping命令的实现 往期内容代码见资源&#xff0c;效果图如下一、实验要求二、协…

【AIGC】Stable Diffusion 的提示词入门

一、正向提示词和反向提示词 Stable Diffusion 中的提示词通常用于指导用户对生成的图像进行控制。这些提示词可以分为正向提示词&#xff08;Positive Prompts&#xff09;和反向提示词&#xff08;Negative Prompts&#xff09;两类&#xff0c;它们分别影响图像生成过程中的…

嵌入式Qt Qt中的字符串类

一.Qt中的字符串类 QString vs string&#xff1a; QString在Qt库中几乎是无所不在的 所有的Qt图形用户组件都依赖于QString 实验1 &#xff1a;QString 初体验 #include <QDebug> void Sample_1() {QString s "add";s.append(" "); // &q…

函数递归与迭代附n的阶乘+顺序打印一个整数的每一位数+求第n个斐波那契数

1. 什么是递归&#xff1f; 递归其实是一种解决问题的方法&#xff0c;在C语言中&#xff0c;递归就是函数自己调用自己。 下面是一个最简单的C语言递归代码&#xff1a; #include <stdio.h> int main() {printf("hehe\n");main();//main函数中⼜调⽤了main函数…

linux进程控制【程序替换】

目录 前言&#xff1a; 1.替换原理 ​编辑 2.替换函数 2.1函数 execl 2.2函数 execv 2.3函数 execlp 2.4函数 execvp 2.5函数 execle 2.6函数 execve 2.7函数 execvpe 前言&#xff1a; 前面我们介绍了进程控制中的创建&#xff0c;退出等待&#xff0c;本章节我们将…

【VSCode】使用笔记

目录 快捷键系列 相关插件 相关文档链接 快捷键系列 调出终端 ctrl 或者是ctrlJ 结束进程 ctrlc 注释 ctrlkc 取消注释 ctrlku 上下移动代码 alt方向键 多行光标ctrlalt方向键 快速跳过某个单词 ctrl方向键 相关插件 1.每次修改后&#xff0c;自动保存启动项目 相…

家人们,比赛打完了

啊&#xff0c;终于打完一场比赛了&#xff0c;但还有三场…… 先看看我的战绩&#xff1a; 共八题&#xff0c;AC6题&#xff0c;总共3902分&#xff0c;3.7k人参加&#xff0c;第980名 来看看第一&#xff1a; A8题&#xff0c;我只有2题没做出&#xff0c;相差4000多分&am…

NLP_ChatGPT的RLHF实战

文章目录 介绍小结 介绍 ChatGPT 之所以成为ChatGPT&#xff0c;基于人类反馈的强化学习是其中重要的一环。而ChatGPT 的训练工程称得上是复杂而又神秘的&#xff0c;迄今为止&#xff0c;OpenAl也没有开源它的训练及调优的细节。 从 OpenAl已经公开的一部分信息推知&#xff…

H5 粒子特效引导页源码

H5 粒子特效引导页源码 源码介绍&#xff1a;一款粒子特效引导页源码&#xff0c;带彩色文字和4个按钮。 下载地址&#xff1a; https://www.changyouzuhao.cn/10222.html

比较不相交5点结构的顺序

( A, B )---6*30*2---( 1, 0 )( 0, 1 ) 让网络的输入只有6个节点&#xff0c;AB训练集各由6张二值化的图片组成&#xff0c;让差值结构有5个点&#xff0c;收敛误差7e-4&#xff0c;收敛199次&#xff0c;统计迭代次数平均值并排序。 如果行和列可以自由的变换&#xff0c;5个…

A. Desorting

链接 : Problem - A - Codeforces 题意 : 思路 : 先判断序列是否排好序 &#xff0c; 不是排好序的&#xff0c;直接输出0即可&#xff0c;排好序的 : 先求出相邻元素之间的最小间隔&#xff0c;因为&#xff0c;要使有序非递减序列&#xff0c;变得不排序&#xff0c;…

Python三级考试笔记

Python三级考试笔记【源源老师】 三级标准 一、 理解编码、数制的基本概念&#xff0c;并且会应用。 1. 能够进行二进制、十进制以及十六进制之间的转换&#xff1b; 2. 理解Python中的数制转换函数。 二、 掌握一维数据的表示和读写方法&#xff0c;能够编写程序处理一维数据…