RAG数据拆分之PDF

news2024/11/28 17:29:14
  1. 引言
  2. RAG数据简介
  3. PDF解析方法及工具
  4. 代码实现
  5. 总结

二、正文内容

  1. 引言

本文将介绍如何将RAG数据拆分至PDF格式,并探讨PDF解析的方法和工具,最后提供代码示例。

  1. RAG数据简介

RAG(关系型属性图)是一种用于表示实体及其关系的图数据结构。在RAG中,节点表示实体,边表示实体之间的关系,属性则用于描述实体和边的特征。

  1. PDF解析方法及工具

(1)PDF解析方法

  • DOM解析:将PDF文档转换为树形结构,便于操作和遍历。
  • SAX解析:基于事件驱动,适用于处理大型PDF文档。

(2)PDF解析工具

  • PyPDF2:一个Python库,用于读取、分割、合并PDF文件。
  • PDFMiner:一个强大的PDF解析库,支持提取文本、图片等元素。
  • pdfplumber:一个专注于文本提取的PDF解析库。
  1. 代码实现

以下是一个使用PyPDF2将RAG数据拆分至PDF的示例代码:

import PyPDF2

# 读取PDF文件
with open('source.pdf', 'rb') as file:
    reader = PyPDF2.PdfFileReader(file)
    num_pages = reader.numPages

    # 遍历每一页
    for page_num in range(num_pages):
        page = reader.getPage(page_num)
        text = page.extractText()

        # 拆分RAG数据
        # 假设RAG数据以特定格式存储,例如:实体1-关系-实体2
        entities = text.split('-')

        # 创建新的PDF文件
        pdf_writer = PyPDF2.PdfFileWriter()
        pdf_writer.addPage(page)

        with open(f'output/page_{page_num + 1}.pdf', 'wb') as output_file:
            pdf_writer.write(output_file)

print('PDF文件拆分完成!')

解析表格:

def extract_continuous_tables(pdf, start_page_num):
    """
    从指定页开始提取连续的表格内容
    :param pdf: PDF文档对象
    :param start_page_num: 开始页码
    :return: 包含处理页码和表格文本的字典
    """
    continuous_tables = []  # 存储连续表格内容
    processed_pages = []  # 存储处理过的页码
    current_page_num = start_page_num

    # 添加起始页
    processed_pages.append(current_page_num)

    while current_page_num < len(pdf.pages):
        current_page = pdf.pages[current_page_num]
        current_page = remove_header_footer(current_page)

        # 提取当前页的表格
        current_tables = current_page.extract_tables()
        if current_tables:
            # 将当前页的表格添加到结果中
            continuous_tables.extend(current_tables)

        # 检查是否还有下一页
        if current_page_num + 1 >= len(pdf.pages):
            break

        # 获取下一页内容
        next_page = pdf.pages[current_page_num + 1]
        next_page = remove_header_footer(next_page)

        # 提取下一页的内容
        next_page_tables = next_page.extract_tables()
        next_page_words = next_page.extract_words(keep_blank_chars=True, extra_attrs=['fontname', 'size'])

        # 过滤页眉页脚
        header_height = 50
        footer_height = 50

        def is_header_content(word):
            text = word['text'].lower()

            # 位置检查
            if word['top'] <= header_height or word['top'] >= (next_page.height - footer_height):
                return True

            # 电话号码模式
            phone_patterns = [
                r'tel[\s:]*[\d\-/]+',
                r'电话[\s:]*[\d\-/]+',
                r'传真[\s:]*[\d\-/]+',
                r'fax[\s:]*[\d\-/]+',
                r'\d{2,4}[\-/]\d{4,8}',  # 匹配常见电话号码格式
            ]

            # 使用正则表达式匹配
            import re
            if any(re.search(pattern, text, re.IGNORECASE) for pattern in phone_patterns):
                return True

            # 页眉特征检查
            header_features = [
                # 位置特征
                word['top'] < header_height * 1.2,  # 稍微放宽高度限制
                word['size'] < 10,  # 字体较小

                # 内容特征
                any(pattern in text for pattern in [
                    '页码', '第', '页', 'page',
                    'copyright', '版权所有',
                    '机密', '保密',
                    '草稿', 'draft',
                    '文档编号', 'doc',
                    '日期', 'date'
                ]),

                # 格式特征
                bool(re.match(r'.*\d+.*页', text)),  # 包含页码
                bool(re.match(r'.*\d{4}[-/]\d{1,2}[-/]\d{1,2}', text)),  # 日期格式
            ]

            return any(header_features)

        # 过滤词
        filtered_words = [
            word for word in next_page_words
            if not is_header_content(word)
        ]

        # 如果需要,还可以按垂直位置排序
        filtered_words.sort(key=lambda x: x['top'])

        # 判断下一页是否以表格开始
        starts_with_table = False
        if filtered_words and next_page_tables:  # 确保有文字和表格
            try:
                if next_page_tables[0] and next_page_tables[0][0]:  # 确保表格有内容
                    # 获取第一个表格的位置
                    first_table = next_page.find_tables()[0]
                    if first_table:
                        first_table_top = first_table.bbox[1]

                        # 获取第一个文字的位置
                        first_word_top = filtered_words[0]['top']

                        # 如果表格在文字之前,则认为页面以表格开始
                        if first_table_top < first_word_top:
                            starts_with_table = True
            except (IndexError, AttributeError):
                starts_with_table = False

        if not starts_with_table:
            # 如果下一页不是以表格开始,则结束提取
            break

        # 继续处理下一页
        current_page_num += 1
        processed_pages.append(current_page_num)

    # 将表格转换为文本
    table_texts = []
    for table in continuous_tables:
        if table:
            table_text = []
            for row in table:
                # 过滤None和空字符串,并确保所有值都转换为字符串
                row_text = []
                for cell in row:
                    if cell is not None and str(cell).strip():
                        cell_str = str(cell).strip().replace("\n", "    ")
                        # if cell_str:  # 只添加非空字符串
                        row_text.append(cell_str)
                    else:
                        row_text.append(" ")  # 将None转换为空字符串

                if row_text:  # 只添加非空行
                    table_text.append('##'.join(row_text))

            filtered_table_text = [row for row in table_text if '##' in row]
            if filtered_table_text:
                table_texts.append('\n'.join(filtered_table_text))

    # 返回包含页码列表和表格文本的字典
    result = {
        'processed_pages': processed_pages,
        'table_text': '\n\n'.join(table_texts) if table_texts else ""
    }

    return result

1.pdfplumber
https://blog.csdn.net/fuhanghang/article/details/122579548
1
pdfplumber的主要类和方法


pdfplumber对于表格的提取
参考https://github.com/jsvine/pdfplumber/blob/stable/examples/notebooks/extract-table-ca-warn-report.ipynb
1
代码:

pdf = pdfplumber.open("../pdfs/ca-warn-report.pdf")
p0=pdf.pages[0]
im = p0.to_image()  #display 第一页
table = p0.extract_table() 抽取其中最大的表格

import pandas as pd
df = pd.DataFrame(table[1:], columns=table[0])
for column in ["Effective", "Received"]:
    df[column] = df[column].str.replace(" ", "")  使用panda来吧table抽取到的数据转成dataFrame格式

  1. 总结

本文介绍了RAG数据拆分至PDF的方法和工具,并通过代码示例展示了如何使用PyPDF2进行PDF文件拆分。在实际应用中,可根据需求选择合适的解析方法和工具。

希望这个分享笔记大纲和代码示例能帮助你完成你的分享笔记。在实际编写过程中,可以根据具体需求进行调整和优化。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2249211.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【开源项目】2024最新PHP在线客服系统源码/带预知消息/带搭建教程

简介 随着人工智能技术的飞速发展&#xff0c;AI驱动的在线客服系统已经成为企业提升客户服务质量和效率的重要工具。本文将探讨AI在线客服系统的理论基础&#xff0c;并展示如何使用PHP语言实现一个简单的AI客服系统。源码仓库地址&#xff1a;ym.fzapp.top 在线客服系统的…

WEB攻防-通用漏洞XSS跨站MXSSUXSSFlashXSSPDFXSS

演示案例&#xff1a; UXSS-Edge&CVE-2021-34506 FlashXSS-PHPWind&SWF反编译 PDFXSS-PDF动作添加&文件上传 使用jpexs反编译swf文件 上传后&#xff0c;发给别人带漏洞的分享链接

QSqlTableModel的使用

实例功能 这边使用一个实例显示数据库 demodb 中 employee 数据表的内容&#xff0c;实现编辑、插入、删除的操作&#xff0c;实现数据的排序和记录过滤&#xff0c;还实现 BLOB 类型字段 Photo 中存储照片的显示、导入等操作&#xff0c;运行界面如下图&#xff1a; 在上图中…

适用于学校、医院等低压用电场所的智能安全配电装置

引言 电力&#xff0c;作为一种清洁且高效的能源&#xff0c;极大地促进了现代生活的便捷与舒适。然而&#xff0c;与此同时&#xff0c;因使用不当或维护缺失等问题&#xff0c;漏电、触电事件以及电气火灾频发&#xff0c;对人们的生命安全和财产安全构成了严重威胁&#xf…

LabVIEW实现UDP通信

目录 1、UDP通信原理 2、硬件环境部署 3、云端环境部署 4、UDP通信函数 5、程序架构 6、前面板设计 7、程序框图设计 8、测试验证 本专栏以LabVIEW为开发平台&#xff0c;讲解物联网通信组网原理与开发方法&#xff0c;覆盖RS232、TCP、MQTT、蓝牙、Wi-Fi、NB-IoT等协议。 结合…

java——Spring MVC的工作流程

Spring MVC的工作流程是基于模型-视图-控制器&#xff08;MVC&#xff09;设计模式的一个典型实现&#xff0c;以下是其主要工作流程步骤&#xff1a; 客户端请求提交&#xff1a; 用户通过浏览器向服务器发送请求&#xff0c;该请求首先到达Spring MVC的前端控制器DispatcherS…

带有悬浮窗功能的Android应用

android api29 gradle 8.9 要求 布局文件 (floating_window_layout.xml): 增加、删除、关闭按钮默认隐藏。使用“开始”按钮来控制这些按钮的显示和隐藏。 服务类 (FloatingWindowService.kt): 实现“开始”按钮的功能&#xff0c;点击时切换增加、删除、关闭按钮的可见性。处…

【编译原理】词法、语法、语义实验流程内容梳理

编译原理实验有点难&#xff0c;但是加上ai的辅助就会很简单&#xff0c;下面梳理一下代码流程。 全代码在github仓库中&#xff0c;链接&#xff1a;NeiFeiTiii/CompilerOriginTest at Version2.0&#xff0c;感谢star一下 一、项目结构 关键内容就是里面的那几个.c和.h文件。…

Linux介绍与安装指南:从入门到精通

1. Linux简介 1.1 什么是Linux&#xff1f; Linux是一种基于Unix的操作系统&#xff0c;由Linus Torvalds于1991年首次发布。Linux的核心&#xff08;Kernel&#xff09;是开源的&#xff0c;允许任何人自由使用、修改和分发。Linux操作系统通常包括Linux内核、GNU工具集、图…

MFC图形函数学习12——位图操作函数

位图即后缀为bmp的图形文件&#xff0c;MFC中有专门的函数处理这种格式的图形文件。这些函数只能处理作为MFC资源的bmp图&#xff0c;没有操作文件的功能&#xff0c;受限较多&#xff0c;一般常作为程序窗口界面图片、显示背景图片等用途。有关位图操作的步骤、相关函数等介绍…

12.Three.js纹理动画与动效墙案例

12.Three.js纹理动画与动效墙案例 在Three.js的数字孪生场景应用中&#xff0c;我们通常会使用到一些动画渲染效果&#xff0c;如动效墙&#xff0c;飞线、雷达等等&#xff0c;今天主要了解一下其中一种动画渲染效果&#xff1a;纹理动画。下面实现以下动效墙效果&#xff08…

SJYP 24冬季系列 FROZEN CHARISMA发布

近日&#xff0c;女装品牌SJYP 2024年冬季系列——FROZEN CHARISMA已正式发布&#xff0c;展现了更加干练的法式风格。此次新品发布不仅延续了SJYP一贯的强烈设计风格和个性时尚&#xff0c;更融入了法式风情的干练元素&#xff0c;为消费者带来了一场视觉与穿着的双重盛宴。  …

无人机产业发展如何?如何进行产业分析?

▶无人机产业发展现状&#xff1a;高速增长 1.市场规模和增长趋势&#xff1a; 全球无人机市场规模在2021年约为256亿美元&#xff0c;同比增长14%。中国民用无人机市场规模在2021年达到869.12亿元&#xff0c;显示出市场的快速增长。 预计到2029年&#xff0c;中国无人机市…

<项目代码>YOLOv8 红绿灯识别<目标检测>

YOLOv8是一种单阶段&#xff08;one-stage&#xff09;检测算法&#xff0c;它将目标检测问题转化为一个回归问题&#xff0c;能够在一次前向传播过程中同时完成目标的分类和定位任务。相较于两阶段检测算法&#xff08;如Faster R-CNN&#xff09;&#xff0c;YOLOv8具有更高的…

DVWA靶场——File Inclusion

File Inclusion&#xff08;文件包含&#xff09;漏洞 指攻击者通过恶意构造输入&#xff0c;利用应用程序错误的文件包含机制&#xff0c;导致程序包含并执行未经授权的本地或远程文件。这类漏洞广泛存在于Web应用程序中&#xff0c;尤其是在那些允许用户提供文件路径或URL的地…

Ubuntu下用Docker部署群晖系统---Virtual DSM --zerotier实现连接

Ubuntu下用Docker部署群晖系统—Virtual DSM --zerotier实现连接 1. Docker 安装 安装最新docker curl -fsSL get.docker.com -o get-docker.sh sudo sh get-docker.sh sudo docker run hello-world2.docker-compose 安装 sudo pip install docker-compose测试安装是否成功…

神经网络(系统性学习四):深度学习——卷积神经网络(CNN)

相关文章&#xff1a; 神经网络中常用的激活函数神经网络&#xff08;系统性学习一&#xff09;&#xff1a;入门篇神经网络&#xff08;系统性学习二&#xff09;&#xff1a;单层神经网络&#xff08;感知机&#xff09;神经网络&#xff08;系统性学习三&#xff09;&#…

数据结构C语言描述5(图文结合)--队列,数组、链式、优先队列的实现

前言 这个专栏将会用纯C实现常用的数据结构和简单的算法&#xff1b;有C基础即可跟着学习&#xff0c;代码均可运行&#xff1b;准备考研的也可跟着写&#xff0c;个人感觉&#xff0c;如果时间充裕&#xff0c;手写一遍比看书、刷题管用很多&#xff0c;这也是本人采用纯C语言…

打开windows 的字符映射表

快捷键 win R 打开资源管理器 输入: charmap 点击确定

EPS生成垂直模型闪退

问题描述 EPS在生成垂直模型时闪退。 解决办法在这里插入图片描述 原DSM文件和DOM文件分别在单独文件夹中。 将这几个文件统一放在一个文件夹中&#xff0c;并且注意路径不要太复杂。 成功运行&#xff0c;文件大时&#xff0c;处理会非常缓慢。