六个开源的PDF转Markdown项目

news2024/11/16 10:29:34

✨ 1: gptpdf

gptpdf 是一个利用VLLM解析PDF为Markdown的工具,几乎完美支持数学公式、表格等。

在这里插入图片描述

GPTPDF 是一个使用视觉大模型(如 GPT-4o)将 PDF 文件解析成 Markdown 文件的工具。它主要用于高效地解析 PDF 文档中的排版、数学公式、表格、图片、图表等内容,并将这些内容转换为结构化的 Markdown 格式。其显著特点是简单且成本低,每页平均费用为 $0.013。

地址:https://github.com/CosmosShadow/gptpdf

✨ 2: marker

Marker是一款将PDF快速精准转换为Markdown的工具,支持多种文档格式和语言。

在这里插入图片描述

Marker是一款能够快速且准确地将PDF转换为Markdown的工具。它支持多种类型的文档(针对书籍和科学论文进行了优化),支持所有语言,并且能够去除页眉、页脚及其他杂乱信息。此外,它还能正确格式化表格和代码块,并提取图像保存为Markdown。同时,Marker将大多数的公式转换为LaTeX格式,适用于GPU、CPU或MPS环境。

地址:https://github.com/vikparuchuri/marker

✨ 3: PDF-Extract-Kit

PDF-Extract-Kit 提供高质量PDF内容提取,支持布局检测、公式识别和OCR功能

在这里插入图片描述

  • 版面检测:使用 LayoutLMv3 模型进行区域检测,如检测图片、表格、标题、文本等。
  • 公式检测:使用 YOLOv8 模型检测公式,包括行内公式和独立公式。
  • 公式识别:使用 UniMERNet 进行公式识别。
  • 光学字符识别 (OCR):使用 PaddleOCR 进行文本识别。

地址:https://github.com/opendatalab/PDF-Extract-Kit

✨ 4: zeroX

Zerox OCR 是一种经济高效且准确的文档OCR工具,适用于AI数据处理。

在这里插入图片描述

Zerox OCR 是一种极其简便的方法,用于将文档进行光学字符识别(OCR)并方便人工智能进行后续处理。鉴于文档往往包含复杂布局、表格、图表等,视觉模型在处理这些内容时尤其有效。

基本逻辑如下:
提供一个 PDF 文件(URL 或文件缓冲区)。
将 PDF 转换成一系列图像。
将每个图像传给 GPT,让其生成 Markdown 格式的文本。
聚合所有响应,并返回 Markdown 格式的结果。

地址:https://github.com/getomni-ai/zeroX

✨ 5: omniparse

OmniParse是一个将各种非结构化数据转换为结构化、适用于生成式AI(LLM)应用的平台。

在这里插入图片描述

OmniParse 是一个数据解析平台,旨在将各种非结构化数据转换为适用于生成式AI(GenAI)应用的结构化数据。无论是文档、表格、图像、视频、音频文件,还是网页,OmniParse 都能对其进行处理,使其变得干净、结构化,并为诸如 RAG(Retrieval-Augmented Generation)和细调等AI应用做好准备。

  • 完全本地化,无需外部API
  • 支持多达 20 种文件类型
  • 将文档、多媒体和网页转换为高质量的结构化 Markdown
  • 支持表格提取、图像提取与标注、音频/视频转录、网页爬取
  • 通过 Docker 和 Skypilot 轻松部署
  • 兼容 Colab
  • 交互式 UI 由 Gradio 提供支持

地址:https://github.com/adithya-s-k/omniparse

✨ 6: MinerU

MinerU 是一个开源的高质量数据提取工具,支持多种文件格式

在这里插入图片描述

MinerU 是一个一站式、开源的高质量数据提取工具,主要包括以下两个核心功能模块:

Magic-PDF

  • 功能介绍:Magic-PDF 能将 PDF 文档转换为 Markdown 格式,可以处理本地存储或支持 S3 协议的对象存储中的文件。
  • 主要特色
    • 支持多种前端模型输入
    • 自动去除页眉、页脚、脚注和页码
    • 保留文档原有的结构和格式,包括标题、段落、列表等
    • 提取并显示图片和表格
    • 将公式转换为 LaTeX 格式
    • 自动检测和转换乱码 PDF 文档
    • 兼容 CPU 和 GPU 环境
    • 可在 Windows、Linux 和 macOS 平台上使用

Magic-Doc

  • 功能介绍:Magic-Doc 能将网页或多格式电子书转换为 Markdown 格式。
  • 主要特色
    • 网页提取:跨模态精确解析文本、图片、表格和公式信息
    • 电子书文档提取:支持包括 epub、mobi 在内的多种文档格式,完美适配文本和图片
    • 语言类型识别:精确识别176种语言

地址:https://github.com/opendatalab/MinerU



更多AI工具,参考国内AiBard123,Github-AiBard123 公众号:每日AI新工具

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1956446.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

springboot专利信息服务管理系统-计算机毕业设计源码97187

目录 摘要 1 绪论 1.1 选题背景与意义 1.2国内外研究现状 1.3论文结构与章节安排 2系统分析 2.1 可行性分析 2.2 系统流程分析 2.2.1系统开发流程 2.2.2 用户登录流程 2.2.3 系统操作流程 2.2.4 添加信息流程 2.2.5 修改信息流程 2.2.6 删除信息流程 2.3 系统功能…

【王佩丰 Excel 基础教程】第三讲:查找、替换、定位

文章目录 前言一、查找与替换1.1、按值查找1.2、按格式查找1.3、是否开启单元格匹配1.4、模糊查询 二、定位工具2.1、名称框的相关操作2.2、批注的相关介绍2.2.1、批注的基本操作2.2.2、批注的格式 2.3、使用 “ 定位条件 ” 解决以下问题 总结 前言 跟着B站学习王佩丰 Excel …

LLM工具调用破局:Few-shot Prompting

在大型语言模型(LLM)的应用中,工具的使用至关重要。我们一直在研究如何提升LLM调用工具的性能。一种常见的提升方法是通过少量样本提示,即将一些模型输入的示例和期望的输出结果直接展示给模型。据Language Models are Few-Shot L…

Jmeter下载、安装、永久汉化(Windows环境)

1、JDK下载 JDK8下载地址https://www.oracle.com/java/technologies/downloads/#java8-windows JDK8的Windows的64位: 2、Jmeter下载 jmeter下载地址https://jmeter.apache.org/download_jmeter.cgi 3、配置环境变量 安装好后,把jdk和jmeter都配置到…

4.JAVA-运算符

算数运算符 隐式类型转换 强制转换 字符串操作 字符相加 小结 自增自减运算符 赋值运算符 关系运算符 逻辑运算符 短路逻辑运算 三元运算符 运算符优先级 这里小括号优先于所有,所以想要哪一个优先运算,就可以将哪一个用小括号扩起来,比较方便…

科普贴:什么是大模型?快速了解大模型基本概念

在人工智能的世界里,大模型就像超级大脑一样,能够处理和理解大量的信息。你可能听说过ChatGPT,它就是大模型的一个典型代表。那么,什么是大模型呢?让我们一起来探索这个神奇的领域。 什么是大模型? 想象一…

EC与小鹅通震撼对接全攻略,一键解锁商业新纪元

客户介绍: 某企业管理咨询有限公司是一家深耕于商务服务业的专业咨询公司,隶属于商界联合品牌旗下。自成立以来,公司一直致力于在团队、产品及服务品质上不断投入与提升,公司的主要业务范围广泛,包括但不限于企业管理…

什么是PLM?

PLM(Product Lifecycle Management,产品全生命周期管理)是一种先进的企业信息化管理理念,旨在帮助企业从产品的概念设计、研发、生产制造、销售、售后服务,直到产品报废回收的整个生命周期进行管理和优化。PLM系统通过…

洗地机哪家好?四款洗地机好洗地机的品牌推荐

随着“懒人经济”的兴起,洗地机作为家居清洁领域的革新者,正逐步融入越来越多家庭的生活之中。面对市场上繁多的洗地机品牌与型号,消费者往往感到难以抉择:“洗地机哪个牌子最佳?”为了解答这一疑问,本文精…

JavaScript青少年简明教程:函数及其相关知识(上)

JavaScript青少年简明教程:函数及其相关知识(上) 在JavaScript中,函数是一段可以重复使用的代码块,它执行特定的任务并可能返回结果。 内置函数(Built-in Functions) 内置函数是编程语言中预先…

TinyMCE一些问题

1.element 在el-dialog中使用tinymce导致富文本弹窗在el-dialog后面的问题 原因是富文本的弹窗层级太低了 在APP.vue中添加样式即可解决 /* 富文本菜单 */ .tox-tinymce-aux {z-index: 9999 !important; }2.element 在el-dialog中点击富文本的功能栏报错 由于 aria-hidden 属…

系统架构设计师 - 知识产权与标准化

知识产权与标准化 知识产权与标准化(3分)保护范围与对象 ★ ★ ★ ★法律法规 保护期限 ★ ★知识产权人确定 ★ ★ ★ ★侵权判断 ★ ★ ★ ★标准化(了解)★标准的分类标准的编号 大家好呀!我是小笙,本章…

WebSocket程序设计

协议说明 WebSocket 是一种在单个TCP连接上进行全双工通信的协议。WebSocket 使得客户端和服务器之间的数据交换变得更加简单,允许服务端主动向客户端推送数据。Websocket主要用在B/S架构的应用程序中,在 WebSocket API 中,浏览器和服务器只…

Redis缓存数据库进阶——Redis与分布式锁(6)

分布式锁简介 1. 什么是分布式锁 分布式锁是一种在分布式系统环境下,通过多个节点对共享资源进行访问控制的一种同步机制。它的主要目的是防止多个节点同时操作同一份数据,从而避免数据的不一致性。 线程锁: 也被称为互斥锁(Mu…

捷配告诉你半孔是如何做出来的

在PCB设计和制造领域,电镀半孔(也称为齿形孔)是一种创新技术,它通过焊接为单独的PCB模块提供了一种节省空间的互连方式。捷配在生产过程中经常遇到客户对这种技术的询问,以下是对其工作原理、设计指南和制造工艺的介绍…

Java1.3标准之重要特性及用法实例(十四)

简介: CSDN博客专家,专注Android/Linux系统,分享多mic语音方案、音视频、编解码等技术,与大家一起成长! 新书发布:《Android系统多媒体进阶实战》🚀 优质专栏: Audio工程师进阶系列…

唯美贺卡制作QQ微信小程序完整源码/无需后台直接运营

这是一款用于发送唯美贺卡的一个小程序,界面唯美简洁,无需后台可直接运营,可以自定义卡片内容图标、邮票等元素,QQ微信小程序都可以直接使用,对接了部分广告,大家可以根据自己的广告id进行替换。 小程序主…

Linux驱动开发——字符设备驱动开发

1 概述 1.1 说明 本文是学习rk3568开发板驱动开发的记录,代码依托于rk3568开发板 1.2 字符设备介绍 字符设备是 Linux 驱动中最基本的一类设备驱动,字符设备就是一个一个字节,按照字节流进行读写操作的设备,读写数据是分先后顺…

第05课 Scratch入门篇:海底世界-多彩的鱼

海底世界-多彩的鱼 入门篇适合新手,如您已经学过,可以忽略本节课! 故事背景: 蔚蓝的海洋底部有一群凶猛的鲨鱼和一群色彩斑斓的小鱼,还有变色的水母,敲打乐器的章鱼,还有一些能够变色的小鱼畅…

在Ollama运行HuggingFace下载的模型

本地运行模型我之前都直接使用LM-studio,好用、无脑。本地用足够了。但是放在服务器上才是正道,本地运行无法长时间开启保持运行,而且Ollama推出了并行GPU计算之后可用性大幅提升,可用性很高。 今天研究下如何用Ollama如何在本地来…