pdf转word/markdown等格式——MinerU的部署:2024最新的智能数据提取工具

news2025/1/9 16:40:35

 一、简介

MinerU是开源、高质量的数据提取工具,支持多源数据、深度挖掘、自定义规则、快速提取等。含数据采集、处理、存储模块及用户界面,适用于学术、商业、金融、法律等多领域,提高数据获取效率。一站式、开源、高质量的数据提取工具,支持多种功能,如提取 PDF、markdown 等格式的内容。

二、应用场景

1.学术研究:

- 文献资料整理:科研人员在进行学术研究时,需要阅读大量的学术文献。MinerU可以从PDF格式的学术论文、电子书籍中快速提取关键信息,如研究方法、实验数据、结论等,并将其转换为易于整理和分析的格式,帮助科研人员高效地梳理文献内容,节省时间和精力。例如,在医学领域,研究人员可以利用MinerU从相关医学文献中提取疾病的症状、治疗方法、药物疗效等信息,为自己的研究提供参考。

- 数据收集与分析:对于需要进行大规模数据收集和分析的研究项目,MinerU可以从各种数据源(如学术数据库、网页等)中提取相关数据。比如在社会科学研究中,收集不同地区的人口统计数据、经济发展数据等,然后进行综合分析,以支持研究结论的得出。

2.商业与市场分析:

- 市场调研:企业在进行市场调研时,常常需要收集大量的市场数据,包括行业报告、竞争对手的信息、消费者反馈等。MinerU可以帮助企业从各种文档和网页中提取所需的数据,例如从行业研究报告中提取市场规模、增长率、市场份额等关键数据,为企业制定市场策略提供依据。

- 销售数据分析:从销售记录、客户反馈等数据中提取有价值的信息,如销售趋势、客户购买行为、产品受欢迎程度等。通过对这些数据的分析,企业可以优化产品策略、定价策略以及销售渠道策略,提高销售业绩。例如,电商企业可以利用MinerU从大量的交易数据中分析用户的购买习惯和偏好,从而进行精准营销和个性化推荐。

3.金融领域:

- 财务报表分析:能够从PDF格式的财务报表中提取关键的财务数据,如资产、负债、收入、利润等,并进行结构化处理,方便金融分析师进行财务比率分析、趋势分析等,以评估企业的财务状况和经营绩效。例如,证券分析师可以使用MinerU快速提取多家上市公司的财务报表数据,进行横向和纵向对比,为投资决策提供参考。

- 金融新闻与资讯分析:实时从金融新闻网站、财经媒体等渠道提取有关金融市场、股票、债券、汇率等方面的信息,并进行整理和分析。这有助于金融从业者及时了解市场动态,把握投资机会,做出更明智的投资决策。比如,通过MinerU提取金融新闻中关于某一特定公司的重大事件、业绩预告等信息,结合财务数据进行综合分析,判断该公司股票的投资价值。

4.法律领域:

- 法律文档处理:律师在处理案件时,需要阅读和分析大量的法律文件,如合同、法规、判决书等。MinerU可以帮助律师从这些文档中快速提取关键条款、法律依据、案件事实等信息,提高工作效率。例如,在合同审查中,MinerU可以提取合同的关键条款,如双方的权利义务、违约责任等,帮助律师快速了解合同的主要内容和风险点。

- 案例分析与研究:从大量的司法案例中提取相关信息,如案件事实、判决结果、法律适用等,为律师进行案例分析和研究提供支持。这有助于律师总结司法实践中的规律和趋势,提高辩护和代理的水平。

5.新闻媒体与出版:

- 新闻内容采集:新闻媒体可以使用MinerU从各种网站、社交媒体等渠道快速提取新闻内容,包括标题、正文、图片等,并进行整合和编辑,以提高新闻采编的效率。例如,实时采集各大新闻网站的热门新闻,进行汇总和分类,为读者提供全面的新闻资讯。

- 出版行业:在出版过程中,需要对大量的稿件进行处理。MinerU可以帮助编辑从作者提交的文档中提取文本内容、图片等,方便进行排版和编辑工作。同时,对于需要将纸质书籍数字化的项目,MinerU可以将PDF格式的书籍内容提取出来,转换为可编辑的文本格式,提高数字化的效率。

6.知识管理与学习:

- 知识整理与归纳:个人或组织可以利用MinerU从各种学习资料、知识库、在线课程等中提取知识点,进行整理和归纳,构建自己的知识体系。例如,学生可以将从教材、学术论文、网上课程中提取的重要知识点整理在一起,方便复习和备考。

- 在线学习平台:在线学习平台可以使用MinerU从各种教育资源中提取课程内容、题目、答案等信息,为学生提供个性化的学习服务。例如,根据学生的学习进度和需求,从大量的学习资源中提取适合的内容推送给学生,提高学习效果。

三、部署

https://github.com/opendatalab/MinerU

conda create -n MinerU python=3.10
conda activate MinerU
pip install -U magic-pdf[full] --extra-index-url https://wheels.myhloli.com

下载模型 :

MinerU-大语言语料处理神器,CPU/GPU均可跑,开源免费“敲”好用_魔搭ModelScope社区-ModelScope魔搭社区

四、测试

1.修改 magic-pdf.json 文件  修改models-dir,layoutreader-model-dir  为自己的位置。

{
    "bucket_info": {
        "bucket-name-1": [
            "ak",
            "sk",
            "endpoint"
        ],
        "bucket-name-2": [
            "ak",
            "sk",
            "endpoint"
        ]
    },
    "models-dir": "/home/py/ycc/MinerU-master/MODELSCOPE/hub/opendatalab/PDF-Extract-Kit-1___0/models",
    "layoutreader-model-dir": "/home/py/ycc/MinerU-master/MODELSCOPE/hub/ppaanngggg/layoutreader",
    "device-mode": "cuda",
    "layout-config": {
        "model": "layoutlmv3"
    },
    "formula-config": {
        "mfd_model": "yolo_v8_mfd",
        "mfr_model": "unimernet_small",
        "enable": true
    },
    "table-config": {
        "model": "rapid_table",
        "enable": false,
        "max_time": 400
    },
    "config_version": "1.0.0"
}

2.新建input output文件夹,将要识别的文件放入input中,运行: 

magic-pdf -p input -o output -m auto

即可在output中找到识别结果,表格将会剪切为图片,markdown有图片链接。

 五、总结(优点)

  • 智能清理:自动移除页眉、页脚、脚注、页码等干扰内容,确保文本语义连贯。

  • 结构保持:完整保留原文档的层级结构,包括标题、段落、列表等。

  • 多模态支持:精确提取图片、表格及其说明文字,支持图像、表格、公式等多种内容的识别和处理。

  • 公式转换:自动识别文档中的公式并将其转换为LaTeX格式。

  • 多语言OCR:支持84种语言的文字识别,能够处理扫描版PDF和乱码PDF。

  • 多种输出格式:支持多种输出格式,如Markdown、JSON等,方便后续分析和处理。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2255110.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

fedora下Jetbrains系列IDE窗口中文乱码解决方法

可以看到窗口右部分的中文内容为小方块。 进入 Settings - Appearance & Behavior - Appearance - Use custom font : Note Sans Mono CJK SC ,设置后如下图:

机器学习详解(2):线性回归之理论学习

文章目录 1 监督学习2 线性回归2.1 简单/多元线性回归2.2 最佳拟合线2.3 成本函数和梯度下降2.4 线性回归的假设2.5 线性回归的评估指标函数 3 总结 机器学习是人工智能的一个分支,主要致力于开发能够从数据中学习并进行预测的算法和统计模型。线性回归是机器学习的…

半监督学习与数据增强

✨✨ 欢迎大家来访Srlua的博文(づ ̄3 ̄)づ╭❤~✨✨ 🌟🌟 欢迎各位亲爱的读者,感谢你们抽出宝贵的时间来阅读我的文章。 我是Srlua小谢,在这里我会分享我的知识和经验。&am…

位运算符I^~

&运算:上下相等才是1,有一个不同就是0 |运算:只要有1返回的就是1 ^(亦或)运算:上下不同是1,相同是0 ~运算:非运算,与数据全相反 cpu核心运算原理,四种cpu底层小电路 例&#xf…

蓝桥杯软件赛系列---lesson1

🌈个人主页:羽晨同学 💫个人格言:“成为自己未来的主人~” 我们今天会再开一个系列,那就是蓝桥杯系列,我们会从最基础的开始讲起,大家想要备战明年蓝桥杯的,让我们一起加油。 工具安装 DevC…

【0x01】HCI_Inquiry_Complete事件详解

目录 一、事件概述 二、事件格式及参数 2.1. HCI_Inquiry_Complete事件格式 2.2. 参数 三、HCI_Inquiry_Complete事件触发机制 3.1. 基于查询命令完成的触发 3.2. 受查询环境和设备状态影响的触发 3.3. 与蓝牙协议栈内部逻辑相关的触发 四、事件处理流程 4.1. 事件接…

安防视频监控平台Liveweb视频汇聚管理系统管理方案

智慧安防监控Liveweb视频管理平台能在复杂的网络环境中,将前端设备统一集中接入与汇聚管理。国标GB28181协议视频监控/视频汇聚Liveweb平台可以提供实时远程视频监控、视频录像、录像回放与存储、告警、语音对讲、云台控制、平台级联、磁盘阵列存储、视频集中存储、…

shell脚本实战案例

文章目录 实战第一坑功能说明脚本实现 实战第一坑 实战第一坑:在Windows系统写了一个脚本,比如上面,随后上传到服务,执行会报错 原因: 解决方案:在linux系统touch文件,并通过vim添加内容&…

波特图方法

在电路设计中,波特图为最常用的稳定性余量判断方法,波特图的根源是如何来的,却鲜有人知。 本章节串联了奈奎斯特和波特图的渊源,给出了其对应关系和波特图相应的稳定性余量。 理论贯通,不在于精确绘…

在ensp进行IS-IS网络架构配置

一、实验目的 1. 理解IS-IS协议的工作原理 2. 熟练ensp路由连接配置 二、实验要求 需求: 路由器可以互相ping通 实验设备: 路由器router6台 使用ensp搭建实验坏境,结构如图所示 三、实验内容 R1 u t m sys undo info en sys R1 #设…

vxe-table 键盘操作,设置按键编辑方式,支持覆盖方式与追加方式

vxe-table 全键盘操作,按键编辑方式设置,覆盖方式与追加方式; 通过 keyboard-config.editMode 设置按键编辑方式;支持覆盖方式编辑和追加方式编辑 安装 npm install vxe-pc-ui4.3.15 vxe-table4.9.15// ... import VxeUI from v…

MNIST数据集_CNN

前言 提醒: 文章内容为方便作者自己后日复习与查阅而进行的书写与发布,其中引用内容都会使用链接表明出处(如有侵权问题,请及时联系)。 其中内容多为一次书写,缺少检查与订正,如有问题或其他拓展…

【Flink】Flink Checkpoint 流程解析

Flink Checkpoint 流程解析 Checkpoint 流程解析 Flink Checkpoint 流程解析Checkpint 流程概括Checkpoint 触发流程解析 (Flink 1.20)任务启动后 JobManager 开始定期对任务执行 CheckpointJobManager 使用 CheckpointCoordinator 触发 CheckpointCheckpointCoordinator 初始化…

MIT工具课第六课任务 Git基础练习题

如果您之前从来没有用过 Git,推荐您阅读 Pro Git 的前几章,或者完成像 Learn Git Branching 这样的教程。重点关注 Git 命令和数据模型相关内容; 相关内容整理链接:Linux Git新手入门 git常用命令 Git全面指南:基础概念…

Sui 主网升级至 V1.38.3

Sui 主网现已升级至 V1.38.3 版本,同时协议升级至 69 版本。请开发者及时关注并调整! 其他升级要点如下所示: 协议 #20199 在共识快速路径投票中设置允许的轮次数量。 节点(验证节点与全节点) #20238 为验证节点…

【AI系统】低比特量化原理

低比特量化原理 计算机里面数值有很多种表示方式,如浮点表示的 FP32、FP16,整数表示的 INT32、INT16、INT8,量化一般是将 FP32、FP16 降低为 INT8 甚至 INT4 等低比特表示。 模型量化则是一种将浮点值映射到低比特离散值的技术,可…

项目文章 | RNA-seq+WES-seq+机器学习,揭示DNAH5是结直肠癌的预后标志物

肿瘤突变负荷(TMB)已成为预测结直肠癌(CRC)患者预后和对免疫治疗反应的关键生物标志物。然而,全外显子测序(WES-seq)作为TMB评估的金标准,成本高且耗时。此外,高TMB患者之…

【NLP修炼系列之Bert】Bert多分类多标签文本分类实战(附源码下载)

引言 今天我们就要用Bert做项目实战,实现文本多分类任务和我在实际公司业务中的多标签文本分类任务。通过本篇文章,可以让想实际入手Bert的NLP学习者迅速上手Bert实战项目。 1 项目介绍 本文是Bert文本多分类和多标签文本分类实战,其中多分…

【CSS in Depth 2 精译_069】11.3 利用 OKLCH 颜色值来处理 CSS 中的颜色问题(上)

当前内容所在位置(可进入专栏查看其他译好的章节内容) 第四部分 视觉增强技术 ✔️【第 11 章 颜色与对比】 ✔️ 11.1 通过对比进行交流 11.1.1 模式的建立11.1.2 还原设计稿 11.2 颜色的定义 11.2.1 色域与色彩空间11.2.2 CSS 颜色表示法 11.2.2.1 RGB…

基础算法——搜索与图论

搜索与图论 图的存储方式2、最短路问题2.1、Dijkstra算法(朴素版)2.2、Dijkstra算法(堆优化版)2.3、Bellman-Ford算法2.4、SPFA求最短路2.5、SPFA判负环2.6、Floyd算法 图的存储方式 2、最短路问题 最短路问题可以分为单源最短路…