WAIC上官宣!大模型语料提取工具MinerU正式发布,开源免费“敲”好用

news2024/12/24 20:31:27

7月4日,2024 WAIC科学前沿全体会议在上海世博中心红厅隆重举行。上海人工智能实验室与商汤科技联合香港中文大学和复旦大学正式发布新一代大语言模型书⽣·浦语2.5(InternLM2.5),同时全链条工具体系迎来重磅升级,对于大模型数据处理环节,开源了全新的智能数据提取工具——MinerU,不仅能将混合了图片、表格、公式等在内的复杂多模态 PDF 文档精准转化为清晰、易于分析的 Markdown 格式,还能从包含广告等各种干扰信息的网页中快速解析、抽取正式内容,极大提高AI语料准备效率。快来一起看看!

在这个信息爆炸的时代,AI研究者常常面临着从海量文档中提取高质量数据的挑战。无论是学术文献、行业报告、会议PPT、课本、说明书还是合同单据,这些文档往往以PDF或网页的形式存在,内容复杂,格式多样,给AI语料的快速、精准提取带来了不小的难度。 

图片

如果你正寻求一种工具,能够一键将这些文档转化为易于分析和使用的格式,以支持AI大模型的研究和训练,那么你的需求即将得到满足。

MinerU来了!一款由OpenDataLab全新自研、专为多模态文档解析打造的智能数据提取工具,将彻底释放你的文档数据潜力。

MinerU,作为一款全能、开源的文档与网页数据提取工具,致力于简化您的数据处理流程。它不仅能将混合了图片、表格、公式等在内的多模态PDF文档精准转化为清晰、易于分析的Markdown格式;还能从包含广告等各种干扰信息的网页中快速解析、抽取正式内容;同时支持epud、mobi、docx等多种格式批量转化为Markdown……

它既是一个能让你轻松愉快完成复杂版面数据提取、文档转化的“高手”!更能凭借批量、快速、准确的性能,成为你的AI语料准备“得力助手”。接下来,让我们用2分钟时间,深入了解一下它的功能和特色。

一、MinerU的主要功能及特色

MinerU 目前由2个部分组成,分别提供不同功能:

● Magic-PDF  PDF文档提取

● Magic-Doc  网页与电子书提取

01 快速识别与转换

MinerU中的Magic-PDF能够快速识别PDF版面元素,自动删除页眉、页脚、脚注等非正文内容,保留原文档的结构和格式,包括标题、段落、列表等,准确提取图片、表格和公式等多模态内容,并根据顺序,将文档转化为清晰、通顺、易读的Markdown格式。

公式再多的文档也不用担心,在OpenDataLab自研的公式识别模型加持下,Magic-PDF也能轻松地将其转化为Latex格式,效果远超其他开源工具。另外乱码PDF、扫描版PDF等也能自动识别并转换……还有很多惊喜能力,等你发现。

图片

02 Web网页信息轻松提取

常见的文章、论坛、音乐、视频等类型网页信息提取,MinerU中的Magic-Doc可以轻松剔出广告等干扰信息,快速搞定正文、评论、歌词、视频文字详情等关键内容转化。

图片

03 多种格式电子书、文献批量搞定

MinerU中的Magic-Doc,还可以快速将8种以上格式转化为Markdown,做到文本图片全适配,支持电子书或文献的格式包括:epud、mobi、pptx、docx、chm、azw、txt、rtf等。

图片

04 源码全开放,支持二次开发

贯彻开源精神,助力高质量AI数据准备,集OpenDataLab自研成果于一体的MinerU,源码完全开放,支持二次开发、“魔改”。(“炼丹”大神狂喜)

二、MinerU部署及使用

MinerU完整部署及使用文档请访问:https://github.com/opendatalab/MinerU

MinerU能力已集成在新一代大语言模型书⽣·浦语2.5(InternLM2.5)中,可以与AI进行文档格式转化及内容问答交互,欢迎大家体验。


开源数据处理宝藏工具,尽在 OpenDataLab GitHub仓库:https://github.com/opendatalab

还有超好用的多模态标注工具 LabelU:https://github.com/opendatalab/labelU

多模态对话标注管理平台Label-LLM: https://github.com/opendatalab/LabelLLM

不要吝啬你的star!

图片

更多精彩数据内容,尽在OpenDataLab:https://opendatalab.org.cn/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1898689.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

17.【C语言】初识常见关键字 下

1.typedef 类型&#xff08;重新&#xff09;定义&#xff08;或命名&#xff09;&#xff0c;可简化输入 如&#xff1a; #define _CRT_SECURE_NO_WARNINGS 1 #include <stdio.h> typedef signed long long k; int main() {k a 0; } signed long long被简写为k这个…

基于SpringBoot的乐校园二手书交易管理系统

你好呀&#xff0c;我是计算机学姐码农小野&#xff01;如果有相关需求&#xff0c;可以私信联系我。 开发语言 Java 数据库 MySQL 技术 SpringBoot框架 工具 Visual Studio、MySQL数据库开发工具 系统展示 首页 用户注册界面 二手图书界面 个人中心界面 摘要 乐校园…

vue3+ts+vite项目报错:找不到名称“GC”。ts-plugin(2304)

GC变量通过script标签引入的第三方引入&#xff0c;但是ts-plugin并不知道&#xff0c;需要明确声明这个变量的类型 /// <reference types"vite/client" />declare module "*.vue" {import type { DefineComponent } from "vue";// eslint…

【8】相关补充

【8】相关补充 文章目录 前言一、不同模型在测试集上的精度二、实验记录三、SNP位点筛选及其它python脚本四、总结五、后续安排总结 前言 存放一些有关这个项目研究的补充。 三叶青图像识别研究简概 一、不同模型在测试集上的精度 存放了不同识别模型在测试集上精度评估展示…

2024年前端面试中面试官常拷打的“项目细节”!

前言 都知道前端面试中&#xff0c;面试官最爱拷打的项目细节&#xff0c;根据你的项目经历来进行相关提问&#xff0c;时不时再给你几个高难度问题&#xff0c;让人头疼。 程序员大都有一个特点&#xff1a;会做&#xff0c;不会写&#xff0c;更不会说 前端面试&#xff0c…

【Revit二次开发】创建rvt文件,但不打开Revit

介绍 需要安装Revit&#xff0c;但不用打开Revit加载插件&#xff0c;而是运行一个控制台应用&#xff0c;就可以创建一个rvt文件&#xff08;更多读写功能都可自行添加&#xff09;。 本文内容主要参考&#xff1a;博客1&#xff0c;但对内容进行了简化&#xff0c;只保留了…

第N7周:seq2seq翻译实战-pytorch复现-小白版

&#x1f368; 本文为&#x1f517;365天深度学习训练营 中的学习记录博客&#x1f356; 原作者&#xff1a;K同学啊 理论基础 seq2seq&#xff08;Sequence-to-Sequence&#xff09;模型是一种用于机器翻译、文本摘要等序列转换任务的框架。它由两个主要的递归神经网络&#…

BSI 第七届万物互联智慧高峰论坛:主题:拥抱AI时代,标准赋能组织实现可持续发展

BSI 第七届万物互联智慧高峰论坛&#xff1a;主题&#xff1a;拥抱AI时代&#xff0c;标准赋能组织实现可持续发展 主要收到 BSI 温女士的邀请参加的本次论坛。还是学到的很多 。 在科技日新月异的时代背景下&#xff0c;BSI 第七届万物互联智慧高峰论坛于[时间&#xff1a;6…

【HICE】搭建不同的主机名访问web服务

1.首先进入1.conf.d编辑内容&#xff0c;再重启服务&#xff0c;关闭防火墙 2.部署网页haha.html和xixi.html 3.在vim /etc/hosts增加域名 3.在window中进行本地解析的编辑 4.浏览器的验证

阿里云安装rabbitMQ

1、首先看linux 版本 uname -a如果时centos 7 可以参考其他文档。我这里是centos 8 这个很重要 。网上全是按centos7 按照。导致我前面一直安装不上 各种问题。 2、查看rabbitmq 对应 erl 的版本下载 https://www.rabbitmq.com/docs/which-erlang 选择rabbitmq 3.11.19 选择…

【线性代数的本质】矩阵与线性变换

线性变化要满足两点性质&#xff1a; 直线&#xff08;连续的点&#xff09;在变换后还是直线。原点不变。 假设有坐标轴&#xff08;基底&#xff09; i ^ \widehat{i} i 和 j ^ \widehat{j} j ​&#xff1a; i ^ [ 1 0 ] , j ^ [ 0 1 ] \widehat{i}\begin{bmatrix} 1 \…

Facebook广告被拒:常见原因以及避免屏蔽的方法

大多数情况下&#xff0c;广告被屏蔽是因为违反了规则&#xff0c;这不仅仅是因为审核因素。有些规则并不明显&#xff0c;也没有在任何地方指定。例如&#xff0c;在广告中使用广告政策中未列出的停用词&#xff1b;审核算法确定照片描绘的模特过于暴露。下面小编将为你介绍Fa…

四款主流电脑监控软件(电脑监控软件主要优势)

在现代企业环境中&#xff0c;确保员工的工作效率和企业信息的安全成为了管理者的重要任务。电脑监控软件作为一种有效的管理工具&#xff0c;能够帮助企业实现这些目标。固信电脑监控软件在这方面表现尤为出色&#xff0c;本文将详细介绍固信电脑监控软件的优势及其主要功能&a…

【腾讯内推】腾讯2025校招/青云计划/社招——长期有效

及时跟进进度&#xff0c;保证不让简历石沉大海&#xff01; 涵盖NLP/CV/CG/ML/多模态/数据科学/多媒体等各方向! 定向匹配优质团队/竞争力薪酬/覆盖全球工作地点! 招聘对象: 本硕博:2024年1月-2025年12月毕业的同学 目前最热岗位: 技术研究-自然语言处理 技术研究-计算机视觉 …

pdf压缩,pdf压缩在线网页版,在线压缩pdf网站

在数字化时代&#xff0c;pdf文件已经成为我们工作、学习和生活中不可或缺的一部分。然而&#xff0c;pdf文件往往体积庞大&#xff0c;传输效率低下&#xff0c;还占用大量存储空间。如何在不影响文件质量的前提下&#xff0c;减小pdf文件的大小呢&#xff1f;今天&#xff0c…

【RT-thread studio 下使用STM32F103-学习sem-信号量-初步使用-线程之间控制-基础样例】

【RT-thread studio 下使用STM32F103-学习sem-信号量-初步使用-线程之间控制-基础样例】 1、前言2、环境3、事项了解&#xff08;1&#xff09;了解sem概念-了解官网消息&#xff08;2&#xff09;根据自己理解&#xff0c;设计几个使用方式&#xff08;3&#xff09;不建议运行…

RedHat / CentOS安装FTP服务

本章教程,记录在RedHat / CentOS中安装FTP的具体步骤。FTP默认端口:21 1、安装 epel 源 yum install -y epel-release2、安装 pure-ftpd yum -y install pure-ftpd3、修改默认配置 # 默认配置位于 /etc/pure-ftpd/pure-ftpd.conf,在配置文件中找到下面几个参数进行修改:#…

Vmware环境下ESXi主机 配置上行链路、虚拟交换机、端口组、VMkernel网卡

一、适用场景 1、使用专业服务器跑多种不同的业务&#xff0c;每种业务可能所需运行的server环境不同&#xff0c;有的需要Linux server CentOS7/8、kali、unbuntu……有的需要windows server2008、2003、2016、2019、2022…… 2、本例采用的是VMware ESXi6.7 update 3版本&am…

一个项目学习Vue3---Class和Style绑定

看下面一段代码学习此部分内容 <template><button click"stateChang">状态切换</button><div :class"{font-color:classObject.openColor,font-weight:classObject.openWeight}">颜色和粗细变化</div><div :class"…

东芝 TB5128FTG 强大性能的步进电机驱动器

TB5128FTG它以高精度和高效能为设计理念&#xff0c;采用 PWM 斩波方法&#xff0c;并内置时钟解码器。通过先进的 BiCD 工艺制造&#xff0c;这款驱动器提供高达 50V 和 5.0A 的输出额定值&#xff0c;成为广泛应用场景中的强劲解决方案。 主要特性 TB5128FTG 拥有众多确保高…