一万亿token!34亿张图像,扩大10倍!史上最大开源多模态数据集MINT-1T发布!

news2025/1/13 15:43:06

众所周知,现在训练AI最需要的是什么?

数据,数据,还是数据。——毕竟只有让AI学好了,AI才能好好地回答你的问题,否则就会答非所问。

但是喂给AI的数据,现在和GPU一样,成了紧缺资源。前不久有人试图用AI自己造的数据来喂AI,结果发现这样的话AI越学越笨,最后连他亲妈来了都不忍直视的那种。

不过,最近来了个天大的好消息——MINT-1T来了!

MINT-1T是一个包含一万亿token的多模态预训练数据集,它是史上最大的同类数据集,并且比以前的开源数据集更加多样化。

把开源多模态数据集的规模扩展了10倍,达到万亿token!

数据集来源于HTML、PDF和ArXiv论文等不同源,都是精挑细选的好货,妈妈再也不用担心我的AI吃不饱了!

图片

论文标题:
MINT-1T: Scaling Open-Source Multimodal Data by 10x: A Multimodal Dataset with One Trillion Tokens

论文链接:
https://arxiv.org/abs/2406.11271

GitHub链接:
https://github.com/mlfoundations/MINT-1T

图片

MINT-1T有多大?扩了10倍

大规模开源预训练数据集对开发透明的开源模型至关重要。大型多模态模型(MLM)是未来的研究趋势,这需要海量的多模态数据。

然而,现有的开源多模态数据集在规模和多样性上远逊于纯文本数据集,限制了模型的学习广度。这一局限无疑阻碍了开源LMM的发展,导致开源与闭源模型之间出现了能力差距。

MINT-1T 包含总共 1 万亿个token和 34亿张图像,来自 HTML、PDF 和 ArXiv 等不同来源。在 MINT-1T 之前,该领域最大的开源数据集是 OBELICS,其中包括 1150 亿个文本标记和 3.53 亿张图像,全部来自 HTML。

图片

▲MINT-1T和其它数据集大小的比较

图片

▲MINT-1T和其它数据集多方面的比较

MINT-1T是如何诞生的?

MINT-1T的构建涉及多个步骤。

1.数据源收集

  • HTML文档:通过解析CommonCrawl的WARC文件中的DOM树来获取,获取文档的时间范围是2017年5月到2024年4月,比之前的OBELICS项目覆盖的时间更长。接着排除掉无图、图像过多以及其他不适合的文档。

  • PDF文档:从 2023 年 2 月到 2024 年 4 月的 CommonCrawl WAT 文件中获取。最初,所有 PDF 链接都是从这里提取的;然后研究团队尝试使用 PyMuPDF 下载和读取 PDF,剔除掉过大文件和没有文本的页面,并为其余页面标注阅读顺序,便于AI阅读。

  • ArXiv文档:团队使用 TexSoup 从 LaTeX 源代码入手来取得,对于多文件论文则识别主 Tex 文件,并且通过删改LaTeX 代码实现对论文中导入、参考文献、表格等“无关紧要”的数据的清理。

图片

▲MINT-1T的数据来源示例

2.数据过滤

  • 文本数据过滤:团队最初使用Fasttext的语言识别模型(置信度阈值为 0.65)过滤掉非英语文档,还利用URL字符串检索删除不良信息。此外,还应用RefinedWeb中的文本过滤方法,专门删除具有过多重复n-gram的文档和低质量的文档。

  • 图像数据过滤:在整理PDF和HTML文件后,MINT-1T尝试下载HTML数据集中的所有图像 URL,删除不可检索的链接、没有有效图像链接的文档、小于 150 像素的图像(避免徽标等无关内容)、大于 20,000 像素的图像、宽高比过于失衡的图像。值得注意的是,HTML文档中的图像要求在2:1之内(删掉广告),而PDF放宽到3:1之内,此举做法是避免一些论文中的图片被误删。

  • 安全数据过滤:MINT-1T将NSFW图像检测器应用于数据集中的所有图像。如果文档包含单个 NSFW 图像,则整个文档将被删除。此外,为降低个人数据泄露的风险,文本数据中的电子邮件地址和 IP 地址将使用化名代替。

图片

▲MINT-1T的过滤过程

3.数据去重

团队采用了多种方法进行数据去重。首先执行了段落和文档级别的去重,以消除重复的内容。接着移除了常见的模板文本,减少了无用的重复信息。此外团队还进行了图像去重,确保每个图像是独一无二的。

4.数据处理

利用大约2350个CPU内核和大量的计算资源来处理数据,整个过程大约消耗了42百万CPU小时。

在经过了如上过程之后,热乎乎的数据集就被端上来供大家品鉴了!

MINT-1T数据的多样性

MINT-1T数据集的多样性主要体现在其来源广泛。不仅包括HTML数据源,还首次纳入了PDF和ArXiv文档

PDF文件通常包含学术文章、技术报告、书籍等内容,这些内容的加入显著增加了数据集的学术性和专业性;MINT-1T通过解析ArXiv论文,获取了大量的科学图像和文本数据。这些数据的加入,使得数据集在科学领域的应用更加广泛和深入。与仅基于HTML的OBELICS数据集相比,MINT-1T提供了10倍的数据规模增长,进一步增强了模型的泛化能力。

图片

▲MINT-1T和OBELICS的多样性比较

此外,MINT-1T包含了一万亿个文本标记,这些文本数据来自不同的来源和领域,涵盖了各种语言风格、主题和内容。数据集还包含了三十四亿张图像,这些图像与文本数据紧密交织,形成了多模态的数据结构。图像数据的加入,使得数据集在视觉理解和生成任务中更具优势。

图片

▲MINT-1T的内容分布

MINT-1T有多强?来跑跑看

都说“是骡子是马拉出来遛遛”,光说不练假把式,终于到了大家喜闻乐见的正面对狙,啊不,评估环节。

团队通过测试在该数据集上训练的多模态模型(LMMs)的性能来评估MINT-1T的水准,并将其与在先前领先的数据集(如OBELICS)上训练的模型进行比较。

  • 上下文学习:在各种字幕基准和视觉问答数据集上,对模型进行上下文学习性能评估。

  • 多图像推理:在MMMU(包含单图像和多图像问题)和Mantis-Eval(所有多图像问题)上评估模型,以探索上下文学习评估之外的多图像推理能力。

团队先将MINT-1T的HTML部分与OBELICS进行了比较(因为OBELICS也是从HTML文档中精选出来的)。在MINT-1T(HTML)文档上训练的模型在VQA任务上的表现优于OBELICS,但在字幕基准上表现更差。平均而言,OBELICS的性能略好于MINT-1T(HTML)。

随后,团队使用MINT-1T的完整数据进行训练,50%的数据来自HTML,45%来自PDF,5%来自ArXiv。在完整的MINT-1T数据混合上训练的模型在大多数上下文学习基准上优于 OBELICS 和 MINT-1T(HTML)。在更复杂的多模态推理基准测试中,MINT-1T模型在MMMU上优于 OBELICS,但在Mantis-Eval上表现较差。

在字幕和视觉测试中,OBELICS在四镜头字幕基准上表现优于所有MINT-1T变体,但是在八镜头字幕上表现上,MINT-1T更胜一筹。

图片

▲上下文学习测试结果

图片

▲字幕和视觉问题回答(VQA)任务的表现

测试表明,使用MINT-1T训练的模型在文本和多模态基准测试中表现优异,同时提供了10倍的数据规模提升,验证了MINT-1T在大规模多模态预训练中的有效性,大家放心大胆用就完了!

题外话:薄荷

英语单词MINT有一个意思是薄荷。如果你玩过《植物大战僵尸2》,你就会知道里面有一类特殊的植物——薄荷。植物根据其特性分为十四个家族,每个家族对应一种薄荷,当薄荷上场的时候会短暂增强场上所有该家族植物的能力。

图片

▲《植物大战僵尸2》的薄荷们。来源:微信公众“一号砚”

笔者希望这个数据集也和“神奇薄荷”一样,为AI的发展注入新的强劲动力!

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1963960.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java:类集(List,Vector,Set,HashMap)

类集:就是一个动态的对象数组,是对一些实现好的数据结构的包装,这样在使用时会非常方便,而且最重要的是类集框架本身不受对象数组长度的限制。 类集的特性:(1)这种框架是高性能的,对基本类集(动态数组、链接表、树和散列表)的实现是高效率的。所以一般很少需要人工对…

汇舟问卷:从了解国外问卷工作室开始!

大家好,我是汇舟问卷。上个月有个互联网大厂上班的经理联系到我,向我们咨询了关于国外问卷调查工作室的情况。 他对当时稳定的生活状态感到担忧担忧:每月稳定的收入虽然足以应对家庭开支,却难以积蓄足够的资金,尤其是…

公布一批神马爬虫IP地址,真实采集数据

一、数据来源: 1、这批神马爬虫IP来源于尚贤达猎头公司网站采集数据; 2、数据采集时间段:2023年10月-2024年1月; 3、判断标准:主要根据用户代理是否包含“YisouSpider”,具体IP没做核实。 二、神马爬虫主…

Javascript前端基础面试(十)

MVVM Vue MVVM这一篇就够啦&#xff01;_vue r mvvm-CSDN博客 点容器内的图标,图标边框变成border 1px solid red&#xff0c;点空白处重置 <div id"container"> <img src"icon.png" alt"Icon" class"icon"> <!…

SpringSecurity登录认证流程及源码分析

目录 一 作用 二 流程及源码分析 一 作用 spring security作为spring家族中的一员&#xff0c;它的主要作用有两个&#xff0c;分别是认证和授权。 我们以前在实现登录功能的时候&#xff0c;前端会传来用户名和密码&#xff0c;然后我们根据前端传来的数据从用户表中的数据进…

【AI大模型】分布式训练:深入探索与实践优化

欢迎来到 破晓的历程的 博客 ⛺️不负时光&#xff0c;不负己✈️ 文章目录 一、分布式训练的核心原理二、技术细节与实现框架1. 数据并行与模型并行2. 主流框架 三、面临的挑战与优化策略1. 通信开销2. 数据一致性3. 负载均衡 4.使用示例示例一&#xff1a;TensorFlow中的数据…

深入解析Kubernetes(K8s)的核心技术与应用

一、引言 在云计算和容器化技术迅猛发展的今天&#xff0c;Kubernetes&#xff08;简称K8s&#xff09;凭借其强大的容器编排和管理能力&#xff0c;成为了云原生时代不可或缺的基础设施。本文旨在深入探讨Kubernetes的核心技术、应用场景、优势与挑战&#xff0c;以及如何在实…

图创价值 Live——解锁能源新未来!能源行业图技术解决方案深度探索

随着全球能源结构的深刻变革&#xff0c;能源系统正面临着前所未有的挑战与机遇。新能源的迅猛发展、电力市场化的推进以及电网调度的复杂性不断升级&#xff0c;都对能源系统的智能化、高效化提出了更高要求。为此&#xff0c;我们特别邀请了到了悦数解决方案专家-鲍翰林&…

数据结构第1天作业 7月31日

2.3按位置操作 1&#xff09;按照位置插入数据 void Insert_seqlist_single(Seqlist* sq,int arr_sub,int num){if(sq->posN ){ //判断顺序列表是否为满printf("error");return;}else if(arr_sub<0||arr_sub>sq->pos){printf("error…

微信小程序【五】好玩的点击展开弹框功能

弹出效果 步骤一、index.js步骤二、index.json步骤三、index.wxml步骤四、index.wxss 效果简述&#xff1a;恶搞的好玩点击效果&#xff0c;点击后展开 步骤一、index.js Page({data: {isPlaying: true,animationClass: music-icon,show_menu: false, // 菜单是否激活show_p…

异构算力的调度策略解析与实现

随着云计算、大数据和人工智能技术的飞速发展&#xff0c;异构算力调度成为了一个日益重要的课题。异构算力调度是指针对不同类型的计算资源&#xff08;如CPU、GPU、FPGA等&#xff09;进行合理分配与调度&#xff0c;以提高计算资源的利用率、降低功耗并加速任务执行。本文将…

浮点数的二进制表示

浮点数的二进制表示 浮点数在C/C中对应 float 和 double 类型&#xff0c;我们有必要知道浮点数在计算机中实际存储方式。 IEEE754规定&#xff1a; 单精度浮点数字长32位&#xff0c;尾数长度23&#xff0c;指数长度8,指数偏移量127&#xff1b;双精度浮点数字长64位&#xf…

Yarn UI 时间问题,相差8小时

位置 $HADOOP_HOME/share/hadoop/yarn/hadoop-yarn-common-2.6.1.jar 查看 jar tf hadoop-yarn-common-2.6.1.jar |grep yarn.dt.plugins.js webapps/static/yarn.dt.plugins.js 解压 jar -xvf hadoop-yarn-common-2.6.1.jar webapps/static/yarn.dt.plugins.js inflated: we…

mybatis-plus中出现Field ‘id‘ doesn‘t have a default value问题解决方法

问题分析&#xff1a; 出现这个原因&#xff0c;主要是因为mybatis-plus自身查询的特性&#xff0c;因为查询都是它自己内部设定好的参数&#xff0c;一般为了简便&#xff0c;都会默认自己底层的数据库对应的主键id字段是自增的&#xff0c;也就是mybatis-plus认为不需要id,每…

【Git】.gitignore全局配置与忽略匹配规则详解

设置全局配置 1&#xff09;在C:/Users/用户名/目录下创建.gitignore文件&#xff0c;在里面添加忽略规则。 如何创建 .gitignore 文件&#xff1f; 新建一个.txt文件&#xff0c;重命名&#xff08;包括后缀.txt&#xff09;为 .gitignore 即可。 2&#xff09;将.gitignore设…

Eagle平替?免费超强的素材管理神器!支持多级标签,满足素材快速收集!

作为设计师&#xff0c;你是不是下载了很多类型的素材资源&#xff0c;然而要每次使用的时候&#xff0c;还要通过文件夹一级一级去翻找&#xff0c;非常麻烦&#xff01;还好我找到了一款好用的素材管家神器—千鹿设计助手&#xff0c;如果你之前有用过Eagle或者BillFish的话&…

华为od机试真题:求字符串所有整数最小和(Python)

2024华为OD机试&#xff08;C卷D卷&#xff09;最新题库【超值优惠】Java/Python/C合集 题目描述 1.输入字符串s输出s中包含所有整数的最小和&#xff0c;说明&#xff1a;1字符串s只包含a~z,A~Z,,-&#xff0c; 2.合法的整数包括正整数&#xff0c;一个或者多个0-9组成&…

归并排序 python C C++ 图解 代码 及解析

一&#xff0c;概念及其介绍 归并排序&#xff08;Merge sort&#xff09;是建立在归并操作上的一种有效、稳定的排序算法&#xff0c;该算法是采用分治法(Divide and Conquer&#xff09;的一个非常典型的应用。将已有序的子序列合并&#xff0c;得到完全有序的序列&#xff…

大厂linux面试题攻略三之Shell编程

一、Shell编程文本截取类 1.有一个b.txt文本(内容如下)&#xff0c;要求将所有域名截取出来&#xff0c;并统计重复域名出现的次数 http://www.baidu.com/index.html https://www.atguigu. com/index.html http://www.sina.com.cn/1024.html …