ChatGPT等模型:到2026年,将消耗尽高质量训练数据

news2024/11/24 0:41:37

《麻省理工技术评论》曾在官网发表文章表示,随着ChatGPT等大模型的持续火热,对训练数据的需求越来越大。大模型就像是一个“网络黑洞”不断地吸收,最终会导致没有足够的数据进行训练。

而知名AI研究机构Epochai直接针对数据训练问题发表了一篇论文,并指出,到2026年,大模型将消耗尽高质量数据;到2030年—2050年,将消耗尽所有低质量数据

到2030年—2060年,将消耗尽所有图像训练数据。(这里的数据指的是,没有被任何标记、污染过的原生数据)

论文地址:https://arxiv.org/pdf/2211.04325.pdf

图片

事实上,训练数据的问题已经显现。OpenAI表示,缺乏高质量训练数据将成为开发GPT-5的重要难题之一。这就像人类上学一样,当你的知识水平达到博士级别时,再给你看初中的知识对学习毫无帮助。

所以,OpenAI为了增强GPT-5的学习、推理和AGI通用能力,已建立了一个“数据联盟”,希望大面积搜集私密、超长文本、视频、音频等数据,让模型深度模拟、学习人类的思维和工作方式

目前,冰岛、Free Law Project等组织已加入该联盟,为OpenAI提供各种数据,帮助其加速模型研发。

此外,随着ChatGPT、Midjourney、Gen-2等模型生成的AI内容进入公共网络,这对人类构建的公共数据池将产生严重污染,会出现同质化、逻辑单一等特征,加速高质量数据消耗的进程。

高质量训练数据,对大模型研发至关重要

从技术原理来看,可以把大语言模型看成“语言预测机器”, 通过学习大量文本数据,建立起单词之间的关联模式,然后利用这些模式来预测文本的下一个单词或句子。

Transformer便是最著名、应用最广泛的架构之一,ChatGPT等借鉴了该技术。

简单来说,大语言模型就是“照葫芦画瓢”,人类怎么说它就怎么说。所以,当你使用ChatGPT等模型生成文本时,会感觉这些文本内容的叙述模式在哪里见过。

图片

因此,训练数据的质量直接决定了大模型学习的结构是否准确。如果数据中包含了大量语法错误、措辞不当、断句不准、虚假内容等,那么模型预测出来的内容自然也包含这些问题。

例如,训练了一个翻译模型,但使用的数据都是胡编乱造的低劣内容,AI翻译出来的内容自然会非常差。

这也是为什么我们经常会看到很多参数很小,性能、输出能力却比高参数还强的模型,主要原因之一便是使用了高质量训练数据。

大模型时代,数据为王

正因数据的重要性,高质量的训练数据成为OpenAI、百度、Anthropic、Cohere等厂商必争的宝贵资源,成为大模型时代的“石油”。

早在今年3月,国内还在疯狂炼丹研究大模型时,百度已经率先发布了对标ChatGPT的生成式AI产品——文心一言生。

除了超强的研发能力之外,百度通过搜索引擎积累的20多年庞大的中文语料数据帮了大忙,并在文心一言的多个迭代版本中发挥重要作用,遥遥领先国内其他厂商。

高质量数据通常包括出版书籍、文学作品、学术论文、学校课本、权威媒体的新闻报道、维基百科、百度百科等,经过时间、人类验证过的文本、视频、音频等数据。

但研究机构发现,这类高质量数据的增长非常缓慢。以出版社书籍为例,需要经过市场调研、初稿、编辑、再审等繁琐流程,耗费几个月甚至几年时间才能出版一本书,这种数据产出速度,远远落后大模型训练数据需求的增长。

从大语言模型过去4年的发展趋势来看,其年训练数据量的增速超过了50%。也就是说,每过1年就需要双倍的数据量来训练模型,才能实现性能、功能的提升

所以,你会看到很多国家、企业严格保护数据隐私以及制定了相关条例,一方面,是保护用户的隐私不被第三方机构搜集,出现盗取、乱用的情况;

另一方面,便是为了防止重要数据被少数机构垄断和囤积,在技术研发时无数据可用。

到2026年,高质量训练数据可能会用光

为了研究训练数据消耗问题,Epochai的研究人员模拟了从2022年—2100年,全球每年产生的语言和图像数据,然后计算这些数据的总量。

又模拟了ChatGPT等大模型对数据的消耗速率。最后,比较了数据增长速度和被消耗的速度,得出了以下重要结论:

在当前大模型的高速发展趋势下, 到2030年—2050年将消耗尽所有低质量数据;高质量数据,极有可能在2026年就会消耗完。

到2030年—2060年,将消耗尽所有图像训练数据;到2040年,由于缺乏训练数据,大模型的功能迭代可能会出现放缓的迹象。

图片

研究人员使用了两个模型进行了计算:第一个模型,通过大语言和图像模型两个领域实际使用的数据集增长趋势,再利用历史统计数据进行外推,预测它们何时会达到消耗峰值和平均消耗。

第二个模型:预测未来每年全球范围内将产生多少新数据。该模型基于三个变量,全球人口数量、互联网普及率和平均每个网民每年产生的数据。

同时研究人员使用联合国数据拟合出人口增长曲线,用一个S型函数拟合互联网使用率,并做出每人每年产数据基本不变的简单假设,三者相乘即可估算全球每年的新数据量。

该模型已经准确预测出Reddit(知名论坛)每个月产出的数据,所以,准确率很高

最后,研究人员将两个模型进行相结合得出了以上结论。

研究人员表示,虽然这个数据是模拟、估算出来的,存在一定的不确定性。但为大模型界敲响了警钟,训练数据可能很快成为制约AI模型扩展和应用的重要瓶颈。

AI厂商们需要提前布局数据再生、合成的有效方法,避免在发展大模型的过程中出现断崖式数据短缺。‍

本文素材来源麻省理工科技评论官网、Epochai论文,如有侵权请联系删除

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1260957.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

每天五分钟计算机视觉:经典架构的力量与启示

在深度学习和计算机视觉领域,卷积神经网络(Convolutional Neural Networks,简称CNN)无疑是最为经典的架构之一。近年来,随着研究的不断深入和新架构的不断涌现,许多初学者可能会忽视这些经典架构的重要性。然而,理解并学习这些经典架构,对于我们深入理解卷积神经网络的…

AI - Steering behaviors(转向系统)

游戏AI角色的转向系统(Steering behaviors)实现 一些向量的接口是cocos2dx的。但从名字上应该能理解做了什么向量操作 Seek: 获取当前位置指向目标点的向量,转化为单位向量后再乘以速度值,即为所需速度desired velo…

在Windows WSL (Linux的Windows子系统)上运行的Ubuntu如何更改主机名

在Windows 安装的Ubuntu,如何修改主机名。有列了两种方法,提供给大家参照。 文章目录 方法一:hostname指令修改方法二:修改配置文件修改hostnanmewsl.conf 文件配置选项推荐阅读 方法一:hostname指令修改 hostname指…

商用车量产智能驾驶路径思考

1、商用车量产智能驾驶特点 2、量产自动驾驶路径 3、商用车ADAS法规件 4、高等级自动驾驶

【数据中台】开源项目(2)-Davinci可视应用平台

1 平台介绍 Davinci 是一个 DVaaS(Data Visualization as a Service)平台解决方案,面向业务人员/数据工程师/数据分析师/数据科学家,致力于提供一站式数据可视化解决方案。既可作为公有云/私有云独立部署使用,也可作为…

uni-app 离线打包安卓Apk(小白上手)

场景: 在使用uni-app 开发apk时,使用云打包有次数限制。尤其对于测试阶段是无比难受的,通常是浪费打包次数进行打包或者通过usb 给测试机更新开发环境,但这都是无比漫长的过程 尤其有多个测试机真的是噩梦般的存在 下载离线打包示…

ubuntu虚拟机设置跳不出来

前几天在使用ubuntu虚拟机的时候不知道哪一步出错了,导致右上角的设置按钮失效了,怎么点设置界面都出不来。 上网查阅后,有人说是显示器的原因,但是我点设置再点左上角activity并没有显示有设置窗口。 最后找到了解决办法&#xf…

【AUTOSAR-DoIP】通过 DoIP 进行符合 Autosar 的车辆诊断

前言 通信协议 DoIP(互联网协议诊断)可通过以太网、WLAN 和移动通信对系统进行灵活而强大的诊断:无论是车间外的诊断还是车载诊断,以及驾驶时的远程访问。 DoIP 可以通过多种方式使用:现代车辆中的电子控制系统高度互连并执行各种复杂的功能。 Autosar 支持的通信协议 Do…

Vue快速实践总结 · 下篇

文章目录 组件间通信方式父 --> 子通信props插槽 子 --> 父通信(自定义事件)任意组件通信全局事件总线消息订阅与发布 Vuex工作原理运行环境简单使用GettersmapState与mapGettersmapActions与mapMutations模块化 命名空间 VueRouter路由的作用与分…

电机工作制

电机工作制 1.什么是电机工作制2.电机工作制的分类 最近在做电机控制器,看到很多电机铭牌上写着工作制:S*,有S1,有S2,查了一下,学习一下是什么意思。 1.什么是电机工作制 根据GBT 755-2019《旋转电机定额…

百度智能小程序系统源码+关键词排名优化 附带完整的搭建教程

百度智能小程序系统的开发背景是基于百度强大的技术实力和对用户需求的深入理解。在移动互联网时代,用户对便捷、高效、智能的服务需求越来越高。而小程序作为一种轻量级的应用程序,恰好能够满足用户的这些需求。然而,开发一个小程序需要掌握…

Rocket架构

NameServer:作为注册中心,提供路由注册、路由踢出、路由发现功能,舍弃强一致,保证高可用,集群中各个节点不会实时通讯,其中一个节点下线之后,会提供另外一个节点保证路由功能。 Rocket mq name…

【Java Spring】SpringBoot Bean详解

文章目录 1、Bean方法注解简介2、Bean注解重命名3、对象装配(获取Bean对象)3.1 对象装配之属性注入3.2 对象装配之Set 注入3.3 对象装配之构造方法注入 4、Resource VS Autowired5、Bean对象的作用域5.1 验证Bean对象的默认作用域5.2 Bean对象的六大作用…

Clion+Ubuntu(WSL)+MySQL8.0开发环境搭建

1. 下载 MySQL 源码 访问 MySQL 官方网站(MySQL :: Download MySQL Community Server)并下载 MySQL 8.0 的源码包(mysql-boost-8.0.31.tar.gz)。 2. 安装编译依赖 1)更换镜像源 参考:Linux Ubuntu 修改…

管式真空加热炉高精度真空控制系统技术升级改造解决方案

摘要:针对用户提出的高温石英管加热炉真空度控制系统的升级改造,以及10~100Torr的真空度控制范围,本文在分析现有真空控制系统造成无法准确控制所存在问题的前提下,提出了切实可行的解决方案。解决方案对原有的无PID控制功能的压强…

蓝桥杯day01——负二进制数相加

题目描述 给出基数为 -2 的两个数 arr1 和 arr2,返回两数相加的结果。 数字以 数组形式 给出:数组由若干 0 和 1 组成,按最高有效位到最低有效位的顺序排列。例如,arr [1,1,0,1] 表示数字 (-2)^3 (-2)^2 (-2)^0 -3。数组形式…

PyRFC 服务器端编程要点

PyRFC 支持服务器端编程。什么是服务器端编程?有哪些技术要求?可以参考我的另外一篇博客:SAP接口编程 之JCo3.0系列(06) 。本篇主要介绍 PyRFC 的技术实现。 要点 服务器端编程的主要作用是实现 ABAP 主动调用服务器端编程需要首先在 ABAP…

深度学习黎明时期的LeNet:揭开卷积神经网络的序幕

在深度学习的历史长河中,Yann LeCun 的 LeNet 是一个里程碑式的研究成果,它为后来的卷积神经网络(Convolutional Neural Networks,CNN)的发展奠定了基础。LeNet 的诞生标志着深度学习黎明时期的到来,为人工…

11.22数电第四次报告

《数字逻辑》实验报告 姓名 贾轲 年级 22 学号 20220669 专业、班级 计算机科学与技术计卓01 实验名称 实验十五 摩尔状态机序列检测器&实验十六 米利状态机序列检测器 实验时间 2023.11.23 实验地点 DS1410 实验成绩 实验性质 □验证性 □设计性 □…

oracle查询开始时间和结束时间之间的连续月份

SELECT TO_CHAR(ADD_MONTHS(TO_DATE(2023-01,YYYY-MM), ROWNUM - 1), YYYY-MM) AS fmonth FROM DUALCONNECT BY ROWNUM < CEIL(MONTHS_BETWEEN(TO_DATE(2023-11, YYYY-MM), TO_DATE(2023-01,YYYY-MM))1)