科技云报道:AI大模型终于走到了数据争夺战

news2024/12/23 22:39:35

科技云报道原创。

当前,大模型正处在产业落地前期,高质量的数据,是大模型实现产业化的关键要素。

最近,一项来自Epoch AI Research团队的研究抛出了一个残酷的事实:模型还要继续做大,数据却不够用了。
在这里插入图片描述

研究人员预测了2022年至2100年间可用的图像和语言数据总量,并据此估计了未来大模型训练数据集规模的增长趋势。

结果表明:高质量的语言数据存量将在2026年耗尽,低质量的语言数据和图像数据的存量将分别在2030年至2050年、2030年至2060年枯竭。

这意味着,如果数据效率没有显著提高或有新的数据源可用,那么到2040年,模型的规模增长将放缓。

对数据端的建设该重视起来了。

高质量数据成“抢手货”

随着全球新一轮AI热潮来临,大量训练数据已成为AI算法模型发展和演进的“燃料”。

从GPT的实验发现,随着模型参数量的增加,模型性能均得到不同程度的提高。

但值得注意的是,通过来自人类反馈的强化学习(RLHF)生成的InstructGPT模型,比100倍参数规模无监督的GPT-3模型效果更好,也说明了有监督的标注数据是大模型应用成功的关键之一。

如果以上预测是正确的,那么毫无疑问数据将成为做模型继续做大的主要制约因素,AI的进展也会随着数据量的耗尽而放缓。

阿里巴巴达摩院基础视觉团队负责人赵德丽博士曾在采访中表示,数据侧的建设将会成为每一个做大模型工作的机构必须要考虑的问题,大模型有多少能力,往往取决于有什么样的数据。

据赵德丽博士介绍,与文生图大模型相比,做文生视频大模型要难得多,原因就在于视频数据的数量远比不上文本和图像,更不要谈数据的质量了。相应地,目前已有的文生视频模型的效果都不尽如人意。

结合上述研究结果,如果当下的趋势继续下去,人类现有的数据库存一定会耗尽,而且高质量的数据会更少。

正因如此,一场数据争夺战正在拉开序幕。

目前,Adobe利用其数以亿计的库存照片数据库构建了自己的人工智能工具套件,名为Firefly。自3月份发布以来,Firefly已被用于创建超过10亿张图像,而Adobe股价已因此上涨了36%。

一些初创公司也正在蜂拥至这个新领域。今年4月,专注于人工智能的数据库公司Weaviate融资5000万美元,估值达到2亿美元。

仅仅一周后,其竞争对手PineCone就以7.5亿美元的估值筹集了1亿美元资金。

本月早些时候,另一家数据库初创公司Neon也获得了4600万美元的融资。

在国内,百度智能云近期也升级了大模型数据服务能力,建设了国内首个专业大模型数据标注基地。百度智能云方面表示,目前已经在全国与各地政府合作,共建了10多个数据标注基地。

显然,对数据的争夺才刚刚开始。

数据标注再次迎来爆发

AI大模型带来了大量需求,与之相伴的是中国数据标注行业的迅速发展。

招商证券认为,一方面,进入大数据时代后,人们各种行为的电子化、网络化带来海量数据,但产生的数据只有1%能被收集和保存,并且收集的数据中90%是非结构化的数据;另一方面,人工智能的兴起带来模型训练所用结构化数据的巨大需求,数据标注的重要性逐渐突显。

有业内人士认为,预计今年10月国内会迎来一波大的类chatGPT大模型的数据需求,而且这是一个海量的需求,以目前国内几家头部数据标注公司来看,目前产能还不足以满足需求。

艾瑞咨询数据显示,包括数据采集、数据处理(标注)、数据存储、数据挖掘等模块在内的AI基础数据服务市场,将在未来数年内持续增长。

到2025年,国内AI基础数据服务市场的整体规模预计将达到101.1亿元,整体市场增速将达到31.8%(2024-2025年)。

据iResearch数据,2019年我国数据标注市场规模为30.9亿元,预计2025年市场规模突破100亿元,年复合增长率达到14.6%。

随着数据量的不断增长和数据结构的不断变化,数据标注行业涉及的领域也越来越广泛,特别是在自动驾驶、AIGC等领域内,数据标注需求量极大。

作为AI大语言模型高质量回答的基础,数据标注的生产过程主要包括四个环节:设计(训练数据集结构设计)、采集(获取原料数据)、加工(数据标注)及质检(各环节数据质量、加工质量检测)。

其中,数据标注需要识别图像、文本、视频等原始数据,并添加一个或多个标签为机器学习模型指定上下文,帮助其做出准确的预测。

当前,大部分数据标注任务仍然需要人工完成,而且各种数据类型和应用领域都需要相应领域的专业标注员来完成标注任务。

随着技术的发展,数据标准行业正在成为半人工智能、半人工化的行业。

面对大语言模型动辄上百亿参数的数据质量控制,需要通过标注平台将一个个复杂RLHF需求拆成很多个简单的工作流,让机器去做预处理,人去做深层的基于理解的反馈,以减少人在简单问题上的精力消耗,专注在专业问题上的标注。

业内一般采用主动质检加被动质检的方式,前者靠人为去做质检,后者是靠算法去做一些预识别。

但目前数据标注工具的准确率部分仅百分之几,部分准确率则可以达到80%、90%。机器标注的识别率越高,人工需求就会越少,成本、利润、速度、质量都能更加可控。

随着技术不断发展,未来数据标注行业可能会实现更高的自动化程度,不过应用领域不同,仍然需要一定数量的标注人员来进行标注任务。

传统数据标注亟待升级

值得注意的是,在如今火爆的大模型训练浪潮中,传统的数据标注需求,很可能是下降的。

让ChatGPT更具有“人味”的关键——强人工反馈RLHF,带来的是另一种更高要求的数据标注需求。

相关分析显示,在RLHF环节,模型首先在大数据集上进行预训练,再与专业的人工智能训练师进行交互,专业的标注人员会对ChatGPT生成的回答进行标注、评估和反馈,给出一个针对回答的分数或者标签。

这些标注数据可以作为强化学习过程中的“奖励函数”来指导ChatGPT的参数调整,最终帮助模型进行强化学习和不断优化。

也就是说,让ChatGPT“更具人味儿”的精妙之处很可能就在于——它可以利用人工标注的反馈结果不断优化自身模型,实现更合乎人类思维逻辑的表达。

但传统数据标注模式很难满足RLHF的需求。

在过去,数据标注公司的主流商业模式以销售工具系统和标注服务为主。一方面,缺少自有数据很少有出售精准数据集的服务。另一方面,人才升级作为一个系统工程,对数据标注公司的考验更高。

在完成这一步后,RLHF训练还涉及到不少事实判断和价值判断。其中,价值判断涉及到公认的"公序良俗",理论上是更容易拉齐AI认知的部分,事实判断则涉及各行业Know-How。

这往往需要行业专业人士出手,不是传统数据标注员,简单针对词性、图片细节进行标注就能实现的。

也就是说,要跟上新一代AI浪潮,数据标注公司不仅需要在数据层面进行升级,人才的更新换代同样重要。

目前的确已有标注公司开始在内部撰写《人员提升教程》,他们将在接下来重点培训标注人员对“升级后”的标注需求理解,以及回答方式的合规性等。

但是,在专业壁垒非常高的医疗等领域,数据标注仍面临着人才困境。

某数据标注公司运营负责人曾表示,“特别是医疗,有些是普通人经过培训可以标的,有的必须要医疗从业者,这背后的人才招聘难度可想而知。”

但即便困难重重,也不意味着数据标注公司会立马进行一波洗牌——至少,在大模型训练的几个阶段内,初始阶段的半监督学习同样对传统数据标注存在需求。

面对大模型和RLHF的机遇,重现大规模投入似乎在所难免。

有业内人士认为,如果数据标注公司期望在垂直领域做更高层级的数据服务,可能要成立一个全新的产品线。甚至,具备AI研发背景的创始人会是更合适的数据标注创业者。

面对新一代AI浪潮,没有人可以躺着挣钱——这是每一次技术迭代冲击背后,暗中标注好的“价格”。

【关于科技云报道】

专注于原创的企业级内容行家——科技云报道。成立于2015年,是前沿企业级IT领域Top10媒体。获工信部权威认可,可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能、区块链等领域。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/970824.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Vue 2 nextTick方法|异步更新|事件循环

1 nextTick的用处 vm.$netTick的作用是将回调延迟到下次DOM更新周期之后执行。 它接受一个回调函数作为参数。 其实&#xff0c;在我们更新数据状态后&#xff0c;是不会立马渲染的&#xff0c;你不能即刻获取到新的DOM&#xff1a; <!DOCTYPE html> <html><…

vscode+esp-idf 搭建esp32开发环境,编译信息中文乱码

1.修改波特率 2.C:\Users\Administrator\.vscode\extensions\vsciot-vscode.vscode-arduino-0.6.0-win32-x64\out\src\common 打开文件 util.js 屏蔽掉这部分的代码 、

献给前端研发同学的福利!性能诊断神器——Chrome Performance insight!

Performance insight概述 Performance insight是chrome Chrome DevTools中的自带工具&#xff08;Chrome102 版本发布&#xff09;&#xff0c;目前还是在chrome DevTool中启动即可&#xff0c;如下图所示&#xff1a;我们可以模拟cpu&#xff0c;选择4x slowdown&#xff0c;…

大数据可视化大屏实战项目(8)史上最炫酷科技风销售额度展示大屏,适用于电子产品---HTML+CSS+JS【源码在文末】(可用于比赛项目或者作业参考中)

大数据可视化大屏实战项目&#xff08;8&#xff09;史上最炫酷科技风销售额度展示大屏&#xff0c;适用于电子产品—HTMLCSSJS【源码在文末】&#xff08;可用于比赛项目或者作业参考中&#x1f415;&#x1f415;&#x1f415;&#xff09; 一&#xff0c;项目概览 ☞☞☞☞…

发生OOM时JVM会退出吗

程序是否退出和发生 OOM 无关 需要明确&#xff0c;程序是否退出和发生 OOM 无关&#xff0c;而和当前是否还有存活的非守护线程有关。 只要还有运行中的子线程&#xff0c;即使 main 线程结束或异常崩溃了&#xff0c;程序也不会停止。 public class TestThreadRun {privat…

管理类联考——逻辑——汇总篇——知识点突破——论证逻辑——论证模型

不同的模型对应的削弱、支持、假设。 归纳模型 模型识别 1.完全归纳 完全归纳指的就是所谓的穷举法&#xff0c;即通过某一类对象中的全部元素具备或者不具备某个性质&#xff0c;从而证明这一类对象都具备或者不具备某个性质。考试中一般不考察完全归纳&#xff0c;因此&am…

彻底了解 npm、cnpm、pnpm 、yarn几种包管理工具

npm、cnpm、pnpm 、yarn几种包管理工具 npmcnpmyarnpnpm四者的优缺点&#xff1a; npm npm 是 Node.js 自带的包管理器&#xff0c;平时通过 npm install 命令来安装各种 npm 包&#xff08;比如&#xff1a;npm install vue-router &#xff09;&#xff0c;就是通过这个包管…

基于OpenEuler的信创国产瘦客户机软件系统 DoraOS

DoraOS是一款瘦客户机系统软件&#xff0c;最新版本基于OpenEuler开发。可以将主机转化为专业的瘦客户机。目前支持x86架构的硬件。 软件下载地址为&#xff1a; https://www.doracloud.cn/downloads/32-cn.html 制作一张启动U盘&#xff0c;即可进行安装。 DoraOS的连接窗口…

3D数据导出工具HOOPS Publish:3D数据查看、生成标准PDF或HTML文档!

HOOPS中文网http://techsoft3d.evget.com/ 一、3D导出SDK HOOPS Publish是一款功能强大的SDK&#xff0c;可以创作丰富的工程数据并将模型文件导出为各种行业标准格式&#xff0c;包括PDF、STEP、JT和3MF。HOOPS Publish核心的3D数据模型是经过ISO认证的PRC格式(ISO 14739-1:…

【UIPickerView案例04-随机点餐完善 Objective-C语言】

一、之前我们讲到哪里 1)首先,是搭建界面 2)然后呢,是加载数据 先把这个数据文件,拖进来,然后呢,设置它的代理对象、数据源对象 然后呢,在控制器里面,遵守对应的协议, 实现对应的方法 跟TableView的思路,一样一样的, 也是,把多少行返回 把多少组,返回 然后呢…

【python爬虫】12.建立你的爬虫大军

文章目录 前言协程是什么多协程的用法gevent库queue模块 拓展复习复习 前言 照旧来回顾上一关的知识点&#xff01;上一关我们学习如何将爬虫的结果发送邮件&#xff0c;和定时执行爬虫。 关于邮件&#xff0c;它是这样一种流程&#xff1a; 我们要用到的模块是smtplib和emai…

WordPress Page Builder KingComposer 2.9.6 Open Redirection

WordPress Page Builder KingComposer 2.9.6 Open Redirection WordPress 插件 KingComposer 版本2.9.6 以及以前版本受到开放重定向漏洞的影响。该漏洞在packetstorm网站披露于2023年7月24日&#xff0c;除了该漏洞&#xff0c;该版本的插件还存在XSS攻击的漏洞风险 图1.来自…

【无源谐波滤波器通常用于电力系统中的谐波抑制】用于抑制电力系统谐波的无源谐波滤波器(Simulink实现)

&#x1f4a5;&#x1f4a5;&#x1f49e;&#x1f49e;欢迎来到本博客❤️❤️&#x1f4a5;&#x1f4a5; &#x1f3c6;博主优势&#xff1a;&#x1f31e;&#x1f31e;&#x1f31e;博客内容尽量做到思维缜密&#xff0c;逻辑清晰&#xff0c;为了方便读者。 ⛳️座右铭&a…

十年AI技术成果加持,猿辅导带你体验网课中的科技感

近年来&#xff0c;AI正以润物细无声的方式重塑多个行业的面貌&#xff0c;教育行业也不例外。同时&#xff0c;随着Chat GPT对社会带来的冲击不断加强&#xff0c;AI教育已经成为整个行业不可逆转的趋势。作为最早踏入智能教育领域的企业之一&#xff0c;猿辅导深谙技术革新对…

揭秘大企业的在线帮助中心搭建都有什么技巧?

大企业的在线帮助中心是为了提供更好的客户支持和服务而设立的一个重要平台。一个优秀的在线帮助中心可以帮助企业有效地解决客户问题、提高客户满意度&#xff0c;并且节省人力资源。 搭建大企业在线帮助中心的技巧&#xff1a; 设计用户友好的界面&#xff1a;在线帮助中心…

OPPO手机便签数据搬家到华为mate60Pro手机怎么操作

今年8月底&#xff0c;华为上线了本年度的旗舰手机——华为mate60Pro。有不少网友都在抢购这台手机&#xff0c;不过在拿到新手机之后&#xff0c;还有一件重要的事情要做&#xff0c;这就是把旧手机中比较重要的数据&#xff0c;例如图片、短信、通讯录、联系人、便签等数据搬…

13 PyQt5控件之QTreeWidget

目录 1 官方帮助文档2 基本使用3 模型事件 1 官方帮助文档 QTreeWidget Qt5.15帮助文档 2 基本使用 #!/usr/bin/python3 # -*- coding: GBK -*-import sys from PyQt5.QtCore import QSize from PyQt5.QtGui import QIcon from PyQt5.QtWidgets import *class QTreeWidgetDe…

计算机毕设之基于python+django+mysql数据可视化的智慧社区内网平台(包含文档+源码+部署教程)

系统阐述的是一款基于数据可视化的智慧社区内网平台的设计与实现&#xff0c;对于Python、B/S结构、MySql进行了较为深入的学习与应用。主要针对系统的设计&#xff0c;描述&#xff0c;实现和分析与测试方面来表明开发的过程。开发中使用了 django框架和MySql数据库技术搭建系…

xxl-job 任务调度搭建及简单使用

xxl-job是开源架构&#xff0c;可以通过它实现调度中心和执行器。 git地址和 官网中进行了详细的技术说明。   xxl-job支持单机部署和集群式部署&#xff0c;在集群式部署中又可以实现调度中心集群式部署和执行器集群式部署。本文主要针对调度中心和执行器分离单机部署方式进…

因为axios请求后端,接收不到token的问引出的问题

vue axios请求后端接受不到token的问题。 相关概念 什么是跨域&#xff1f; 跨域指的是在浏览器环境下&#xff0c;当发起请求的域&#xff08;或者网站&#xff09;与请求的资源所在的域之间存在协议、主机或端口中的任何一个条件不同的情况。换句话说&#xff0c;只要协议、…