决定AI大模型胜负的关键:解读数据在未来竞争中的角色

news2024/11/16 19:05:53

随着人工智能的迅猛发展,高质量数据的重要性已愈发明显。以大型语言模型为例,近年来的飞跃式进展在很大程度上依赖于高质量和丰富的训练数据集。相比于GPT-2,GPT-3在模型架构上的改变微乎其微,更大的精力是投入到了收集更大、更高质量的数据集来进行训练。例如,ChatGPT与GPT-3的模型架构类似,但使用了RLHF(来自人工反馈过程的强化学习)来生成用于微调的高质量标注数据。

在这里插入图片描述

认识到这一现象,人工智能领域的权威学者吴承恩发起了“以数据为中心的 AI”运动,这是一种新的理念,它主张在模型架构相对固定的前提下,通过提升数据的质量和数量来提升整个模型的训练效果。这其中包括添加数据标记、清洗和转换数据、数据缩减、增加数据多样性、持续监测和维护数据等。因此,未来在大模型开发中,数据成本(包括数据采集、清洗、标注等成本)所占的比例可能会逐步提高。

AI大模型需要的数据集应具备以下特性:

1)高质量:高质量的数据集可以提高模型的精度和可解释性,同时缩短模型收敛到最优解的时间,也就是训练时长。

2)大规模:在《Scaling Laws for Neural Language Models》一文中,OpenAI提出了LLM模型的"伸缩法则",即独立增加训练数据量、模型参数规模或延长模型训练时间,预训练模型的效果会持续提升。

3)多样性:数据的多样性有助于提高模型的泛化能力,过于单一的数据可能会导致模型过度拟合训练数据。

在这里插入图片描述

数据集的生成与处理

数据集的建立流程主要包括以下步骤:

  • 数据采集:数据采集的对象可能包括各种类型和格式的视频、图片、音频和文本等。数据采集常用的方式有系统日志采集方法、网络数据采集方法以及ETL。
  • 数据清洗:因为采集到的数据可能存在缺失值、噪声数据、重复数据等质量问题,数据清洗就显得尤为重要。数据清洗作为数据预处理中至关重要的环节,清洗后的数据质量在很大程度上决定了AI算法的有效性。
  • 数据标注:这是流程中最重要的一个环节。管理员会根据不同的标注需求,将待标注的数据划分为不同的标注任务。每一个标注任务都有不同的规范和标注点要求,一个标注任务将会分配给多个标注员完成。
  • 模型训练:模型训练人员会利用标注好的数据训练出需要的算法模型。
  • 模型测试:测试人员进行模型测试并将测试结果反馈给模型训练人员,模型训练人员通过不断地调整参数,以便获得性能更好的算法模型。
  • 产品评估:产品评估人员需要反复验证模型的标注效果,并对模型是否满足上线目标进行评估。只有经过产品评估环节的数据才算是真正过关。

然而,尽管中国的数据资源丰富,但由于数据挖掘不足,数据无法在市场上自由流通等因素,导致优质的中文数据集仍然稀缺。据统计,ChatGPT的训练数据中,中文资料的比重不足千分之一,而英文资料占比超过92.6%。此外,加利福尼亚大学和Google研究机构的研究发现,目前机器学习和自然语言处理模型使用的数据集有50%是由12家顶级机构提供,其中10家为美国机构,1家为德国机构,只有1家机构来自中国,即香港中文大学。

我们认为,国内缺乏高质量数据集的原因主要有以下几点:

  • 高质量数据集需要巨大的资金投入,但目前国内对数据挖掘和数据治理的投入不足。
  • 国内相关公司往往缺乏开源意识,导致数据无法在市场上自由流通。
  • 国内相关公司成立较晚,数据积累相对于国外公司要少。
  • 在学术领域,中文数据集的重视程度低。
  • 国产数据集的市场影响力和普及度相对较低。

目前,国内科技互联网头部企业主要通过公开数据和自身特有数据来训练大模型。例如,百度的“文心”大模型使用的特有数据主要包括万亿级的网页数据,数十亿的搜索数据和图片数据等。阿里的“通义”大模型的训练数据主要来自阿里达摩院。腾讯的“混元”大模型的特有训练数据主要来自微信公众号、微信搜索等优质数据。华为的“盘古”大模型的训练数据,除了公开数据,还有B端行业数据加持,包括气象、矿山、铁路等行业数据。商汤的“日日新”模型的训练数据中,包括了自行生成的Omni Objects 3D多模态数据集。

中国的数据环境和未来

尽管现状尚有不足,但中国的数据环境仍有巨大的潜力。首先,中国是全球最大的互联网用户群体,日产数据量巨大,为构建大规模高质量数据集提供了基础。其次,中国政府对于AI和数据治理的重视,无论是政策支持还是资金投入,都为数据环境的改善和发展提供了有利条件。

未来,中国需要在以下几个方面进行努力:

  1. 建立数据采集和清洗系统:建立一套完整的数据采集和清洗系统,确保数据的质量和有效性,为后续的模型训练提供可靠的数据基础。
  2. 提高公开数据的可获取性和使用性:鼓励公司、研究机构等公开数据,让数据在市场中自由流通,从而提高数据的可获取性和使用性。
  3. 加大数据标注投入:通过提高标注效率和质量,降低标注成本,从而获取更多、更高质量的标注数据。
  4. 培养更多的数据科学家和AI工程师:通过教育和培训,增加数据科学家和AI工程师的数量和素质,以推动中国的AI研究和应用。
  5. 加强国内外的数据合作:通过数据合作,借鉴国外的成功经验,改进数据的采集、处理、使用等方面的技术和方法,以提升中国数据的质量和价值。

数据是AI模型的"燃料",未来AI大模型的竞争,无疑将更加依赖高质量的数据。因此,对数据的投入和利用,将决定中国在全球AI竞赛中的地位和成绩。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/687719.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

声卡设备无法正常工作或初始化的原因和解决方法

先来一个小科普,声卡设备是电脑中负责处理音频信号的硬件部件,它需要与相应的声卡驱动程序配合使用,才能让电脑发出或录制声音。 不过,自带声卡的设备或是自行匹配的声卡设备,也经常出现声卡设备无法正常工作或初始化…

通过Jenkins实现Unity多平台自动打包以及相关问题解决

简介 通过本文可以了解到如何在windows和mac上部署Jenkins。并且通过Jenkins实现Unity在IOS,安卓和PC等多平台自动打包的功能,并且可以将打包结果通过飞书机器人同步到飞书群内。优化工作流,提高团队的开发效率。文末记录了实际使用Jenkins时遇到的各种问…

Leetcode44 通配符匹配

给你一个输入字符串 (s) 和一个字符模式 (p) ,请你实现一个支持 ? 和 * 匹配规则的通配符匹配: ? 可以匹配任何单个字符。 * 可以匹配任意字符序列(包括空字符序列)。 判定匹配成功的充要条件是:字符模式必须能够 完…

真心靠谱 Ubuntu18.04 换源 国内阿里云私服

本篇 blog 真心靠谱 1、备份原来的默认源 cp /etc/apt/sources.list{,.bak} 2、换阿里云的源(需要稍作修改) 直接使用阿里云的会报错 https://developer.aliyun.com/mirror/ubuntu 以上报错:是https证书问题,网上有人说安装证…

基于改进ISODATA算法的负荷场景曲线聚类MATLAB程序

参考文献: 基于机器学习的短期电力负荷预测和负荷曲线聚类研究_张辰睿(硕士论文) 参考其第三章 主要内容: 主要包含四种聚类算法,K-means聚类、ISODATA聚类、L-ISODATA聚类及K-L-ISODATA聚类,并且包含了…

JSch登录sftp时发现需要Kerberos身份验证

本问记录使用JSch登录sftps时遇到的Kerberos验证问题并记录了解决方法 项目场景: 项目开发中使用了SFTP,debug调试程序时发现了每次都需要手动输入 Kerberos的口令信息。这就很奇怪了难道每次连接SFTP时候都需要手动输入吗? 日志如下&#x…

RPC核心原理详解

什么是RPC? RPC的全称是Remote Procedure Call,即远程过程调用。简单解读字面上的意思,远程肯定是指要跨机器而非本机,所以需要用到网络编程才能实现,但是不是只要通过网络通信访问到另一台机器的应用程序&#xff0c…

基于Dubbo分布式学校信息管理系统设计与实现

一、引言 1.1 课题背景 随着时代的发展与进步,计算机网络也随之日益完善,渐渐覆盖了我们生活的各个方面。在信息化和数字化的时代背景下,使用计算机管理学校信息来提升教育工作的质量和效率,是大势所趋,所以近年来,随着网络技术的不断发展,使用信息管理系统的学校越来…

云原生时代数据治理的变革与创新

随着数字化进程的深入,企业对数据的依赖日益加深,数据资源的重要性愈发凸显。如何管好、用好数据,做好数据治理工作,发挥数据资源价值,成为企业提质增效过程中的重要议题。 在本次直播中,我们介绍了数据治…

leetcode:191. 位1的个数

难度:简单 编写一个函数,输入是一个无符号整数(以二进制串的形式),返回其二进制表达式中数字位数为 1 的个数(也被称为汉明重量)。 提示: 请注意,在某些语言(…

qt 最小文件系统 交叉编译qt源码

busybox qt源码下载后,需要交叉编译,在开发板上生成相应的库,才能在开发板上使用 我用qt制作了一个计时器,有相应的按钮功能。在windows上我大概知道鼠标点击按钮能够触发相应事件。把该程序移植到linux开发板上,开发…

Qt QSqlTableModel详解

背景知识: Qt SQL的API分为不同层: 驱动层 驱动层 对于QT是基于C来实现的框架,该层主要包括QSqlDriver、QSqlDriverCreator、QSqlDriverCreatorbase、QSqlDriverPlugin and QSqlResult。这一层提供了特定数据库和SQL API层之间的底层桥梁…

AutoSAR系列讲解(入门篇)3.2-RTE对Runnables的运行支撑

目录 一、作为运行环境的主要功能点 二、Runnables的触发条件 一、作为运行环境的主要功能点 通过RTE给runnable提供触发事件。 之前说过了runnable是可以被触发的,就是需要通过RTE来实现这个触发和调用runnable,具体在下面讲解 通过RTE给runnable提供…

STM32外设系列—DHT11

文章标题 一、DHT11简介二、数据手册分析2.1 接口说明2.2 串行通信说明2.2.1 单总线通信2.2.2 单总线传输数据位定义2.2.3 时序图 三、DHT11程序设计3.1 初始化GPIO3.2 发送起始信号3.3 接收一个字节数据3.4 接收温湿度信息并校准 四、总结 一、DHT11简介 DHT11是一款常用的数…

Qt生成安卓工程运行闪退分析

提示找不到库 jin目录下库是存在的 提示下列库没有找到 libopencv_java4.so libtiff.so libboost_filesystem.so.1.71.0 libboost_chrono.so.1.71.0 libboost_regex.so.1.71.0 导致无法加载符号 最终导致应用无法启动,而退出 重新编译为静态库,并以静态库方式链…

技术管理第三板斧招聘与解聘-升级汰换

1.开除人“心要慈,刀要快” No Surprise: 不要突然Fire一个人(离职一定不是一个突发行为),没有任何征兆告诉员工 A“你被开除了”,这是典型的管理失职。如果A存在问题,你应该先告知&#xff0…

数据结构--顺序表的基本操作--插入 and 删除

数据结构–顺序表的基本操作–插入 顺序表的插入操作 实现目标 ListInsert(&L,i,e):插入操作。在表L中的第i个位置上插入指定元素e。 typedef struct {int data[MaxSize];int len; }Sqlist;代码实现&#xff1a; #include <stdio.h> #include <stdlib.h> …

前端JavaScript入门-day03

(创作不易&#xff0c;感谢有你&#xff0c;你的支持&#xff0c;就是我前行的最大动力&#xff0c;如果看完对你有帮助&#xff0c;请留下您的足迹&#xff09; 目录 1、循环-for 1. for 循环-基本使用 1. for循环语法 2. 退出循环 2. for 循环嵌套 2、数组 1 数组是…

易点易动设备管理平台:为制药厂提升设备管理效率保驾护航

在高度竞争的制药行业中&#xff0c;设备管理对企业的生产效率和产品质量起着至关重要的作用。如何在保证设备安全、高效运行的同时&#xff0c;降低成本和提高设备利用率呢&#xff1f;易点易动设备管理平台为您提供了完美的解决方案。本文将详细阐述易点易动设备管理平台如何…

Linux搭建sqli-labs(sql注入实战)

目录 一、安装phpstudy 二、更改配置文件 三、加载数据库 一、安装phpstudy 需要php、mysql、httpd环境&#xff0c;phpstudy可以做到快速部署。 cd /opt yum install -y wget wget -O install.sh https://notdocker.xp.cn/install.sh && sudo bash install.sh wget…