人工智能对聊天机器人训练数据的“淘金热”可能会耗尽人类编写的文本

news2024/11/20 12:38:20

人工智能对聊天机器人训练数据的“淘金热”可能会耗尽人类编写的文本

在这里插入图片描述像ChatGPT这样的人工智能系统可能很快就会耗尽让它们变得更聪明的东西——人们在网上写下和分享的数万亿字。

Epoch AI研究集团发布的一项新研究预计,科技公司将在大约十年之交——2026年至2032年之间的某个时候——耗尽人工智能语言模型公开可用的训练数据。

该研究的作者之一塔梅·贝西罗格鲁(Tamay Besiroglu)将其与耗尽有限自然资源的“字面上的淘金热”相提并论,他表示,一旦人工智能领域耗尽了人类生成的文字储备,它可能会面临保持目前发展速度的挑战。

在短期内,像chatgpt制造商OpenAI和谷歌这样的科技公司正在竞相获得高质量的数据源,有时还会花钱购买它们的人工智能大型语言模型——例如,通过签署协议,利用来自Reddit论坛和新闻媒体的稳定的句子流。

从长期来看,不会有足够多的新博客、新闻文章和社交媒体评论来维持目前的人工智能发展轨迹,这将给企业带来压力,迫使它们利用现在被视为私人的敏感数据——比如电子邮件或短信——或者依赖聊天机器人自己提供的不太可靠的“合成数据”。

Besiroglu说:“这是一个严重的瓶颈。“如果你开始触及数据量的限制,那么你就不能再有效地扩展你的模型了。扩大模型规模可能是扩大其能力和提高产出质量的最重要方式。

”两年前,在ChatGPT首次亮相之前不久,研究人员在一份工作论文中首次做出了他们的预测,预测高质量文本数据将于2026年即将停止。自那以后,很多事情都发生了变化,包括新技术使人工智能研究人员能够更好地利用他们已有的数据,有时还会对同一来源进行多次“过度训练”。

但也有限制,经过进一步的研究,Epoch现在预计在未来两到八年的某个时候,公共文本数据将会耗尽。

该团队的最新研究经过同行评审,并将于今年夏天在奥地利维也纳举行的国际机器学习会议上发表。Epoch是一家非营利机构,由总部位于旧金山的Rethink Priorities主办,由有效利他主义的支持者资助。有效利他主义是一个慈善运动,为减轻人工智能最坏的风险投入了大量资金。

Besiroglu说,人工智能研究人员在十多年前就意识到,积极扩展两个关键因素——计算能力和大量互联网数据存储——可以显著提高人工智能系统的性能。

LLM训练数据集正在增长

自2017年以来,用于训练关键机器学习模型的数据集的规模迅速增加。

在这里插入图片描述
根据Epoch的研究,输入人工智能语言模型的文本数据量每年增长约2.5倍,而计算量每年增长约4倍。Facebook的母公司Meta平台最近声称,他们即将推出的最大版本的羊驼3模型(尚未发布)已经接受了多达15万亿个代币的训练,每个代币可以代表一个单词的一部分。

但是数据瓶颈到底有多少值得担心,这是有争议的。

“我认为重要的是要记住,我们不一定需要训练越来越大的模型,”多伦多大学(University of Toronto)计算机工程助理教授、非营利组织矢量人工智能研究所(Vector Institute for Artificial Intelligence)研究员尼古拉斯·佩珀诺特(Nicolas Papernot)说。

Papernot没有参与Epoch的研究,他说,构建更熟练的人工智能系统也可以来自于更专门于特定任务的训练模型。但他担心,在生成式人工智能系统正在产生的相同输出上进行训练,会导致性能下降,被称为“模型崩溃”。

在人工智能生成的数据上进行训练“就像你复印一张纸,然后再复印一份复印件。你丢失了一些信息,”Papernot说。不仅如此,Papernot的研究还发现,它可以进一步编码已经融入信息生态系统的错误、偏见和不公平。

如果真正的人工句子仍然是一个关键的人工智能数据源,那么那些最受欢迎的数据库——像Reddit和维基百科这样的网站,以及新闻和图书出版商——的管理者们就不得不认真思考它们是如何被使用的。

运营维基百科的维基媒体基金会(Wikimedia Foundation)首席产品和技术官赛琳娜•德克尔曼(Selena Deckelmann)开玩笑说:“也许你不会砍掉每座山的山顶。”“现在,我们正在就人类创造的数据进行自然资源对话,这是一个有趣的问题。我不应该嘲笑它,但我确实觉得它有点神奇。”

虽然有些人试图将他们的数据与人工智能训练隔离开来——通常是在这些数据已经被无偿获取之后——但维基百科对人工智能公司如何使用其志愿者撰写的条目几乎没有限制。尽管如此,Deckelmann表示,她希望继续有激励人们继续贡献,特别是在大量廉价和自动生成的“垃圾内容”开始污染互联网的情况下。

她说,人工智能公司应该“关注人类生成的内容如何继续存在,以及如何继续被访问”。

Epoch的研究表明,从人工智能开发者的角度来看,雇佣数百万人来生成人工智能模型所需的文本,“不太可能是”提高技术性能的“经济方式”。

随着OpenAI开始训练下一代GPT大型语言模型,该公司首席执行官萨姆·奥特曼(Sam Altman)上个月在联合国的一次活动上告诉听众,该公司已经在进行“生成大量合成数据”的试验。

“我认为你需要的是高质量的数据。有低质量的合成数据。有低质量的人类数据,”奥特曼说。但他也对过度依赖合成数据而不是其他技术方法来改进人工智能模型持保留态度。

奥特曼说:“如果训练一个模型的最好方法是生成一千万亿的合成数据,然后把它们反馈进去,那就太奇怪了。”“从某种程度上说,这似乎效率低下。”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1811243.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot + Maven

文章目录 1、Maven2、SpringBoot3、二者之间的联系4、项目的创建 在创建项目之前,肯定要知道他们之间的区别 1、Maven maven是一个跨平台的项目管理工具。它是Apache的一个开源项目,主要服务于基于Java平台的项目构建、依赖管理和项目信息管理。 比如说…

cordic IP核中,sin and cos的使用

参考视频:FPGA IP之CORDIC_哔哩哔哩_bilibili FPGA IP之CORDIC使用与仿真_哔哩哔哩_bilibili 一、参数说明 functional selection rotate是旋转,sin and cos是计算这两个三角函数,sinh和cosh是计算双曲正弦和双曲余弦 phase format 对于…

Databricks超10亿美元收购Tabular;Zilliz 推出 Milvus Lite ; 腾讯云支持Redis 7.0

重要更新 1. Databricks超10亿美元收购Tabular,Databricks将增强 Delta Lake 和 Iceberg 社区合作,以实现 Lakehouse 底层格式的开放与兼容([1] [2])。 2. Zilliz 推出 Milvus Lite 轻量级向量数据库,支持本地运行;Milvus Lite 复…

【Go语言】面向对象编程(一):类的定义、初始化和成员方法

面向对象编程(一):类的定义、初始化和成员方法 1 类的定义和初始化 Go 语言的面向对象编程没有 class 、 extends 、implements 之类的关键字和相应的概念,而是借助结构体来实现类的声明,如下是定义一个学生类的方法…

2024年【危险化学品经营单位主要负责人】免费试题及危险化学品经营单位主要负责人证考试

题库来源:安全生产模拟考试一点通公众号小程序 危险化学品经营单位主要负责人免费试题根据新危险化学品经营单位主要负责人考试大纲要求,安全生产模拟考试一点通将危险化学品经营单位主要负责人模拟考试试题进行汇编,组成一套危险化学品经营…

镜舟科技与喆塔科技签署战略合作协议,共拓工业领域数据应用

近日,镜舟科技与喆塔科技正式签署战略合作协议,旨在通过双方的深度合作,共同推动工业领域企业级数据分析与智能制造的融合创新,携手为行业客户提供更加精准、高效的数据驱动解决方案。 镜舟科技 CEO 孙文现与喆塔科技 CEO 赵文政出…

12.文件

知识点一:文件的存取过程 缓冲区的目的:提高存储效率磁盘使用寿命 知识点二:磁盘文件分类 物理上所有的磁盘文件都是二进制存储,以字节为单位顺序存储 逻辑上的文件分类: 文本文件:基于字符编码的文件,如ASCII、UNICO…

04. fastLED像素参考(颜色设置详解)

fastLED像素参考 原文 Overview 概述 There’s two main pixel types in the library - the CRGB class and the CHSV class. CHSV objects have to be converted to CRGB objects before they can be written out. You can also write CHSV objects into the CRGB array an…

QT6 学生管理系统以及登录(QSQLITE数据库)

一、准备工具以及环境 本文采用的是QT Creator6.5.3版本,代码基于C语言,文中所用到的数据库是QSQLITE库。 因为做的是一个简单的学生管理系统,所以只是做到了简单的对数据库进行增删改查等操作,以及一个简单的登录界面。 二、U…

wgcloud可以监测交换机的哪些数据

WGCLOUD可以监测交换机的cpu,内存,温度,电压,磁盘,流量传输速率等数据 WGCLOUD也是基于SNMP协议来监测交换机的

进口自力式蒸汽减压阀-美国品牌

进口自力式蒸汽减压阀是一种用于蒸汽系统中,通过自身能量来调节和控制蒸汽压力的装置。以下是关于进口自力式蒸汽减压阀的详细回答: 定义与功能: 进口自力式蒸汽减压阀是一种无需外加能源,利用被调介质(蒸汽&#xff…

每日一题——Python实现PAT乙级1104 天长地久(举一反三+思想解读+逐步优化)七千字好文

一个认为一切根源都是“自己不够强”的INTJ 个人主页:用哲学编程-CSDN博客专栏:每日一题——举一反三Python编程学习Python内置函数 Python-3.12.0文档解读 目录 初次尝试 点评 时间复杂度分析 空间复杂度分析 综合分析 我要更强 时间复杂度分…

VitePress+Docker+jenkins构建个人网站

VitePress官网 VitePress | 由 Vite 和 Vue 驱动的静态站点生成器 可以理解为一个前端脚手架:快速生成个人站点 最好先大概看一遍 快速开始 | VitePress 可以在线体验一下 安装条件 node -v 检查下node版本 在D盘创建一个文件夹 例如:VitePress 进入文件夹 cmd npm ini…

一键安全体检!亚信安全携手鼎捷软件推出企业安全体检活动 正式上线

亚信安全联合鼎捷软件股份有限公司(以下简称“鼎捷软件”)正式推出“一键安全体检”服务。亚信安全网络安全专家将携手鼎捷软件数据安全专家,围绕企业的数智安全状况,进行问题探索与治愈、新问题预测与预警,在全面筛查…

一文入门vim

先来波快问快答。 第一个问题,vim是什么? vim就是一文本编辑器。 第二个问题,我们为什么要使用vim? 好像在终端中可选择使用的文本编辑器也不多(其他有,但是相对而言vim用的比较广泛) 第三…

外汇天眼:跟单社区or资金盘 几招教你快速识别

今年有不少外汇跟单社区伙同黑平台收割投资人跑路事件,应天眼老粉要求,今天写一篇与跟单社区相关的内容,教大家如何辨别正规的外汇跟单社区与资金盘诈骗。 相信做过几年外汇的人,应该对跟单社区多少有所耳闻。但外汇跟单社区究竟…

使用seq2seq架构实现英译法

seq2seq介绍 模型架构: Seq2Seq(Sequence-to-Sequence)模型是一种在自然语言处理(NLP)中广泛应用的架构,其核心思想是将一个序列作为输入,并输出另一个序列。这种模型特别适用于机器翻译、聊天…

文件IOoooo

1.1 文件路径 文件路径分为两种: 1、绝对路径:以C:、D:等盘符开头的,就是我们所说的绝对路径,根据它可以直接找到文件的具体位置。 2、相对路径:需要先指定一个目录作为基准目录,从基准目录出发&#xf…

【PowerDesigner】CDM生成PDM

目录 🌊1. PowerDesigner简介 🌍1.1 常用模型文件 🌍1.2 PowerDesigner使用环境 🌊2. CDM生成PDM ​​​​​​​🌊3. 研究心得 🌊1. PowerDesigner简介 🌍1.1 常用模型文件 主要使用Pow…

肾合的秘密:长期出汗,身体在告诉你什么?

想象一下,我们的身体是一座繁茂的秘密花园,每一寸肌肤、每一个细胞都是花园里的一朵花、一片叶。汗水,则是这花园中无声的语言,它讲述着我们的健康与否,也揭示着身体内部的微妙变化。 在夏日阳光下,我们的身…