“2028年互联网上所有高质量文本数据将被使用完毕”

news2024/9/20 8:01:32

研究公司Epoch AI预测,到2028年互联网上所有高质量的文本数据都将被使用完毕,机器学习数据集可能会在2026年前耗尽所有“高质量语言数据”。研究人员指出,用人工智能(AI)生成的数据集训练未来几代机器学习模型可能会导致“模型崩溃”(model collapse)。

AI大模型训练数据是否短缺这一话题再次成为近期众多媒体关注的热点。

近日,《经济学人》杂志发布题为《AI 公司很快将耗尽大部分互联网数据》(AI firms will soon exhaust most of the internet’s data)的文章,指出随着互联网高质量数据的枯竭,AI领域面临“数据墙”。对于AI大模型公司来说,现在的挑战是找到新的数据源或可持续的替代品。

该篇文章援引研究公司Epoch AI的预测,到2028年互联网上所有高质量的文本数据都将被使用完毕,机器学习数据集可能会在2026年前耗尽所有“高质量语言数据”。这种现象在业内被称为“数据墙”。如何应对“数据墙”是当下AI公司面临的重大问题之一,可能也是最有可能减缓其训练进展的问题。文章指出,随着互联网上的预训练数据枯竭,后期训练变得更加重要。标签公司如Scale AI和Surge AI每年通过收集后期训练数据赚取数亿美元。

在这里插入图片描述
事实上,业界早有关于“数据枯竭”的声音。澎湃科技注意到,2023年7月初,加州大学伯克利分校计算机科学教授、《人工智能——现代方法》作者斯图尔特·罗素(Stuart Russell)曾发出警告,ChatGPT等人工智能驱动的机器人可能很快就会“耗尽宇宙中的文本”,通过收集大量文本来训练机器人的技术“开始遇到困难”。

但业内也有不同的声音。2024年5月,在接受彭博社科技记者艾米丽·张(Emily Chang)的采访时,著名计算机科学家 、斯坦福大学人工智能实验室联合主任、斯坦福大学教授李飞飞曾明确表示,她并不赞同“我们的人工智能模型正在耗尽用于训练的数据”这一较为悲观的看法。李飞飞认为,这一观点过于狭隘。仅从语言模型的角度来看,当下仍有大量的差异化数据等待挖掘,以构建更为定制化的模型。

当下,为了应对训练数据有限的问题,解决方案之一便是使用合成数据,这些数据是机器创建的,因此是无限的。但合成数据也有合成数据的风险,国际学术期刊《自然》于7月24日发表一篇计算机科学论文指出,用人工智能(AI)生成的数据集训练未来几代机器学习模型可能会污染它们的输出,这个概念称为“模型崩溃”(model collapse)。由于模型是在被污染的数据上训练出来,最终会误解现实。

研究团队在研究中表明,在大语言模型学习任务中,底层分布的尾部很重要,大规模使用大语言模型在互联网上发布内容,将污染用于训练其后继者的数据收集工作,今后人类与大语言模型交互的真实数据将越来越有价值。不过,研究团队也提到,AI 生成数据并非完全不可取,但一定要对数据进行严格过滤。比如,在每一代模型的训练数据中,保持 10% 或 20% 的原始数据,还可以使用多样化数据,如人类产生的数据,或研究更鲁棒的训练算法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1967780.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

助力外卖霸王餐系统运营 微客云近期更新汇总

全面助力霸王餐合作运营,给大家汇报下最近微客云更新的内容,说实话近期非常的忙,各种功能上线,各种市场部们反馈的需求,微客云霸王餐招商体系(分站)自年底上线到现在,不知已更新了多…

2024年8月初AI大赛盛宴来袭!7场赛事等你挑战,最高奖金高达1.4万!

本期为大家带来7场精彩的AI大赛,主要以AI绘画大赛为主打,涵盖1场视频大赛和1场大模型大赛。 其中,以下3场大赛不容错过,分别是“36氪AI PARTNER2024具身智能大会”、“2024年大学生AI艺术季”和“混元万物 LiblibAlx腾讯混元模型…

微型丝杆弯曲:工件精度下降的隐形杀手!

微型丝杆作为精密机械部件,‌其弯曲或变形会对使用它进行加工的工件产生直接影响。在机械加工中,微型丝杆弯曲是一个不容忽视的问题,它会对工件造成多方面的损害。 1、加工精度受损:弯曲会直接导致工具的实际运动轨迹与程序设计的…

从零开始学习网络安全渗透测试之基础入门篇——(五)WEB抓包技术HTTPS协议APP小程序PC应用WEB转发联动

HTTP/HTTPS抓包技术是一种用于捕获和分析网络流量的方法,它可以帮助开发者、测试人员和网络安全专家理解应用程序的网络行为、调试问题、分析性能和识别潜在的安全威胁。 一、抓包技术和工具 (一)Charles Charles 是一款流行的网络调试代…

leetcode刷题日记-括号生成

题目描述 题目解析 回溯的题目,不过这个两个if我就感觉有点难以理解了,不过仔细的思考了一下,确实考虑到了每个位置的情况,特别是针对右边括号 题目代码 class Solution:def generateParenthesis(self, n: int) -> List[str…

苹果的秘密武器:折叠屏iPhone即将来袭,可能是史上最薄折叠屏?

苹果公司一直以来以其独特的产品设计理念和卓越的技术创新能力而闻名。近期,有关苹果折叠屏iPhone的消息再次引发了业界的高度关注。 据可靠消息源透露,这款备受期待的设备已经结束了实验阶段,预计最早将在2026年与消费者见面。 折叠屏iPhon…

【vue-cli】vue-cli@2源码学习

vue-cli 2 源码 @vue/cli: 3.11.0创建项目 vue create 项目名称 @vue/cli: 2.x.x 创建项目 vue init webpack yhh-project 脚手架初始化项目流程: 下载vue/cli@2 源码 下载完成后初始化 npm i 创建项目 vue init webpack yhh-project vue-init: bin/vue-init #!/usr/bin/e…

大模型数据分析平台 LangSmith 介绍

[​LangSmith​]​ 是 LangChain 自主研发的 LLM 应用程序开发、监控和测试的平台。 LangChain 是一款使用 LLM 构建的首选开源框架,一个链接面向用户程序和 LLM 之间的一个中间层,允许 AI 开发者将像 ​​GPT-4​​ 、文心一言等大型语言模型与外部的计…

springboot依赖之JDBC API手写sql 管理数据库

JDBC API 依赖名称: JDBC API 功能描述: Database Connectivity API that defines how a client may connect and query a database. 数据库连接 API,定义客户端如何连接和查询数据库。 JDBC API 是 Java 标准库的一部分,提供低级别的数据库访问。需要…

基于SpringBoot+Vue的超市进销存系统(带1w+文档)

基于SpringBootVue的超市进销存系统(带1w文档) 基于SpringBootVue的超市进销存系统(带1w文档) 本系统提供给管理员对首页、个人中心、员工管理、客户管理、供应商管理、承运商管理、仓库信息管理、商品类别管理、 商品信息管理、采购信息管理、入库信息管理、出库信息管理、销售…

一次通过PMP考试的学习经验分享

很开心的收到PMI发来的邮件,祝贺我通过了PMP考试。应助教老师的邀请,简单说下我的一些学习备考经验,希望能给即将参加考试的大家带来一些收获。 第一,听基础课,截图做笔记 课程时间对我来说,还是蛮长的。…

MQA(Multi-Query Attention)详解

论文名称:Fast Transformer Decoding: One Write-Head is All You Need 论文地址:https://arxiv.org/abs/1911.02150v1 MQA(Multi-Query Attention)是Google团队在2019年提出的,是MHA (Multi-head Attention,多头注意力机制)的一…

微信运营新助手:自动回复神器,让沟通更高效!

在现代职场中,效率是成功的关键。然而,我们经常会面对大量重复且繁琐的日常任务,消耗宝贵的时间和精力。 今天,我想向大家分享一个强大的微信自动回复神器,它将帮助你高效管理沟通,提升工作效率。 1、自动…

GraphHopper:开源路线规划引擎

在当今信息爆炸的时代,我们越来越依赖于智能路线规划来帮助我们节省时间、提高效率。GraphHopper作为一款开源的路线规划引擎,为我们提供了一个强大而灵活的工具,让我们可以在自己的应用程序中实现高效的路径计算。 什么是GraphHopper&#…

电脑录屏怎么录?2024四大工具助你轻松录制每一刻!

无论是教学演示、游戏直播,还是工作汇报,一款好用的录屏软件都能帮助我们轻松完成任务。那么,电脑录屏怎么录呢?今天为大家推荐几款实用的电脑录屏工具,让你轻松成为录屏达人! Foxit REC:专业与…

Linux进程控制——进程程序替换、bash的模拟实现

文章目录 exec系列函数execlexeclp和execle execv系列函数bash的模拟实现实现思路完整代码其他问题 在学习进程的时候,我们想fork一个子进程,然后就可以给他布置任务了 但是如果我们分成两个人开发,父子进程分别负责不同的任务,等…

揭秘智能工牌:如何成为房企销售团队的数字化转型加速器

在这个竞争激烈的市场环境中,房企想要脱颖而出,不仅需要优质的产品和服务,更需要高效的销售团队。而销售团队的能力提升,离不开精细化管理和科技的赋能。DuDuTalk智能语音工牌,正是这样一款融合了AI技术与销售实战智慧…

无人机之森林防火篇

无人机在森林火灾中的应用是一个快速发展的领域,它们在火灾预防、监测、救援和灾后评估等方面发挥着重要作用。 一、无人机在森林火灾监测中的应用 在森林火灾的监测方面,无人机凭借其高空、高速、长时间巡查的优势,能够全面覆盖监测区域&am…

体育器材管理系统(完整开发文档)

1.1研究背景及意义 研究背景: 体育器材是高校体育教学和课外体育活动的重要物质基础,其使用和管理对于保障教学质量、提高学生体育素质具有重要意义。随着高校体育教学和课外活动的不断发展,体育器材的种类和数量不断增加,传统的…

Linux进程(一)

目录 一.进程的介绍1.引出进程2.进程的介绍 二.创建进程1.创建进程的原理2.什么是fork函数(1).通过手册查看fork 3.例子 一.进程的介绍 1.引出进程 Google Chrome 是一个进程 Google Chrome 底下的选项是多个线程 通过top命令可以查看正在运行的进程 2.进程的介绍 课本概念 …