GPT-4耗尽全宇宙数据！OpenAI接连吃官司，竟因数据太缺了，UC伯克利教授发出警告

GPT-4耗尽全宇宙数据！OpenAI接连吃官司，竟因数据太缺了，UC伯克利教授发出警告

news2026/2/8 2:50:02

穷尽「全网」，生成式AI很快无数据可用。

近日，著名UC伯克利计算机科学家Stuart Russell称，ChatGPT和其他AI工具的训练可能很快耗尽「全宇宙的文本」。

换句话说，训练像ChatGPT这样的AI，将因数据量不够而受阻。

这可能会影响生成式AI开发人员，在未来几年收集数据，以及训练人工智能的方式。

同时，Russell认为人工智能将在「语言输入，语言输出」的工作中取代人类。

数据不够，拿什么凑？

Russell近来的预测引起了大家重点关注。

OpenAI和其他生成式AI开发人员，为训练大型语言模型，开始进行数据收集。

然而，ChatGPT和其他聊天机器人不可或缺的数据收集实践，正面临着越来越多的审查。

其中就包括，未经个人同意情况下创意被使用，以及平台数据被自由使用感到不满的一些高管。

但Russell的洞察力指向了另一个潜在的弱点：训练这些数据集的文本短缺。

去年11月，MIT等研究人员进行的一项研究估计，机器学习数据集可能会在2026年之前耗尽所有「高质量语言数据」。

论文地址：https://arxiv.org/pdf/2211.04325.pdf

根据这项研究，「高质量」集中的语言数据来自：书籍、新闻文章、科学论文、维基百科和过滤后的网络内容等。

而加持当红炸子鸡ChatGPT背后的模型GPT-4同样接受了大量优质文本的训练。

这些数据来自公共在线的资源（包括数字新闻来源和社交媒体网站）

从社交媒体网站「数据抓取」，才导致马斯克出手限制用户每天可以查看的推文数量。

Russell表示，尽管许多报道未经证实，但都详细说明了OpenAI从私人来源购买了文本数据集。虽然这种购买行为可能存在解释，但自然而然的推断是，没有足够的高质量公共数据了。

一直以来，OpenAI尚未公开GPT-4背后训练的数据。

而现在，OpenAI需要用「私人数据」来补充其公共语言数据，以创建该公司迄今最强大、最先进的人工智能模型 GPT-4。

足见，高质量数据确实不够用。

OpenAI在发布前没有立即回复置评请求。

OpenAI深陷数据风波

近来，OpenAI遇上了大麻烦，原因都和数据有关。

先是16人匿名起诉OpenAI及微软，并提交了长达157页的诉讼，声称他们使用了私人谈话和医疗记录等敏感数据。

他们的索赔金额高达30亿美元，诉讼中指出，

尽管制定了购买和使用个人信息的协议，但是OpenAI和微软系统性地从互联网中窃取了3000亿个单词，包括数百万未经同意获取的个人信息。

这其中包含账户信息、姓名、联系方式、电子邮件、支付信息、交易记录、浏览器数据、社交媒体、聊天数据、cookie等等。

这些信息被嵌入到ChatGPT中，但这些恰恰反映出个人爱好、观点、工作履历甚至家庭照片等。

而负责这次起诉的律师事务所Clarkson，此前曾负责过数据泄露和虚假广告等问题的大规模集体诉讼。

紧接着，这周又有几位全职作者提出，OpenAI未经允许使用了自己的小说训练ChatGPT，构成侵权。

那么是如何确定使用自己小说训练的呢？

证据就是，ChatGPT能够针对他们的书生成准确的摘要，这就足以说明这些书被当作数据来训练ChatGPT。

作者Paul Tremblay和Mona Awad表示，「ChatGPT未经许可就从数千本书中拷贝数据，这侵犯了作者们的版权」。

起诉书中预估，OpenAI的训练数据中至少包含30万本书，其中很多来自侵权网站。

比如，GPT-3训练数据情况披露时，其中就包含2个互联网图书语料库，大概占比为15%。

2位起诉的作者认为，这些数据就是来自一些免费的网址，比如Z-Library、Sci-Hub等。

另外2018年，OpenAI曾透露训练GPT-1中的数据就包括了7000+本小说。起诉的人认为这些书没有获得作者认可就直接使用。

另谋他法？

不得不说，OpenAI使用数据来源一事确实存在诸多争议。

今年2月，《华尔街日报》记者Francesco Marconi曾表示，新闻媒体的数据也被用来训练ChatGPT。

Marconi让ChatGPT列了一个清单，竟有20家媒体。

早在今年5月，Altman在接受采访时曾表示，OpenAI已经有一段时间没有使用付费客户数据来训练大语言模型了。

客户显然不希望我们训练他们的数据，所以我们改变了计划，不再这么做。

其实，OpenAI在3月初，曾悄然更新了服务条款。

Altman提到，现在公司正在开发的新技术，可以使用更少的数据来训练模型。

或许从OpenAI身上受到了启发，谷歌选择先行堵上这一漏洞。

7月1日，谷歌更新了其隐私政策，现在的政策中明确谷歌有权收集任何公开可用的数据，并将其用于其人工智能模型的训练。

谷歌向所有用户表明，只要是自己能够行公开渠道获得的内容，都可以拿来训练Bard以及未来的AI。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/899209.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

五、修改官方FreeRTOS例程(STM32F1)

五、修改官方FreeRTOS例程(STM32F1)

1、官方源码下载 (1)进入FreeRTOS官网：FreeRTOS官网 (2)下载FreeRTOS。(选择带示例的下载) 2、删减目录 (1)下载后解压的FreeRTOS文件如下图所示。 (2)删除下图中红框勾选的文件。 FreeRTOS-Plus，FreeRTOS的生态文件，非必需的。tools&…

阅读更多...

esp8266+电压检测模块检测电池电压

esp8266+电压检测模块检测电池电压

该模块5v时输出1v，因esp8266 ADC引脚(A0)支持电压范围是0v-1v，所以该方案仅支持0-5v电压检测接线： - 接 esp8266GND 可不接 S 接 ADC esp8266 为 A0 VCC 被检测直流电 GND 被检测直流电- #include <Wire.h>const int adcPin A0; // …

阅读更多...

Redis五大基本数据类型及其使用场景

Redis五大基本数据类型及其使用场景

文章目录 **一什么是NoSQL？****二 redis是什么？****三 redis五大基本类型**1 String（字符串）**应用场景** 2 List（列表）**应用场景** 3 Set（集合）4 sorted set（有序集合…

阅读更多...

excel逻辑函数篇1

excel逻辑函数篇1

1、AND(logical1,[logical2],…)：用于测试所有条件是否均为TRUE 检查所有参数均为true，如果是则返回true 2、OR(logical1,[logical2],…)：用于测试是否有为TRUE的条件如果任意参数值为true，即返回true；只有当所有参数…

阅读更多...

223、仿真-基于51单片机温湿度PH值二氧化碳(C02)报警Proteus仿真设计(程序+Proteus仿真+配套资料等)

223、仿真-基于51单片机温湿度PH值二氧化碳(C02)报警Proteus仿真设计(程序+Proteus仿真+配套资料等)

毕设帮助、开题指导、技术解答(有偿)见文未目录一、硬件设计二、设计功能三、Proteus仿真图四、程序源码资料包括： 需要完整的资料可以点击下面的名片加下我，找我要资源压缩包的百度网盘下载地址及提取码。方案选择单片机的选择方案一&…

阅读更多...

机器学习笔记 - 基于keras + 小型Xception网络进行图像分类

机器学习笔记 - 基于keras + 小型Xception网络进行图像分类

一、简述 Xception 是深度为 71 层的卷积神经网络，仅依赖于深度可分离的卷积层。论文中将卷积神经网络中的 Inception 模块解释为常规卷积和深度可分离卷积运算（深度卷积后跟点卷积）之间的中间步骤。从这个角度来看，深度可分离卷积可以理解为具有最大数量塔的 Inception 模…

阅读更多...

学习笔记230804---restful风格的接口，delete的传参方式问题

学习笔记230804---restful风格的接口，delete的传参方式问题

如果后端提供的删除接口是restful风格，那么使用地址栏拼接的方式发送请求，数据放在主体中，后端接受不到，当然也还有一种可能，后端在这个接口的接参设置上是req.query接参。问题描述今天遇到的问题是，de…

阅读更多...

windows子系统wsl2备份(迁移D盘)还原系统

windows子系统wsl2备份(迁移D盘)还原系统

windows子系统wsl2备份还原系统 1.查看wsl版本 wsl -l -v2.停止wsl子系统 wsl --terminate Ubuntu-22.043.导出子系统备份 wsl --export Ubuntu-22.04 D:\Ubuntu_bak.tar4.删除原有系统 wsl --unregister Ubuntu-22.045.还原系统 wsl --import Ubuntu-22.04 d:\Ubuntu-ws…

阅读更多...

Jenkins-发送邮件配置

Jenkins-发送邮件配置

在Jenkins构建执行完毕后，需要及时通知相关人员。因此在jenkins中是可以通过邮件通知的。一、Jenkins自带的邮件通知功能找到manage Jenkins->Configure System，进行邮件配置： 2. 配置Jenkins自带的邮箱信息完成上面的配置后&#xf…

阅读更多...

【0基础入门Python笔记】三、python 之函数以及常用内置函数

【0基础入门Python笔记】三、python 之函数以及常用内置函数

三、python 之函数以及常用内置函数函数函数定义函数调用函数参数返回值常用内置函数input()函数range()函数其它函数函数是一种用于封装可重复使用代码块的工具，能够将一系列操作组织成一个逻辑单元。函数定义在Python中，函数通过def关键字进行…

阅读更多...

Python可视化在量化交易中的应用(12)_Seaborn柱状图

Python可视化在量化交易中的应用(12)_Seaborn柱状图

Seaborn中柱状图的绘制方法 seaborn中绘制折线图使用的是sns.barplot()函数： sns.barplot(x,y,hue,data,order,hue_order,estimator,ci95,n_boot1000,units,seed,orient,color,palette,saturation0.75,errcolor‘.26’,errwidth,capsize,dodgeTrue,ax,**kwargs,) …

阅读更多...

linux RabbitMQ-3.8.5 安装

linux RabbitMQ-3.8.5 安装

软件版本操作系统CentOS Linux release 7.9.2009erlangerlang-23.0.2-1.el7.x86_64rabbitMQrabbitmq-server-3.8.5-1.el7 RabbitMQ的安装首先需要安装Erlang,因为它是基于Erlang的VM运行的。 RabbitMQ安装需要依赖:socat和logrotate，logrotate操作系统已经存在了&…

阅读更多...

内网穿透技术之神卓互联如何检测本地环境

内网穿透技术之神卓互联如何检测本地环境

在使用神卓互联Windows版客户端的过程中添加和编辑映射通道默认会自动生效，如您遇到无法访问的情况，可通过客户端上的检测工具进行环境检测。 Windows客户端检测本地环境，登录神卓互联客户端，在主界面下方的按钮组里选择【环境检…

阅读更多...

《Python入门到精通》os模块详解，Python os标准库

《Python入门到精通》os模块详解，Python os标准库

「作者主页」：士别三日wyx 「作者简介」：CSDN top100、阿里云博客专家、华为云享专家、网络安全领域优质创作者「推荐专栏」：小白零基础《Python入门到精通》 os模块详解 1、文件目录操作os.stat() 获取文件状态os.utime() 修改文件时间os.r…

阅读更多...

PostgreSQL父子建表查询所有的子数据-利用自定义函数查询

PostgreSQL父子建表查询所有的子数据-利用自定义函数查询

pgsql 函数查询代码 select find_space_tree_list_by_nodeid(1,1) 查询结果示意图获取子集函数代码 CREATE OR REPLACE FUNCTION "public"."find_space_tree_list_by_nodeid"("nodeid" varchar, "viewid" varchar)RETURNS "…

阅读更多...

8.19论文阅读

8.19论文阅读

文章目录 Graph-Segmenter: Graph Transformer with Boundary-aware Attention for Semantic Segmentation方法 SCSC: Spatial Cross-scale Convolution Module to Strengthen both CNNs and Transformers方法 Deformable Mixer Transformer with Gating for Multi-Task Learni…

阅读更多...

KFC玩具HelloKitty风扇改造——ESP32蓝牙blinker、1404无刷电机、双18650

KFC玩具HelloKitty风扇改造——ESP32蓝牙blinker、1404无刷电机、双18650

改装KFC玩具——ESP32蓝牙无刷风扇 ESP32代码： 使用NodeMCU-32S #define BLINKER_BLE#include <Blinker.h>#include <Arduino.h>// PWM通道 int channel_PWM 3; // PWM频率，那么周期也就是1/50，也就是20ms ，PWM一…

阅读更多...

2.创建小程序

2.创建小程序

创建在开发工具中，选择小程序，点击加号填写小程序信息，模板使用的是TS+Sass 编辑器的工作区目录结构项目使用的是ts的模板，目录结构和js的有一点差异，目录结构如下： miniprogram：小程序根目录 —pages：小程序页面目录 ——xxx：页面目录，一个页面对应一个目…

阅读更多...

加了一个班，简单2步就设置好了公司的内网穿透服务

加了一个班，简单2步就设置好了公司的内网穿透服务

单位里没有固定的网管，胆子全落在我的身上。起初是最近买了一套客户及财务软件，其实专业术语就是ERP，主管让我们把手头的资料全部录入进去，说是可以提高我们的工作效率，于是我们就开始各种录入，那个时候已…

阅读更多...

今天，谷歌Chrome浏览器部署抗量子密码

今天，谷歌Chrome浏览器部署抗量子密码

谷歌已开始部署混合密钥封装机制（KEM），以保护在建立安全的 TLS 网络连接时共享对称加密机密。 8月10日，Chrome 浏览器安全技术项目经理Devon O’Brien解释说，从 8 月 15 日发布的 Chrome 浏览器 116 开始，谷…

阅读更多...

推荐文章

最新文章