OpenAI曾转录100万小时视频数据，训练GPT-4

OpenAI曾转录100万小时视频数据，训练GPT-4

news2026/2/14 17:48:50

4月7日，纽约时报在官网发布了一篇名为《科技巨头如何挖空心思，为AI收集数据》的技术文章。

纽约时报表示，OpenAI曾在2021年几乎消耗尽了互联网有用的文本数据源。为了缓解训练数据短缺的难题，便开发了知名开源语音识别模型Whisper。

随后在OpenAI副总裁Greg Brockman的带领下，从视频平台YT、有声播客/读物等转录了超过100万小时的视频数据，然后转化成文本数据用于训练GPT-4。

虽然这一举措游走在法律的边缘处于灰色地带，但也直接反映出了大模型厂商对于训练数据的饥渴程度。

纽约时报指出，不只是OpenAI，谷歌、Meta等科技巨头因为想搜集高质量训练数据而修改隐私数据条款，来避免版权法的制裁。

例如，Meta为了追赶OpenAI、微软，使用了互联网上几乎所有公开的英语书籍、散文、诗歌和新闻文章等内容。

甚至想直接买下一家大型出版社，来获取更高质量的有版权、付费数据。不过没有人敢轻易相信Meta的数据隐私条例。

这是因为2018年的“剑桥分析丑闻”让Meta的信誉陷入低谷（那时的名字是Facebook）。

该事件是，一家英国剑桥分析公司通过一款心理测试程序，非法获取了大约8700万Facebook用户的个人隐私数据，包括未经用户明确同意的信息。

用户在参与测试时，不仅自己的数据被收集，就连Facebook好友的信息也被抓取。该丑闻爆发后，Facebook面临了前所未有的审查，该公司的数据隐私政策和管理不当受到严重处罚。

最后，以扎克伯格出面道歉、参加听证会才收场。

高质量数据，是生成式AI领域的“黄金”。

当你向ChatGPT、Gemini、Claude等提问获得文本答案时，心里是否会想过，这种内容的写法好像在哪里见过？

居然可以轻松写出古龙、金庸、莫言、莎士比亚、泰戈尔、芥川龙之介、夏目漱石等国内外知名作家风格的内容。

没错，大模型最擅长的便是抄袭然后二次创新，但整体框架、叙述方法还是以模仿为基石。

如果只用一句大白话来解释大模型的原理——通过海量预训练数据让大模型学会人类的写作技巧和习惯（视频、音频、图片架构会更复杂一些，但基本同理），然后进行排列组合、预测生成全新的内容（大模型的文本提示，相当于搜索引擎的关键字）。

所以，相比几千亿甚至上万亿的参数，在架构、算法差不多的情况下，训练数据对于大模型更重要。微软、Stability AI发布的Orca 2、Stable LM 2等模型也充分证明了——通过高质量数据训练的小参数模型，性能可以强过大参数模型。

就像上面的作家举例一样，A厂商的模型学习了夏目漱石的写作数据，而B没有，两家又都是基于Transformer架构，明显A的写作能力要大于B。

也可以把训练数据看成“内功心法”，当两位剑客的招式几乎差不多时，在关键时刻比拼的就是谁的内功高，谁便能技高一筹。

此外，为了获取高质量数据，2023年7月5日，谷歌修改了数据隐私条款，将会抓取用户公开或来自其他公共来源的数据，用于训练Gemini（当时用名Bard）、谷歌翻译和云AI等产品。

但好景不长，在公布消息的15天后，谷歌就接到了美国克拉克森律师事务所的起诉。在这份长达90页的诉讼书中，指控谷歌从网络秘密窃取大量数据来训练其AI产品。指控其疏忽、侵犯隐私、盗窃、侵犯版权以及从非法获取的个人数据中获利。

谷歌为了获取高质量数据铤而走险，可见数据对于大模型的重要性。

合成数据正成为主流

4月2日，华尔街日报在官网发布了一篇名为《对于大量消耗数据的AI企业来说，互联网太小了》的内容。

华尔街日报指出，对于大模型厂商来说互联网那点数据，就像一口被挖干的油井根本不够用。

尤其是对于训练视频、音频、图像这些比文本更复杂的模型，就像一个“数据黑洞”可以无限吸收各种数据。

但常在河边走哪有不湿鞋的事，各家科技巨头当然也清楚，游走在灰色地带只是无奈之举。所以，他们想了一个新办法使用合成数据。

合成数据是通过算法、机器学习模型自动合成的“虚拟数据”，以模拟真实世界数据的统计特性。基本上也是以模仿为主，但在法律和应用场景等方面有很多优势。

良好的隐私保护，合成数据可以在不暴露个人或敏感信息的情况下生成数据，这对于遵守GDPR或HIPAA等隐私法规非常重要。

无限数据源，理论上，可以生成无限量的合成数据，这对于需要大量数据但现实世界数据不足以支持的场景非常有用。

控制数据分布，可以精确控制合成数据的分布，能定制数据以探索特定的情况或增强模型在特定任务上的性能。

成本低，收集和标注大量真实世界数据比较贵，而生成合成数据的成本通常较低，主要由AI自动完成。

但合成数据也并非完美无缺，最致命的缺点便是过度拟合：如果合成数据过于简化或未能捕捉到真实数据的关键特征、表示，用于训练AI模型可能会过度拟合输出的内容同质化且繁重无用。

在合成数据应用方面，OpenAI在今年2月15日重磅发布的视频模型Sora，很多技术大咖就分析，Sora能生成如此高清的视频和时长，可能使用了虚幻引擎5生成的合成数据。

事实上，根据内测用户发布Sora生成的视频，然后与虚幻引擎5的示例视频进行了多维度对比，大概率是使用了合成的视频数据来训练Sora。

所以，使用合成数据训练AI模型，将成为未来主要趋势之一。

本文素材来源纽约时报、维基百科、谷歌官网、Meta官网、theverge官网，如有侵权请联系删除

END

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1581485.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

系统架构最佳实践 -- 智慧图书管理系统架构设计

系统架构最佳实践 -- 智慧图书管理系统架构设计

随着数字化时代的到来，智慧图书管理系统在图书馆和机构中扮演着重要的角色。一个优秀的图书管理系统不仅需要满足基本的借阅管理需求，还需要具备高效的性能、良好的扩展性和稳定的安全性。本文将讨论智慧图书管理系统的架构设计与实现，以满足…

阅读更多...

spring Cache的基本使用

spring Cache的基本使用

一、spring Cache基本介绍（其实是通过代理对象来进行操作的） Spring Cache 是 Spring 框架提供的一个缓存抽象，它能够轻松地集成到 Spring 应用程序中，为方法调用的结果提供缓存支持，从而提高应用程序的性能和响应速度…

阅读更多...

基于拉格朗日分布算法的电动汽车充放电调度MATLAB程序

基于拉格朗日分布算法的电动汽车充放电调度MATLAB程序

微❤关注“电气仔推送”获得资料（专享优惠） 程序简介该模型主要做的是基于拉格朗日分布算法的电动汽车充放电调度模型。利用蒙特卡洛模拟法模拟出电动汽车负荷曲线，并求解出无序充电功率曲线和有序充电曲线，该模型在电动汽车个…

阅读更多...

合并单元格的excel文件转换成json数据格式

合并单元格的excel文件转换成json数据格式

github地址: https://github.com/CodeWang-Ay/DataProcess 类型1 需求1: 类似于数据格式: https://blog.csdn.net/qq_44072222/article/details/120884158 目标json格式 {"位置": 1, "名称": "nba球员", "国家": "美国"…

阅读更多...

C++设计模式：原型模式（八）

C++设计模式：原型模式（八）

1、定义与动机定义：使用原型实例指定创建对象的种类，然后通过拷贝这些原型来创建新的对象。动机： 在软件系统中，经常面临着“某些结构复杂的对象”的创建工作；由于需求的变化，这些对象经常面临着剧烈的变…

阅读更多...

登录压力测试

登录压力测试

目录一、准备测试数据 1.1数据库存储过程添加数据 1.2导出为csv作为测试数据（账号、密码） 二、使用fiddler抓包查看接口 2.1.抓到相关接口信息 2.2添加线程组和http请求 2.3将前面接口需要的参数去json格式化 2.4填写相关信息 2.5添加http…

阅读更多...

顺序表（C语言实现）

顺序表（C语言实现）

什么是顺序表顺序表和数组的区别顺序表本质就是数组结构体初阶进阶系统化的学习-CSDN博客简单解释一下，就像大家去吃饭，然后左边是苍蝇馆子，右边是修饰过的苍蝇馆子，但是那个好看的苍蝇馆子一看，这不行啊&a…

阅读更多...

Web前端-Ajax

Web前端-Ajax

Ajax 概念:Asynchronous JavaScript And XML,异步的JavaScript和XML。作用: 1.数据交换:通过Ajax可以给服务器发送请求,并获取服务器响应的数据。 2.异步交互:可以在不重新加载整个页面的情况下,与服务器交换数据并更新部分网页的技术,如:搜索联想、用户名是否可用的校验等等…

阅读更多...

「44」直播间换脸，揭开神秘的面纱……

「44」直播间换脸，揭开神秘的面纱……

「44」换脸神器让你瞬间秒变「明星脸」带货 DeepFace是Facebook的人脸识别系统之一，旨在在照片和视频中准确识别和标识人脸。它使用深度学习和神经网络技术来进行高度精确的人脸匹配和验证。 DeepFace利用了大量的训练数据和先进的人脸识别算法，能够…

阅读更多...

Redis中的集群(二)

Redis中的集群(二)

节点集群数据结构 redisClient结构和clusterLink结构的相同和不同之处 redisClient结构和clusterLink结构都有自己的套接字描述符和输入、输出缓冲区，这两个结构的区别在于，redisClient结构中的套接字和缓冲区是用于连接客户端的，而clust…

阅读更多...

使用Vivado Design Suite进行功率优化

使用Vivado Design Suite进行功率优化

功率优化是一个可选步骤，它通过使用时钟门控来优化动态功率。它既可以在Project模式下使用，也可以在Non-Project模式下使用，并且可以在逻辑优化之后或布局之后运行，以减少设计中的功率需求。功率优化包括Xilinx的智能时钟门控解决…

阅读更多...

git分支-分支工作流

git分支-分支工作流

分支工作流现在已经掌握了分支和合并的基础知识，可以或应该如何使用它们？在本节中，我们将介绍一些常见的工作流程，这种轻量级的分支使得这些工作流程成为可能，因此我们可以决定是否要将它们纳入到自己的开发周期中。…

阅读更多...

每天五分钟深度学习：如何理解逻辑回归算法的假设函数？

每天五分钟深度学习：如何理解逻辑回归算法的假设函数？

本文重点我们在机器学习专栏中已经学习了逻辑回归算法，本次课程我们将重温逻辑回归算法，该算法适用于二分类的问题，本文主要介绍逻辑回归的假设函数。我们在学习线性回归算法的时候，我们已经知道了线性回归算法的假设hθ(x)=θTX（参数θ的转置*X），但是对于逻辑回归而言…

阅读更多...

使用wget下载Github代码文件

使用wget下载Github代码文件

前言使用wget无法直接从Github链接直接下载代码文件，下文介绍解决方案。解决方案确保要下载的代码文件是公开文件，否则无法通过wget下载。进入Github并找到要下载的代码文件，例如： 进入文件后，点击文件右侧的…

阅读更多...

Windows完全卸载MySQL后再下载安装（附安装包）

Windows完全卸载MySQL后再下载安装（附安装包）

目录友情提醒第一章：如何完全卸载干净mysql教程（三个步骤完全卸载）1）步骤一：卸载程序2）步骤二：删除文件3）步骤三：删除注册表信息第二章：下载软件两种方式1&…

阅读更多...

R语言数据可视化：ggplot2绘图系统

R语言数据可视化：ggplot2绘图系统

ggpolt2绘图系统被称为R语言中最高大上的绘图系统，使用ggplot2绘图系统绘图就像是在使用语法创造句子一样，把数据映射到几何客体的美学属性上。因此使用ggplot2绘图系统的核心函数ggplot来绘图必须具备三个条件，数据data，美学属性…

阅读更多...

视频插针调研

视频插针调研

视频插针 1、评估指标2、准确度3、实时4、视频流处理3、实时RIFE视频插帧测试 1、评估指标参考：https://blog.csdn.net/weixin_43478836/article/details/104159648 https://blog.csdn.net/weixin_43605641/article/details/118088814 PSNR和SSIM PSNR数值越大表…

阅读更多...

【CSS】MDN

【CSS】MDN

一、CSS构建 1.1 CSS选择器 1.1.1 元素选择器标签不区分大小写示例： span {background-color: yellow; }1.1.2 通用选择器选择文档中所有内容，重置样式表中使用较多鉴于div:first-child（代表所有的div元素，并且是第一个…

阅读更多...

IT行业网络安全守护者-行云管家云堡垒机

IT行业网络安全守护者-行云管家云堡垒机

IT行业即信息技术行业，是一个涵盖广泛的行业领域，主要涉及与信息的处理、存储、传输和应用相关的技术。对于IT行业而言，保障数据安全以及网络安全至关重要，一不小心就容易造成数据泄露事件。今天我们小编就给大家介绍一下IT行业网…

阅读更多...

Docker 搭建私有镜像仓库

Docker 搭建私有镜像仓库

一、镜像仓库简介 Docker的镜像仓库是一个用于存储和管理Docker镜像的中央位置。镜像仓库的主要作用是提供一个集中的地方，让用户可以上传、下载、删除和共享Docker镜像。镜像仓库又可以分为公共镜像仓库和私有仓库镜像仓库： 公共镜像仓库 Docker Hub 是…

阅读更多...

推荐文章

最新文章