YouTube 强调,使用其平台内容训练人工智能违反服务条款,苹果公司(Apple)、Anthropic 等科技巨头却涉嫌违规
根据 Proof News 和 Wired 合作的一项调查报告,超过 17 万个 YouTube 视频成为了苹果公司、Anthropic、Nvidia 和 Salesforce 等科技巨头用来训练人工智能系统的大型数据集的一部分。这些公司使用了未经允许从 YouTube 视频平台撷取的“YouTube 字幕”数据。该数据集主要包含来自超过 48,000 个频道的视频字幕,未包含视频图像。
调查揭示,多个领域的热门内容制作者和新闻机构的作品未经许可被用于训练数据。其中包括知名 YouTube 创作者 MrBeast 和 Marques Brownlee 的视频,以及 ABC News、BBC 和《纽约时报》的新闻片段。此外,来自 The Verge 的超过 100 个视频和多个 Vox 视频也被包含在内。
Marques Brownlee 在社交媒体 X 上表示,苹果公司和其他公司从 YouTube 抓取了大量数据和视频剧本,包括他的内容。“这是一个将长期存在并持续发展的问题,”Brownlee 写道。
此外,Proof News 还推出了一个交互式查找工具,公众可以通过该工具查询自己喜爱的 YouTuber 的内容是否被非法利用。
这个字幕数据集是由非盈利组织 EleutherAI 创建的名为 The Pile 的更大数据集的一部分,该集合还包括书籍、维基百科文章等数据。去年对其中一个名为 Books3 的数据集的分析显示,多位作者的作品被用于 AI 训练,这些数据已被用作多起针对相关公司的诉讼案件的证据。
科技公司通常不愿公开其 AI 系统中使用的数据的详细信息,YouTube 的内容被具体如何使用,尤其在过去几个月成为了热点问题。今年 3 月,OpenAI 发布其视频生成工具 Sora 时,其首席技术官 Mira Murati 对于是否使用 YouTube 视频进行训练的问题避而不答,仅表示使用的是“公开可用或已获得许可的数据”。
YouTube 和 Google 的高层也对此表达了关切。YouTube 首席执行官 Neal Mohan 曾表示,使用视频内容训练 AI 将违反平台条款。谷歌首席执行官 Sundar Pichai 在《解码器》节目中也表示同意 Mohan 的观点,如果 OpenAI 真的使用 YouTube 内容训练了 Sora,那将是对 YouTube 条款的违反。“我们有我们的条款和条件,希望大家在构建产品时能够遵守这些规定,” Pichai 表达了他的立场。
目前,YouTube 还没有对此事作出正式回应。