惊爆!英伟达那神秘的视频基础模型「Cosmos」竟然浮出水面,然而其数据居然是靠窃取得来!

news2024/12/25 1:52:43

🐱 个人主页:TechCodeAI启航,公众号:TechCodeAI

🙋‍♂️ 作者简介:2020参加工作,专注于前端各领域技术,共同学习共同进步,一起加油呀!

💫 优质专栏:AI相关最新技术分享(目前在向AI方向发展,欢迎大佬交流)

📢 资料领取:前端进阶资料可以找我免费领取

🔥 摸鱼学习交流:我们的宗旨是在「工作中摸鱼,摸鱼中进步」,期待大佬一起来摸鱼!

简直难以置信!为了这个视频模型,英伟达当下正陷入一种近乎疯狂的状态,每日都在拼命爬取足可相当于 80 年时长的视频数据。

惊人之讯!在今天,一则英伟达将要投身于视频模型的消息于 Reddit 上引发了巨大轰动。

令人震惊!消息源自外媒 404 Media,据其获取到的 Slack 聊天(属于英伟达的内部聊天平台)、电子邮件以及相关文件表明,英伟达正在从 Youtube 以及其他若干来源抓取视频,以此来收集用于其 AI 产品的训练数据。

惊爆眼球!404 Media 所查看的英伟达内部对话表明,当参与该项目的员工对使用“禁止商用的研究数据集”和“YouTube 视频”可能引发的法律问题提出疑问时,管理人员告知他们,已获得公司最高层的许可,能够运用这些内容。

一位不愿透露姓名的前英伟达员工宣称,员工被责令从 Netflix、YouTube 以及其他来源抓取视频,用于训练 Omniverse 3D 世界生成器、自动驾驶汽车系统和“数字人”产品的 AI 模型。

这个项目内部被命名为 Cosmos(但和公司现有的 Cosmos 深度学习产品存在差异),尚未向公众推出。从该项目领导层发给员工的电子邮件可以看出,Cosmos 的目标是构建一个处于前沿水平的视频基础模型,“将光传输、物理和智能模拟整合于一处,以开启对英伟达极为关键的各类下游应用。”

为了采集训练视频,英伟达员工运用了名为“yt-dlp”的开源 YouTube 视频下载器。他们尝试从 Netflix 等众多来源下载完整视频,然而重点主要放在了 YouTube 视频上。404 Media 所查看的电子邮件显示,项目经理选取了使用 Amazon Web Services 中的 20 到 30 台虚拟机,每天下载的视频时长相当于 80 年。

英伟达研究副总裁兼 Cosmos 项目负责人 Ming-Yu Liu 在 5 月份的一封电子邮件里说道:“我们正在完成 v1 数据 pipeline 并确保必备的计算资源,以打造一个视频数据工厂,这个工厂每天能够产出相当于人类一生视觉体验的训练数据。”

当被问及英伟达把 YouTube 视频当作其模型的训练数据一事时,谷歌发言人向 404 Media 表示,该公司“此前的立场依旧有效”。此前 YouTube 首席执行官 Neal Mohan 称,如果 OpenAI 使用 YouTube 视频来优化其 AI 视频生成器 Sora,那将“明显违背”YouTube 的使用条款。

同样的,Netflix 发言人向 404 Media 透露,公司与英伟达未曾就内容采集达成协议,并且该平台的服务条款严禁抓取内容。

不过,英伟达方面貌似满不在乎。参与该项目的员工提出的法律问题常常被项目经理否定,并表示,未经许可抓取视频的决定属于“行政决定”,他们无需担忧,而关于什么是公平、合乎道德地使用受版权保护的内容以及学术、非商业用途数据集的问题被视作“悬而未决的法律问题”,日后再行解决。

英伟达视频模型项目始末

值得关注的是,与其他科技巨头相仿,英伟达招募学术研究人才发表学术成果,可从 404 Media 所获取的内部邮件不难发现,Cosmos 显然是要用于商业领域的。

今年三月,一位英伟达的研究员于 Slack 上发布帖子,提议借助《阿凡达》或《指环王》这样的好莱坞电影来训练 OpenAI Sora,也许效果会更优。

紧接着,他的提议得到了公司内部的认同,但他也进一步说明,好莱坞对 AI 可能侵犯版权的情况极其敏感。2023 年七月,拥有 16 万会员的好莱坞三大工会之一 SAG-AFTRA 宣布罢工,将矛头径直对准 ChatGPT 和 Stable Diffusion 等生成式 AI 产品,在此之前,美国编剧工会已经罢工 70 多天。Stable Diffusion 存在此种情形,即使不输入对应的提示词,仅输入「动漫画风的水管工」这样模糊的表述,Stable Diffusion 会直接生成马里奥的经典形象。

在这个帖子下方,一位名叫「Liu」的员工(即英伟达研究副总裁 Ming-Yu Liu(刘洺堉)答复道:「如果不公开发表论文,就不会招致以上负面问题。我们应该先用能下载的视频进行试验。」

接下来,又有一位英伟达研究员在内部网络发表了一个帖子,他寻获了一份训练视频模型应当优先下载的文件清单,然而英伟达所运用的 HD-VILA-100M 数据集中竟然缺少约 230 万个原始视频。这个持续扩充的清单中还涵盖了一些知名 YouTuber 的原创视频,例如在北美知名度类似于“大家好我是何同学”的数码评测博主 Marques Brownlee(MKBHD)。

出于对版权的保护,通常的视频数据集往往收录 URL 链接或者 YouTube ID,一旦作者删除了原视频,这些内容将不会继续留存于数据集中,除非视频作者明确表示同意其内容被保留和使用。

虽然微软在其 HD-VILA-100M 数据集的使用声明中明确严禁用于一切商业用途,但是发帖的英伟达员工似乎毫不介意,他迅速贴出了这份清单对应的 YouTube 链接,并和同事们探讨出了用 AWS 虚拟机换 IP,规避 YouTube 反爬虫机制的解决办法。

除此之外,英伟达的员工还将目标瞄准了 Google 发布的大规模视频理解数据集 YouTube-8M。和自行补充微软的数据集不同,他们和 YouTube 以及 YouTube 现今的母公司谷歌达成了一笔“交易”,英伟达以每支视频 0.00625 美元(约等于人民币 4 分钱)的价格购入了 800 万支视频,并将通过谷歌云下载。不考虑出卖版权的问题,谷歌或许认为赚回了这些视频的广告费,但英伟达原本在云带宽方面就存在一些限制,在谷歌云上下载,反而能够获得更加稳定和可预测的连接。因此,无论从哪个层面来看,这笔“交易”似乎都对英伟达有益。

更令人震惊的是,当有英伟达员工在内部网络发问:“我们这样下载 YouTube 视频合理吗?”

“这是一个高层决定。我们已经获得了使用所有数据的全面许可。”他得到了这样的答复。

这个决定所允许使用的数据还包含 Netflix 上的视频作品。Netflix 的数据包含大量高质量的人脸数据,在获得批准后,有人在公司内网 @了有在其他大公司“构建大型数据集”经验的同事帮忙。

同时,Cosmos 团队还思考了如何有效地将游戏画面添加到训练数据中的问题。英伟达高级研究科学家 Jim Fan 在捕获实时游戏画面时也遭遇了“监管”的阻碍。

Jim Fan 发了个帖子说:

更新:我一直在与 GeForce Now(GFN)的人员开会,和他们制定计划。我们将与 GFN 及相关工程团队紧密合作,开发捕获实时游戏数据的方法,扩大 pipeline 的规模,并对数据加以处理用于训练。高质量的游戏视频将对「我们的 Sora」提供非常有用的补充...... 因为还没有用来捕获实时游戏视频和动作的设备,因此还没有进行统计,但我们将尽快将清理和处理过的 GFN 数据添加到 team-vfm。

于今年三月份,Cosmo 项目在视频数据收集方面实现了一个突破性进展:Nvidia 在两周的时间里成功完成了 10 万次视频下载。

“进步神速。目前的难题是我们如何能够斩获大量优质的 URL。”Liu 在这个帖子中答复道。

5 月下旬,项目组成员收到了一封涉及视频数据策略的邮件,宣告他们已经汇集了 3850 万个视频 URL。邮件中说道:“根据安排,下周收集视频的重点依然是电影、无人机镜头、第一人称视角的镜头、自然风光。”邮件中还包含着一张图表,呈现了他们下载的内容类型的占比情况。

这封邮件展露了一些关键的技术信息,包含了模型训练数据中的四个数据集:

  • Ego-Exo4D:一个多样化、大规模、多模式、多视角的视频数据集和基准,由 740 名相机佩戴者在全球 13 个城市收集,拍摄了 1286.3 小时的人类熟练活动视频。

  • Ego4D:这是一个大规模、以自我为中心的数据集和基准套件,在全球 9 个国家的 74 个地点收集了超过 3,670 小时的日常生活活动视频。

  • HOI4D:大规模 4D 以自我为中心的数据集,具有丰富的注释,可促进类别级别的人 - 物互动研究。HOI4D 由清华大学、北京大学和上海期智研究院的研究人员创建,采用 CC BY-NC 4.0 许可,禁止商业使用。

  • GeForce Now:游戏数据。

在又一封邮件当中,Cosmos 项目的成员表示:“研究团队目前正在通过多种配置训练一个 10 亿参数的模型,每种配置设有 16 个节点。在继续扩大之前,这是一个至关重要的调试阶段。我们打算在几周内得出成果,接着扩展成 100 亿参数模型。”

“这个消息太妙了!”英伟达 CEO 黄仁勋回了这封邮件,他声称:“许多企业都将构建视频基础模型设定为目标,我们完全能够构建一个加速的 pipeline。”

6 月,项目组成员议论了在保持人工智能行业竞争优势的前提下,模型中何种类型的内容对英伟达的产品最具价值。

“NVIDIA 拥有多数内容公司所没有的机器人、自动驾驶、Omniverse 和 Avatar。为了最大程度推动公司进步,我们整合的数据必须能够完美适用于这些‘王牌’应用程序”,Cosmos 项目的成员说道。

毫无疑问,Cosmos 团队正在开发的模型旨在服务于其多种产品的商业用途。

在要求这些公司全面公开训练数据的法案落实以前,他们将继续利用法律的模糊地带去获取受版权保护的数据。要是没有内部邮件或者内网对话的泄密,任何人都不了解暗地里究竟发生了什么,而这样的模型能够让像 Nvidia、Runway 或 OpenAI 等科技巨头收获数十亿美元。

参考链接:

https://www.404media.co/nvidia-ai-scraping-foundational-model-cosmos-project/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1991173.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

本科阶段最后一次竞赛Vlog——2024年智能车大赛智慧医疗组准备全过程——5Webscoket节点的使用

本科阶段最后一次竞赛Vlog——2024年智能车大赛智慧医疗组准备全过程——5Webscoket节点的使用 ​ 有了前面几篇文章的铺垫,现在已经可以实现我到手测试那一步的 1.解读usb_websocket_display.launch.py ​ 首先进入这个目录/root/dev_ws/src/origincar/originca…

WPF-MVVM架构

在WPF(Windows Presentation Foundation)开发中,MVVM(Model-View-ViewModel)是一种非常流行的设计模式,它旨在将应用程序的UI逻辑与业务逻辑和数据模型分离,从而提高代码的可维护性、可测试性和…

4.12.束搜索

束搜索 ​ 为了量化解码器的计算代价&#xff0c;用 y y y表示输出词表&#xff0c;其中包含 < e o s > <eos> <eos>&#xff0c;词表大小则为 ∣ y ∣ |y| ∣y∣&#xff0c;指定输出序列的最大词元数为 T ′ T T′&#xff0c;则我们的目标是从所有 O ( ∣…

同态加密和SEAL库的介绍(三)BFV - Batch Encoder

写在前面&#xff1a; 在上一篇中展示了如何使用 BFV 方案执行一个非常简单的计算。该计算在 plain_modulus 参数下进行&#xff0c;并且仅使用了 BFV 明文多项式中的一个系数。这种方法有两个显著的问题&#xff1a; 实际应用通常使用整数或实数运算&#xff0c;而不是模运算…

解决postGis无法打开的问题

问题 无法打开PostGIS PostGIS Bundle 3 for PostgreSQL x64 12 Shapefile and DBF Loader Exporter 弹出窗口 找不到libcrypto-1 postgis libcrypto libssl-1-x64等问题 解决方法 打开PostgreSQL安装目录下的Bin文件夹 查找缺少的文件 将其复制到 postgisgui 下 复制后即可…

网站建设网络公司如何选择

在选择网站建设网络公司时&#xff0c;需要考虑多个因素&#xff0c;以确保您的网站能够满足业务需求并取得成功。以下是一些建议&#xff0c;帮助您在选择网站建设网络公司时做出明智的决策。 首先&#xff0c;您应该考虑公司的经验和专业知识。选择一家有丰富经验的公司&…

实战从零开始实现Raft|得物技术

一、前言 Raft算法是一种分布式一致性算法&#xff0c;由Diego Ongaro和John Ousterhout在2013年提出。它主要用于分布式系统中&#xff0c;保证系统中的数据在多个节点间保持一致性。 Raft算法被广泛应用于众多分布式系统中&#xff0c;尤其是在需要强一致性保证的场景中&am…

【C++】-----多态及原理

目录 前言 一、是什么&#xff1f; 二、怎么样&#xff1f; Ⅰ、构成条件 Ⅱ、虚函数 Ⅲ、虚函数的重写 1.常规情况下 2.虚函数重写的三个例外 ①返回值的类型可以不同 ②析构函数的重写 ③子类虚函数可以不加virtual关键字(不建议) 3.override和final关键字 Ⅳ、重…

极米RS10 Plus VS当贝X5S Pro!最强客厅投影仪选当贝投影才是正解

不知道为什么&#xff0c;2024年的投影仪市场迭代迅猛&#xff0c;尤其是很多头部品牌小升级不断&#xff0c;机型后缀错综复杂让消费者更难下定决心做出抉择。而在今天又有一款新品极米RS10 Plus正式发布&#xff0c;同价位其实早前就有热门人气选手当贝X5S Pro坐镇&#xff0…

ChatGPT的封号和停止注册应对和常见问题丨出海笔记

ChatGPT "亚洲区封号"和“停止注册”的事情大家都听说过吧&#xff0c;我认为&#xff0c;官方有一定程度的“控频”&#xff0c;但并没有一杆子打死&#xff0c;更没有自媒体吹嘘的所谓封号和无法注册&#xff0c;因为我曾给朋友注册了2个以及升级plus成功&#xff…

MM 12 -采购- 成本中心采购

思维导图 说明 采购申请 手工或BPM接口创建 物料组&#xff1a; 必输 科目分配类别K &#xff0c;标签页会增加 科目分配 标签页 会计科目&#xff1a; 根据物料组带出 或者直接输入&#xff0c;根据情景。 成本中心需要填写。 采购订单 科目分配类别K &#xff0c;标签页会增…

【Windows】EFI系统盘重新安装操作系统遇到磁盘MBR分区解决办法

【Windows】EFI系统盘重新安装操作系统遇到磁盘MBR分区解决办法 1.背景2.问题3.解决 1.背景 本博客使用ventoy软件制作USB闪存启动盘。 相关博客&#xff1a; 【windows10】ventoy软件制作USB闪存启动盘-CentOS8 https://blog.csdn.net/jn10010537/article/details/123283985…

C到C++——C++基础

C是一种通用的、静态类型的、跨平台的编程语言。它是在1979年由Bjarne Stroustrup创建的&#xff0c;最初是作为C语言的扩展来支持面向对象编程。 C在保留C语言的特性的同时&#xff0c;添加了许多其他的功能&#xff0c;包括类、对象、继承、多态、模板等。这使得C成为了一种…

“金牌挑战——奥运知识大比拼”微信小程序线上知识竞赛答题活动复盘总结

一、活动背景 奥运会进行得如火如荼&#xff0c;为了弘扬奥运精神&#xff0c;激发公众对于奥林匹克运动的兴趣和热情&#xff0c;我们特别策划了“金牌挑战——奥运知识大比拼”线上知识竞赛活动。本次活动依托微信小程序&#xff0c;通过趣味性和互动性强的知识竞答&#xf…

SOPHGO算能科技BM1684盒子占用空间满的问题解决

目录 1 问题由来 2 问题排查与解决 1 问题由来 安装软件的时候发现&#xff0c;软件根本安装不上了&#xff0c;用df -h看到根目录已经满了 rootbm1684:~# df -h Filesystem Size Used Avail Use% Mounted on overlay 5.8G 5.7G 0 100% / devtmpfs …

【实战】MFC客户端Python后端之仿造QQ聊天

项目概述 这里介绍一个很多年以前做的一个小项目&#xff0c;新手小白可以参考学习。本项目旨在开发一个功能丰富的即时通讯及聊天室系统&#xff0c;类似于QQ&#xff0c;具备客户端与服务端通讯、多人聊天室、界面友好度、一对一聊天、通讯内容加密、服务端与数据库交互等功能…

十八.核心动画 - 使用CAGradientLayer图层构建渐变视图

引言 在现代的UI设计中&#xff0c;渐变色和圆角已经成为了不可或缺的元素。无论是应用程序的背景&#xff0c;按钮&#xff0c;还是图标&#xff0c;这些设计趋势不仅使界面更加美观&#xff0c;还能提升用户体验。特别是渐变色&#xff0c;它通过颜色的平滑过渡&#xff0c;…

如何利用绩效考核来强化员工对TPM的参与度?

TPM&#xff08;Total Productive Maintenance, 全面生产维护&#xff09;作为一种追求生产系统效率最大化的管理模式&#xff0c;其核心在于通过全员参与和持续改进&#xff0c;实现设备综合效率的最大化。然而&#xff0c;要让这一理念深入人心&#xff0c;并转化为员工的日常…

图片转为pdf怎么弄?亲测有效的8个pdf转换方法安利

图片转PDF怎么弄&#xff1f;在日常的办公生活中&#xff0c;我们经常会需要处理一些文档格式转换难题&#xff0c;图片转成PDF格式就是其中一个&#xff0c;图片转换成PDF格式的话&#xff0c;方便我们传输分享&#xff0c;毕竟现在PDF格式凭借着自身的稳定性和可移植性已经成…

李晨晨的嵌入式学习 DAY20

今天主要对zuot学习函数进行了补充 一&#xff0c;文件IO函数 1.fileno函数 类型转换函数 函数原型&#xff1a;int fileno(FILE *stream); 功能&#xff1a;fileno函数用于取得参数stream指定的文件流所使用的文件描述符。文件描述符是一个非负整数&#xff0c;用于在底层…