视频作为现实世界决策制定的新语言

news2025/1/8 5:22:10

人工智能咨询培训老师叶梓 转载标明出处

在互联网上,视频和文本数据同样丰富,它们支持通过预测下一个词或帧来进行大规模自监督学习。然而视频数据并没有象文本数据那样被充分利用:语言模型已经在现实世界产生了显著影响,而视频生成大多局限于媒体娱乐领域。而视频数据捕捉了关于物理世界的重要信息,这些信息难以用语言表达。为了弥补这一差距,本论文讨论了将视频生成扩展到解决现实世界任务的被低估的机会。提出了一个问题:能否将视频生成模型提升到与语言模型相当的水平,使其成为自主代理、模拟环境和计算引擎,从而使需要视觉模态的应用(如机器人技术、自动驾驶和科学)能够更直接地从互联网视觉知识和预训练的视频模型中受益。

本论文由来自 Google DeepMind、加州大学伯克利分校和麻省理工学院的研究团队共同撰写,他们观察到视频可以像语言一样,作为一个统一的接口,吸收互联网知识并代表多样化的任务。他们展示了视频生成如何像语言模型一样,通过上下文学习、规划和强化学习等技术,作为规划器、代理、计算引擎和环境模拟器。论文的主要观点如下:

统一表示和任务接口

文本数据虽然在数字或知识领域具有重要价值,但它更擅长于捕捉高层次的抽象概念,而不是物理世界的低层次细节。例如,视觉和空间信息(包括颜色、形状、纹理、照明效果以及物体的空间排列、相对位置、距离、方向和三维信息)自然地以图像或视频格式存在,而不是文本格式。视频同样能够隐式捕捉物理和动态信息(如物体和环境之间的物理交互,例如碰撞、操纵和其他受物理定律影响的运动),以及行为和动作信息(如人类行为和代理动作,描述执行任务的低级细节,如组装家具的具体动作)。

在自然语言处理领域,多种任务(如机器翻译、文本摘要、问题回答、情感分析、命名实体识别、词性标注、文本分类、对话系统)已经统一在语言建模的框架下。计算机视觉领域也拥有广泛的任务集合,包括语义分割、深度估计、表面法线估计、姿态估计、边缘检测和对象跟踪。近期的研究表明,将这些不同的视觉任务转化为视频生成任务是可行的,并且这种方法能够随着模型规模、数据量和上下文长度的增加而表现更佳。

如何将不同的计算机视觉任务,如关节/边缘检测、深度估计和分割,转换为单一的下一帧预测任务。这表明了视频生成任务可以统一处理多种视觉任务

将视觉任务转化为视频生成任务通常包括以下步骤:(1) 将任务的输入和输出(如分割图、深度图)整合到统一的图像/视频空间中;(2) 重新组织图像帧的顺序,使得一个输入图像后面紧跟着特定任务的预期输出图像(例如,一个常规输入图像后面是深度图);(3) 利用上下文学习,通过提供示例输入-输出对作为条件视频生成模型的输入,以指明所需的任务。

文本到视频模型如何响应一组“如何做”的问题,生成展示手执行复杂任务的关键帧

在体现人工智能(Embodied AI)中,数据碎片化是一个长期挑战,不同机器人或任务收集的数据集难以跨领域共享知识。这是因为每种机器人和任务都有其独特的状态-动作空间。为了解决这一问题,作者提倡使用像素空间作为跨任务和环境的统一状态-动作空间。在这个框架下,体现规划可以被视为一个条件视频生成问题,从而利用互联网预训练的视频生成模型。另外可以采用逆动力学模型、目标条件策略、光流网络或密集网格点等模块,从高级视频计划中恢复出低级机器人控制指令。

之前工作生成的机器人视频计划和通过在Open X-Embodiment数据集上训练的单一视频生成模型生成的视频计划。这些视频计划看起来非常逼真,并成功完成了指定的任务

视频生成作为模拟

游戏长期以来一直是人工智能算法的测试平台,例如,Arcade Learning Environment 促进了深度 Q 学习的发展,这是第一个在玩Atari游戏中达到人类水平的人工智能代理。游戏可以作为测试生成性模拟器质量的手段,通过与游戏引擎的地面真实模拟进行比较。

模拟复杂游戏:作者训练了一个基于transformer的架构,该架构在时间上是自回归的,可以预测基于剧集历史的未来的代理动作和观察结果。使用的“承包商数据”由Baker等人(2022年)提供,包括人类与游戏互动时收集的轨迹。模型能够生成与复杂策略相对应的动作和转换,例如使用镐打破石头块。证明了行动条件视频生成可能模拟像Minecraft这样的复杂电脑游戏的环境动态。

使用在Minecraft数据上训练的自回归模型生成的动作和观察结果

生成新游戏环境:利用生成模型为游戏设计生成新内容和关卡在游戏AI社区是一个活跃的研究领域,已被证明对训练和评估RL代理都有用。论文提到了使用生成模型通过直接预测帧或修改背景来生成新游戏关卡的尝试,但这些工作依赖于特权模拟数据,并且只在小规模上尝试,限制了生成全新游戏环境的潜力。

通过给定两个新颖的起始帧,由人类玩家选择潜在动作生成的多样化交互环境

论文还讨论了视频生成在模拟机器人动作空间SE(3)方面的应用,以及它如何帮助解决仿真到真实世界的转移问题(sim-to-real transfer)。

模拟SE(3)动作空间:关于在真实机器人视频数据上学习动作条件的下一帧预测模型的可能性,作者展示了如何使用生成模拟器来评估机器人策略,并训练在Language Table环境中使用生成模拟器的rollout的RL策略。作者提出了使用Dyna风格算法从模拟rollout和真实环境中学习策略的可能性。

真实机器人策略的执行、相同策略的模拟执行,以及重复同一动作的模拟执行

领域随机化:生成模拟器在引入训练环境的自然随机性方面具备一定的优势,这有助于提高在模拟中训练的策略在现实世界中的转移能力。与硬编码渲染规则的领域随机化相比,生成模拟器能够引入不同的驾驶条件,例如晴天、雾天、雪天、雨天和夜晚,从而能够在模拟器中训练具有多样化位置和天气条件的自动驾驶策略。

使用互联网知识模拟特定地点的不同驾驶条件,例如“金门大桥上的雨”、“优胜美地的黎明”和“去优胜美地的路上的雪”

作者还探讨了视频在科学和工程领域作为统一表示的潜力,以及它如何影响医学成像、计算机图像处理和计算流体动力学等研究领域。

原子级下一帧预测:图10展示了原子级下一帧预测的能力,其中使用了扫描透射电子显微镜(STEM)收集的数据。通过视频生成模型,能够以高保真度模拟硅原子在单层碳原子上受电子束刺激时的运动动态。生成的帧、真实的下一帧以及条件帧共同反映了硅原子在石墨烯片上的视觉动态变化。这表明视频生成模型在模拟复杂科学现象方面具有巨大潜力。

使用扫描透射电子显微镜(STEM)的电子束刺激石墨烯上的硅原子时,硅原子在单层碳原子上的转移动态。展示了生成模型能够以高保真度模拟视觉动态

科学过程的模拟:使用高度逼真的视觉模拟器响应控制输入可以减少对专业设备的硬件访问限制,这在需要操作如电子显微镜等专业设备的科学研究中非常有用。然而,将视觉生成模拟器用于控制输入优化还需要进一步研究以确保其有效性。

传统计算方法的替代:生成模拟器的另一个好处是它们具有固定的计算开销,这在传统计算方法变得不切实际时非常有用。例如,模拟量热计淋浴需要计算电子之间的成对交互,当电子数量很大时,这种复杂性很快变得不切实际。而模拟电子淋浴的视频则具有与模拟分辨率成比例的固定计算开销。

挑战

数据集局限性

在语言建模中,用于解决特定下游任务的语言数据分布通常在互联网文本数据的分布之内。然而,视频数据并非如此。互联网上发布的视频往往针对人类兴趣,并不一定适用于下游任务。例如,计算流体动力学模型可能需要许多长时间关注流体运动的视频,这些视频对人类来说可能并不有趣,因此在互联网上很少见。同样,也很少在互联网上找到特定类型的机器人(例如,Franka Emika Panda机器人)执行特定任务(例如,叠衣服)的视频。这就需要更好地促进收集和分发特定领域的视频数据。例如,机器人学的Open-X Embodiment数据集就是一个例子。

视频建模的另一个挑战是缺乏标注视频。例如,MineDojo数据集拥有超过30万小时的人类玩Minecraft游戏的视频,但数据集仅有语言转录,没有游戏动作标签,这使得使用该数据集训练策略或环境模型变得困难。同样,在最大的开源机器人数据集中,许多机器人轨迹没有对正在执行的任务进行语言注释,或者仅有通用标签,如“与任何对象交互”。

为了标注更多的视频数据,以前的工作使用了图像/视频字幕模型提供额外的文本标签,这些标签可以进一步用于训练文本到图像/视频的模型。另一种可能性是利用从视频中推断出的潜在动作/技能,尽管学到的潜在动作是一致的,但这种方法是否能够扩展到更复杂和多样化的动态仍然是一个开放的问题。

模型异质性

与语言模型已经趋于自回归架构不同,视频生成尚未确定最佳方法。自回归模型、扩散模型和掩蔽模型各自都有优势和劣势。

扩散模型可以轻松地对连续输出空间进行建模,而无需标记化,这可以带来更好的生成质量。此外,可以并行采样多个帧。然而,扩散模型的采样速度仍然相当慢,限制了其在实时模拟中的应用。另外如何使用扩散模型生成长视频序列还不清楚。扩散模型对超参数(如噪声计划)也很敏感,这使得训练和扩展变得困难。

具有标记化输出空间的自回归模型比扩散模型更容易训练。标记化还允许视频生成与文本或离散动作生成集成,为需要多模态生成的应用打开了更多可能性。另外自回归模型可以很好地适应上下文长度,使它们能够潜在地对非常长的视频帧序列进行建模。然而,自回归解码在计算上很昂贵,因为每个标记都必须顺序预测。另外自回归引导的视频可能会受到漂移效应的影响。

基于掩蔽重建的模型可以通过并行采样图像标记的批次来利用扩散的一些优势,并减轻一些标记自回归建模的问题。这允许由数千个标记组成的图像仅通过几十次模型调用进行采样。然而,这种方法引入了挑战,例如由于各个采样步骤中独立性假设引入的采样偏差。

解决模型异质性的潜在解决方案可能需要结合不同模型的优势,例如结合自回归和掩蔽模型,或者结合自回归和扩散模型。另外视频数据可能在空间和时间上都包含冗余信息。未来的模型可能需要考虑学习潜在空间以减少冗余。更好的视频生成模型还应该解决现有模型在生成速度和长期一致性方面的当前挑战。

幻觉问题

视频生成中的幻觉问题普遍存在。例如,物体可能随机出现或消失,这可能是由于物体的损失权重通常不如背景的损失权重高,因为物体通常较小。另一种常见的幻觉涉及不切实际的动态,例如,一个杯子“跳入”机器人手中,而不是机器人抓住杯子。这可能是由于视频的粗略时间频率没有捕捉到确切的运动关键帧。此外,同时对行为和动态进行建模的生成模型可能无法区分由动作或动态引起视觉变化。幻觉也可能发生在用户输入在特定场景中不现实时,例如,给桌面机器人输入“洗手”。尽管如此,视频生成模型尝试通过使用自我中心运动来实现语言指令,以生成现实的视频。可以应用如外部反馈的强化学习方法来进一步减少视频生成模型中的幻觉。

视频生成模型如何尝试通过使用自我中心运动来实现不切实际的用户输入,例如“洗手”,尽管输入图像是桌面上的机器人手

泛化能力有限

从任意图像和文本输入生成视频一直很困难。这对于训练数据中没有很好地表示的领域尤其如此,这在实践中相当普遍。以扩散模型为例,通常在低分辨率视频上训练,然后通过空间超分辨率来防止过拟合。假设高分辨率图像/视频具有太多人眼看不见的高频信息,而关注这些信息导致泛化能力不足。

尽管存在幻觉和泛化等挑战,视频生成模型有潜力成为自主代理、规划器、环境模拟器和计算引擎,并最终成为在物理世界中思考和行动的人工大脑。

论文链接:https://arxiv.org/abs/2402.17139

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1980976.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

命令行参数、环境变量详解

目录 一、命令行参数: 二、环境变量PATH 1、理解什么是环境变量 2、常见环境变量和操作 3、整体理解环境变量,系统,程序 4、如何获取环境变量(c语言) (1)getenv() 函数 (2)使…

uniapp(scroll-view)设置show-scrollbar无效

一、描述 在uniapp中,使用scroll-view内置组件,我这里是把他弄成一个可以滑动的导航,设置show-scrollbar"false"之后,按道理来说应该可以了,这个官方提供的一个属性可以不显示滑动条。但是,发现&…

影响气动小流量调节阀EMC测试价格因素是什么

气动小流量调节阀是一种顶导向单阀座调节阀,具有结构简单、密封性能好、使用可靠等特点。有效而足够的顶部导向系统克服小开度时的震动,有效使用寿命更长。气动小流量调节阀流量系数KV值从1.0到10-5的称为小流量调节阀,当Kv≤210-2时&#xf…

【中项第三版】系统集成项目管理工程师 | 第 11 章 规划过程组⑨ | 11.23 - 11.25

前言 第11章对应的内容选择题和案例分析都会进行考查,这一章节属于10大管理的内容,学习要以教材为准。本章上午题分值预计在15分。 目录 11.23 规划采购管理 11.23.1 主要输入 11.23.2 主要输出 11.23.3 合同类型 11.23.4 合同内容 11.24 规划干…

如何在亚马逊云科技AWS上利用LoRA高效微调AI大模型减少预测偏差

简介: 小李哥将继续每天介绍一个基于亚马逊云科技AWS云计算平台的全球前沿AI技术解决方案,帮助大家快速了解国际上最热门的云计算平台亚马逊云科技AWS AI最佳实践,并应用到自己的日常工作里。 在机器学习和人工智能领域,生成偏差…

Radiant Photo 1.4.1 AI智能完美照片修图插件支持PS ai beta

前言 Radiant Photo 是一款高效的照片编辑与增强应用。这款软件配备了多样化的编辑工具及特效,使得用户能够便捷地改善、修正并提升图片质量,让照片看起来更为出色且引人注目。无论你是日常使用者还是专业的摄影人士,都能够借助这款应用来增…

DBMS 与 RDBMS

DBMS 与 RDBMS 了解数据库什么是数据库管理系统?Types of DBMS 数据库管理系统的类型T数据库管理系统的好处 关系型数据库管理系统的优点 【纪录片】中国数据库前世今生 在数字化潮流席卷全球的今天,数据库作为IT技术领域的“活化石”,已成为…

常见用于联邦学习的数据集【FL】【Datasets】

文章目录 数据集CIFAR-10/CIFAR-100:CIFAR-10CIFAR-100特点以CIFAR-10 为例:示例内容batches.metadata_batch_1 到 data_batch_5test_batch图片转换Python脚本: MNIST:Fashion-MNIST:EMNIST:Googles Federa…

OpenCSG首发中文Chinese Mistral Large 2!

前沿科技速递🚀 🎉 震撼发布!OpenCSG再次微调发布CSG-Wukong-Chinese-Mistral-Large2-123B模型! 🔍 本次工作基于mistral-large-instruct-2407进行微调,采用了尖端的训练技术和优化策略,确保模型…

ZBrush

所有建模软件最开始需要搞清楚的就是基础操作,如旋转视角,放大缩小,移动等,一般可以看上手教程 zbrush中雕刻很重要的概念是笔刷:ZBrush笔刷介绍-CSDN博客 基本操作 编辑模式:T 清除画布:ctr…

Kibana未授权访问漏洞

8.Kibana未授权访问漏洞 Kibana如果允许外网访问且没有做安全登录认证,就会被外部任意访问,查看所有数据,造成数据泄露。在默认配置下,Kibana就可以访问Elasticsearch中的所有数据 步骤一:使用以下Fofa语句搜索Kibana产品并打开…

如何申请https证书

申请HTTPS证书通常遵循以下几个步骤,这些步骤可能会根据不同的证书颁发机构(CA)有所变化,但大体流程相似: 选择证书类型 根据你的需求选择合适的HTTPS证书类型。 常见的类型有: 域名验证型(DV):验证域名所有权&…

骨传导耳机哪个牌子好?五款业界高性能机型推荐,让你选购不迷茫!

骨传导耳机哪个牌子好?哪款耳机值得入手?作为一名资深的数码设备测评师,我极力推荐大家尝试下骨传导耳机,它无需直接堵塞耳道,既能起到保护听力的作用,又能在使用中保持对外界的环境感知。然而,…

python合并音视频-通过ffmpeg合并音视频

🌈所属专栏:【python】✨作者主页: Mr.Zwq✔️个人简介:一个正在努力学技术的Python领域创作者,擅长爬虫,逆向,全栈方向,专注基础和实战分享,欢迎咨询! 您的…

龙迅LT8713SX 高性能TYPE-C/DP转三端口DP1.4/HDMI 2.0转换器,带音频

龙迅LT8713SX描述: LT8713SX是一个高性能类型-C/DP1.4到Type-C/DP1.4/HDMI2.0转换器,具有三个可配置的DP1.4/HDMI2.0/DP输出接口和音频输出接口。LT8713SX同时支持显示端口™单流传输(SST)模式和多流传输(MST&#xf…

澳大利亚站 儿童水上玩具认证 AS/NZS ISO 8124.1:2002认证

什么是水上玩具? 此强制性标准适用的水上玩具应具备以下设计: 可承受 14 岁以下儿童的体重 供儿童在浅水中玩耍时使用 是否充气以及是否设计用于佩戴或以其他方式贴在身体上。 水上玩具包括但不限于: 充气新奇形状 适用于浅水的充气玩具…

探索ISO三大体系:企业卓越管理的核心之道

ISO 9001质量管理体系是国际上最广泛应用的质量管理标准,旨在帮助企业建立和实施有效的质量管理体系。通过ISO 9001认证,企业可以确保其产品和服务持续满足客户需求,从而赢得市场竞争的主动权。 实施ISO 9001质量管理体系,企业可以…

书生大模型学习笔记3 - 书生开源大模型链路体系

学习视频链接:书生浦语大模型全链路开源体系_哔哩哔哩_bilibili

算法力扣刷题记录 六十六【39. 组合总和】

前言 回溯章节第四篇。回顾:前三篇——组合问题:同一个集合中取元素;不同集合中取元素。 本文:记录 六十六【39. 组合总和】 一、题目阅读 给你一个 无重复元素 的整数数组 candidates 和一个目标整数 target ,找出…

生产环境中如何防止rm -ef 删库操作?

有这样一个故事 在一个风和日丽的下雨天,某猿带着还未从睡梦中醒来的脑子,打开了服务器,完成了一套华丽的rm -ef操作. 对于linux 很多人都认为将用root权限将系统“rm -rf /”整个盘的数据将会丢失,首先请不要紧张不要对数据盘执行任何操作。如果命令正在执行请立即…