计算机视觉和机器人技术中的下一个标记预测与视频扩散相结合

news2024/11/15 14:04:44

一种新方法可以训练神经网络对损坏的数据进行分类,同时预测下一步操作。 它可以为机器人制定灵活的计划,生成高质量的视频,并帮助人工智能代理导航数字环境。

在这里插入图片描述
Diffusion Forcing 方法可以对嘈杂的数据进行分类,并可靠地预测任务的下一步,例如帮助机器人完成操纵任务。 在一项实验中,它帮助机械臂将玩具水果重新排列到圆形垫子上的目标位置,尽管开始时位置随机且存在视觉干扰。 鸣谢:图片:Mike Grimmett/MIT CSAIL Mike Grimmett/MIT CSAIL

在当前的人工智能潮流中,序列模型因其分析数据和预测下一步行动的能力而大受欢迎。 例如,你可能用过 ChatGPT 这样的下一个标记预测模型,它可以预测序列中的每个单词(标记),从而形成用户查询的答案。 还有像 Sora 这样的全序列扩散模型,通过对整个视频序列进行连续 “去噪”,将单词转换成炫目逼真的视觉效果。

麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员对扩散训练方案提出了一个简单的改动,使这种序列去噪变得更加灵活。

在应用于计算机视觉和机器人等领域时,下一标记词模型和全序列扩散模型都需要权衡能力。 Next-token 模型可以产生不同长度的序列。 然而,它们在生成这些序列的同时,并不了解远期的理想状态–比如将序列生成导向 10 个标记之外的某个目标–因此需要额外的机制来进行远期(长期)规划。 扩散模型可以执行这种未来条件采样,但缺乏下一个标记模型生成可变长度序列的能力。

CSAIL 的研究人员希望将两种模型的优势结合起来,因此他们创造了一种名为 "Diffusion Forcing"的序列模型训练技术。 这一名称来源于 “教师强化”(Teacher Forcing),它是一种传统的训练方案,将完整的序列生成分解成更小、更容易的下一个标记生成步骤(就像一位好老师简化复杂的概念一样)。

扩散强化发现了扩散模型和教师强化之间的共同点: 它们都使用从未加掩码的标记预测加掩码(噪声)标记的训练方案。 在扩散模型中,它们会逐渐向数据中添加噪声,这可以看作是部分掩蔽。 麻省理工学院研究人员的 "扩散强化法 "可以训练神经网络净化标记集,去除每个标记中不同数量的噪声,同时预测下几个标记。 结果:一个灵活、可靠的序列模型为机器人和人工智能代理带来了更高质量的人工视频和更精确的决策。

通过整理嘈杂的数据并可靠地预测任务的下一步,扩散强化技术可以帮助机器人忽略视觉干扰,完成操作任务。 它还能生成稳定一致的视频序列,甚至引导人工智能代理通过数字迷宫。 这种方法有可能让家用机器人和工厂机器人适应新的任务,并改善人工智能生成的娱乐效果。

"序列模型的目的是以已知的过去为条件,预测未知的未来,这是一种二进制掩蔽。 然而,掩蔽并不需要是二进制的,"第一作者、麻省理工学院电子工程与计算机科学(EECS)博士生、CSAIL 成员陈博源说。 利用 "扩散强化 "技术,我们为每个标记添加了不同程度的噪声,从而有效地起到了分数掩码的作用。 在测试时,我们的系统可以 "解除 “标记集合的屏蔽,并在不久的将来以较低的噪音水平扩散一个序列。 它知道在其数据中应该相信什么,以克服分布外输入”。

在多项实验中,"扩散强化 "技术在忽略误导数据的情况下执行任务,同时预测未来的行动。

例如,当将其应用到机械臂中时,它可以帮助在三个圆形垫子上交换两个玩具水果,这是一系列需要记忆的长视距任务中的一个最简单的例子。 研究人员通过在虚拟现实中对机器人进行远距离控制(或远程操作)来训练机器人。 机器人通过摄像头模仿用户的动作进行训练。

为了生成视频,他们在谷歌 DeepMind 实验室模拟器创建的 "Minecraft "游戏玩法和丰富多彩的数字环境中进行了扩散强化训练。 与类似 Sora 的全序列扩散模型和类似 ChatGPT 的下一个标记模型等同类基线相比,该方法在给定单帧视频时,能生成更稳定、分辨率更高的视频。 这些方法生成的视频似乎并不一致,后者有时甚至无法生成超过 72 帧的工作视频。

Diffusion Forcing 不仅能生成花哨的视频,还能充当运动规划器,引导人们朝着期望的结果或奖励前进。 得益于其灵活性,Diffusion Forcing 可以独特地生成不同视距的计划,执行树状搜索,并将 "远期未来比近期未来更不确定 "这一直觉融入其中。 在求解二维迷宫的任务中,Diffusion Forcing 的表现优于六种基线方法,它能更快地生成通往目标位置的计划,这表明它可以成为未来机器人的有效规划器。

在每次演示中,Diffusion Forcing 都充当全序列模型、下一个标记预测模型或两者兼而有之。 陈博士认为,这种多用途方法有可能成为 "世界模型 "的强大支柱。"世界模型 "是一种人工智能系统,可以通过在数十亿互联网视频上进行训练来模拟世界的动态。 这样,机器人就能根据周围环境想象自己需要做什么,从而执行新颖的任务。 例如,如果你要求机器人在没有经过训练的情况下打开一扇门,模型可以制作一段视频,向机器展示如何打开门。

该团队目前正寻求将他们的方法扩展到更大的数据集和最新的变压器模型,以提高性能。 他们打算扩大工作范围,建立一个类似于 ChatGPT 的机器人大脑,帮助机器人在没有人类示范的情况下在新环境中执行任务。"通过扩散强化,我们正在迈出一步,将视频生成和机器人技术更紧密地结合在一起,"资深作者、麻省理工学院助理教授兼 CSAIL 成员 Vincent Sitzmann 说,他在 CSAIL 中领导着场景表示小组。 “最后,我们希望能利用互联网上视频中存储的所有知识,让机器人为日常生活提供帮助。 还有许多令人兴奋的研究挑战,比如机器人如何通过观察人类来学习模仿人类,即使他们自己的身体与我们的身体如此不同!”

Paper: “Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2240874.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

云计算研究实训室建设方案

一、引言 随着云计算技术的迅速发展和广泛应用,职业院校面临着培养云计算领域专业人才的迫切需求。本方案旨在构建一个先进的云计算研究实训室,为学生提供一个集理论学习、实践操作、技术研发与创新于一体的综合性学习平台,以促进云计算技术…

React Native 全栈开发实战班 - 核心组件与导航

在 React Native 中,组件是构建用户界面的基本单元。React Native 提供了丰富的内置组件,涵盖了从基础布局到复杂交互的各种需求。本章节将详细介绍常用的内置组件,并重点讲解列表与滚动视图的使用。 1. 常用内置组件详解 React Native 提供…

【2025最新计算机毕业设计】基于SpringBoot+Vue电脑在线装机指南教程网站【源码+文档】

作者简介:✌CSDN新星计划导师、Java领域优质创作者、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流。✌ 主要内容:🌟Java项目、Python项目、前端项目、PHP、ASP.NET、人工智能…

C语言——段管理

一、复习一下 1.指针的概念? 存储地址的基本数据类型 2.什么是数据类型? 在内存空间上框出一定空间的模子,比如int在内存空间上框出4个字节,int就是基本的数据类型 3.基本数据类型,多个数据类型,多个同…

SpringCloud 微服务消息队列灰度方案 (RocketMQ 4.x)

目录 背景遇到的问题 RocketMQ 基础基础消息模型扩展后的消息模型部署模型相关概念点 方案对比影子Topic的方案Tag的方案UserProperty的方案影子Group的方案灰度分区的方案方案对比 灰度分区方案设计适配只有部分灰度的情况所做的功能扩展消费者(无灰度)…

YOLOv8改进,YOLOv8结合DynamicConv(动态卷积),CVPR2024,二次创新C2f结构

摘要 大规模视觉预训练显著提高了大规模视觉模型的性能。现有的低 FLOPs 模型无法从大规模预训练中受益。在本文中,作者提出了一种新的设计原则,称为 ParameterNet,旨在通过最小化FLOPs的增加来增加大规模视觉预训练模型中的参数数量。利用 DynamicConv 动态卷积将额外的参…

【C++】在windows下配置一个小巧实用的C/C++调试环境

目录 1.准备环境 2.cgdb 3. gdb-dashboard 4.常用命令 4.1 cgdb命令 4.2 gdb常用命令 虽然在大部分常用的C/C编辑器中,调试功能已经很方便且完善,但是,如果你还需要一个小巧一点,调试信息还完善的调试环境的,可以…

Dolby TrueHD和Dolby Digital Plus (E-AC-3)编码介绍

文章目录 1. Dolby TrueHD特点总结 2. Dolby Digital Plus (E-AC-3)特点总结 Dolby TrueHD 与 Dolby Digital Plus (E-AC-3) 的对比 Dolby TrueHD和Dolby Digital Plus (E-AC-3) 是两种高级的杜比音频编码格式,常用于蓝光影碟、流媒体、影院等高品质音频传输场景。它…

k8s上部署redis高可用集群

介绍: Redis Cluster通过分片(sharding)来实现数据的分布式存储,每个master节点都负责一部分数据槽(slot)。 当一个master节点出现故障时,Redis Cluster能够自动将故障节点的数据槽转移到其他健…

计算机网络——路由选择算法

路由算法 路由的计算都是以子网为单位计算的——找到从原子网到目标子网的路径 链路状态算法

4.3 Java JNI 机制

1 绪论 JNI 是一个原生编程接口。它允许在 Java 虚拟机(JVM)内运行的 Java 代码与用其它编程语言(如 C、C 和汇编)编写的应用程序和库进行互操作。 JNI 最重要的好处是它对底层 JVM 的实现没有限制。因此,JVM 供应商可…

influxDB 时序数据库安装 flux语法 restful接口 nodjsAPI

安装 Install InfluxDB | InfluxDB OSS v2 Documentation Debian和Ubuntu用户可以用apt-get包管理来安装最新版本的InfluxDB。 对于Ubuntu用户,可以用下面的命令添加InfluxDB的仓库,添加之后即可apt-get 安装influxdb2 wget -q https://repos.influx…

7z 解压器手机版与解压专家:安卓解压工具对决

7z 解压器手机版和解压专家都是在安卓设备上广受欢迎的解压软件。7z 解压器手机版由深圳乡里云网络科技有限公司开发,大小为 32.8M,支持多种常见的压缩文件格式,如.zip、.rar、.7z 等。 它对安卓操作系统的特性和用户习惯进行了优化&#xf…

亮数据——助力全球数据抓取的高效代理平台

目录 实际案例:利用代理服务抓取企业信息完整代码运行结果 亮数据的技术优势与应用场景产品更新:简化注册流程与智能助手升级立即注册,开启您的数据抓取之旅! 在如今的大数据时代,企业决策越来越依赖于数据分析&#x…

设计模式之责任链模式(Chain Of Responsibility)

一、责任链模式介绍 1、责任链模式介绍 职责链模式(chain of responsibility pattern) 定义: 避免将一个请求的发送者与接收者耦合在 一起,让多个对象都有机会处理请求。将接收请求的对象连接成一条链,并且沿着这条链 传递请求,直到有一个对…

【月之暗面kimi-注册/登录安全分析报告】

前言 由于网站注册入口容易被机器执行自动化程序攻击,存在如下风险: 暴力破解密码,造成用户信息泄露,不符合国家等级保护的要求。短信盗刷带来的拒绝服务风险 ,造成用户无法登陆、注册,大量收到垃圾短信的…

低代码牵手 AI 接口:开启智能化开发新征程

一、低代码与 AI 接口的结合趋势 低代码开发平台近年来在软件开发领域迅速崛起。随着企业数字化转型的需求不断增长,低代码开发平台以其快速构建应用程序的优势,满足了企业对高效开发的需求。例如,启效云低代码平台通过范式化和高颗粒度的可配…

安培环路定理

回忆 静电场中的回路定理:→静电场是保守场 安培环路定理 1、圆形回路包围无限长载流直导线 (1)回路逆时针 (2)回路顺时针 规定: 回路正向由右手螺旋定则判断(根据回路绕行方向,…

IDEA 2024.3正式版发布,速览新功能!

0 前言 IntelliJ IDEA 2024.3 引入了一系列可以提升您的开发体验的强大新功能。 IDE 现在提供代码逻辑结构的表示,简化了 Kubernetes 应用程序的调试体验,引入了集群范围的 Kubernetes 日志访问。 1 关键亮点 1.1 Structure工具窗口中的 Logical代码结…

LabVIEW 实现 find_nearest_neighbors 功能(二维平面上的最近邻查找)

1. 背景介绍 在数据分析和图像处理领域,经常需要查找给定点的最近邻居点。在LabVIEW中,计算二维平面上多个点之间的欧氏距离,并返回距离最近的几个点是一种常见操作。find_nearest_neighbors 函数用于实现这个功能。 2. 欧氏距离计算 在二维…