使用生成式 AI 模仿人类行为

news2025/1/13 17:29:50
推荐:使用 NSDT场景编辑器 助你快速搭建可编辑的3D应用场景

这项研究被 2023 年学习表征国际会议 (ICLR) 接受,该会议致力于推进通常称为深度学习的人工智能分支。

 

我们的方法概述,提供了文本到图像扩散与观察到行动扩散的并排比较。右侧是测试的不同去噪架构的图表,以及所探索的采样方案的图示。

图 1:我们的方法概述。

扩散模型已成为一类强大的生成式AI模型。它们已被用于生成逼真的图像和短视频、创作音乐和合成语音。它们的用途并不止于此。在我们的新论文《用扩散模型模仿人类行为》中,我们探讨了如何使用它们在交互式环境中模仿人类行为。

此功能在许多应用程序中都很有价值。例如,它可以帮助自动化机器人中的重复操作任务,或者可以用来在视频游戏中创建类似人类的人工智能,这可能会带来令人兴奋的新游戏体验——这是我们团队特别重视的目标。

我们遵循一种称为模仿学习(更具体地说是行为克隆)的机器学习范式。在这种范式中,我们得到了一个数据集,其中包含一个人在环境中行动时看到的观察结果,以及他们采取的行动,我们希望AI代理能够模仿这些观察结果。在交互式环境中,在每个时间步长,观察结果��收到(例如视频游戏的屏幕截图)和操作一个�然后选择(例如鼠标移动)。有了这个许多数据集�的和一个由某个演示者执行的模型�可以尝试学习这种观察到行动的映射,�(�)→一个.我们的方法概述,提供了文本到图像扩散与观察到行动扩散的并排比较。右侧是测试的不同去噪架构的图表,以及所探索的采样方案的图示。

 

 

当操作是连续的时,训练模型来学习此映射会带来一些有趣的挑战。特别是,应该使用什么损失函数?一个简单的选择是均方误差,这通常用于监督回归任务。在交互式环境中,此目标鼓励代理学习数据集中所有行为的平均值

如果应用程序的目标是生成不同的人类行为,则平均值可能不是很有用。毕竟,人类是随机的(他们心血来潮)和多模态生物(不同的人可能会做出不同的决定)。图2描述了多模态时均方误差无法模拟真实动作分布(以黄色标记)的情况。它还包括进行行为克隆时损失函数的其他几种流行选择。

 

这个玩具示例(基于街机爪游戏)展示了一个具有两个连续动作维度的动作空间。它表明,流行的行为克隆损失选择无法捕获真实分布,但扩散模型提供了一个很好的近似。

图 2:这个玩具示例(基于街机爪游戏)展示了一个具有两个连续动作维度的动作空间。这里的演示分布用黄色标记——它既是多模态的,又在动作维度之间具有相关性。扩散模型很好地模仿了数据集中的全部多样性。

理想情况下,我们希望我们的模型能够学习各种人类行为。这就是生成模型提供帮助的地方。扩散模型是一类特定的生成模型,既可以稳定训练,又易于采样。他们在文本到图像领域非常成功,该领域面临着一对多的挑战——单个文本标题可能与多个不同的图像相匹配。

我们的工作将文本到图像扩散模型开发的想法适应了这种观察到行动扩散的新范式。图 1 突出显示了一些差异。一个明显的点是,我们正在生成的对象现在是一个低维动作向量(而不是图像)。这就需要对降噪网络架构进行新的设计。在图像生成中,重型卷积U-Net很流行,但这些不太适用于低维向量。相反,我们创新和测试了图 1 所示的三种不同的架构。

在观察到行动模型中,在发作期间对单个不良动作进行采样可能会使代理偏离正轨,因此我们有动力开发采样方案,以更可靠地返回良好的行动样本(也如图 1 所示)。在文本到图像模型中,这个问题不太严重,因为用户通常可以从多个生成的样本中选择单个图像并忽略任何不良图像。图 3 显示了一个示例,其中用户可能会挑选他们最喜欢的内容,而忽略带有无意义文本的那个。

 

来自必应的文本到图像扩散模型的四个样本,使用提示“人们玩街机爪机的卡通风格图片”。有些样本质量很好,有些包含错误,例如一张图像中的文本是无意义的。

图 3:来自 Bing 的文本到图像扩散模型的四个样本(请注意,这不是我们自己的工作),使用提示“人们玩街机爪机的卡通风格图片”。

我们在两种不同的环境中测试了我们的扩散剂。第一个是模拟厨房环境,这是一个具有挑战性的高维连续控制问题,其中机械臂必须操纵各种物体。演示数据集是从以不同顺序执行各种任务的各种人类那里收集的。因此,数据集中存在丰富的多模态。

我们发现扩散剂在两个方面优于基线。1)他们学习的行为多样性更广泛,更接近人类示范。2)任务完成率(奖励的代理)更好。

下面的视频重点介绍了扩散捕获多模态行为的能力——从相同的初始条件开始,我们推出了扩散剂八次。每次它都会选择要完成的不同任务序列。

测试的第二个环境是现代3D视频游戏Counter-Strike。我们向感兴趣的读者推荐该论文以获取结果。

总之,我们的工作已经证明了如何利用生成建模的最新进展来构建可以在交互式环境中以类似人类的方式行事的代理。我们很高兴能继续探索这个方向——关注这个空间的未来工作。

原文链接:使用生成式 AI 模仿人类行为 (mvrlink.com)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/869787.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【JVM】JVM垃圾收集器

文章目录 什么是JVM垃圾收集器四种垃圾收集器(按类型分)1.串行垃圾收集器(效率低)2.并行垃圾收集器(JDK8默认使用此垃圾回收器)3.CMS(并发)垃圾收集器(只针对老年代垃圾回收的) 什么是JVM垃圾收…

SDR硬件方案

以射频硬件为线索,梳理常见SDR(软件无线电)方案。SDR硬件位于天线和数字信号处理之间,负责把无线电信号数字化,交由主机或者嵌入式系统(FPGA、DSP,MCU)处理。SDR硬件一般包含射频和数…

Python Opencv实践 - 图像缩放

import cv2 as cv import numpy as np import matplotlib.pyplot as pltimg_cat cv.imread("../SampleImages/cat.jpg", cv.IMREAD_COLOR) plt.imshow(img_cat[:,:,::-1])#图像绝对尺寸缩放 #cv.resize(src, dsize[, dst[, fx[, fy[, interpolation]]]]) #指定Size大…

18.3.0:Dynamic Web TWAIN Crack Web 文档扫描 SDK

Dynamic Web TWAIN用于快速部署 Web 应用程序的文档扫描 SDK,文档扫描SDK,,超过 5300 家公司信任 Dynamic Web TWAIN ,因其稳健性和安全性而受到超过 5300 家公司的信赖,Dynamic Web TWAIN 是一款基于浏览器的文档扫描…

微信开发之一键获取标签好友的技术实现

简要描述: 获取标签列表 请求URL: http://域名地址/getContactLabelList 请求方式: POST 请求头Headers: Content-Type:application/jsonAuthorization:login接口返回 参数: 参数名必选…

qtrvsim 使用

qtrvsim 使用 介绍 Qtrvsim 是一个基于 WebAssembly(基于非 js 语言并使得其可以在浏览器中运行)的图形化 RISC-V 微处理器模拟器,给初学者提供了一个实现 RISC-V 架构的渠道。 Developed by the Computer Architectures Education project…

5.2 互联网通信安全

数据参考:CISP官方 目录 一、什么是互联网通信安全二、为什么要关注互联网通信安全三、电子邮件应用安全四、即时通讯应用安全 一、什么是互联网通信安全 1、互联网通信应用的概念 通信的进化史 互联网通信技术(OSI七层模型) 互联网应…

【第二阶段】kotlin的lambda学习

匿名函数lambdm表达式 1.两数相加 fun main() {//匿名函数lambda表达式//两数相加 等价:val addResult:(Int,Int)->String{a,b->"两数相加结果:${ab}"}val addResult{a:Int,b:Int->"两数相加结果${ab}"}println(addResul…

解码Transformer:自注意力机制与编解码器机制详述与代码实现

目录 一、 Transformer的出现背景1.1 技术挑战与先前解决方案的局限性RNN和LSTM卷积神经网络(CNN)在序列处理中的尝试 1.2 自注意力机制的兴起1.3 Transformer的革命性影响 二、自注意力机制2.1 概念和工作原理元素的权重计算加权求和自注意力与传统注意…

没有上司的舞会(树形dp)

思路: (1)每个人有一个开心值,并且人物关系呈树形分布。 (2)我们所求为根部人物及其下属的总开心值,显然存在某种递归关系;注意到要求是不能直系父子同时出现,于是考虑…

数据分析 | 为什么Bagging算法的效果优于单个评估器

1. 回归问题如何降低方差 以随机森林为例,假设随机森林中含有n个弱评估器,由于子样本集的相似性以及使用的是同种模型,因此各模型有近似相等的方差和偏差,因此假设任意弱评估器上输出结果为,方差均为,则随机森林的输出…

PyTorch翻译官网教程-NLP FROM SCRATCH: CLASSIFYING NAMES WITH A CHARACTER-LEVEL RNN

官网链接 NLP From Scratch: Classifying Names with a Character-Level RNN — PyTorch Tutorials 2.0.1cu117 documentation 使用CHARACTER-LEVEL RNN 对名字分类 我们将建立和训练一个基本的字符级递归神经网络(RNN)来分类单词。本教程以及另外两个“from scratch”的自然…

Selenium图片滑块验证码

因为种种原因没能实现愿景的目标,在这里记录一下中间结果,也算是一个收场吧。这篇文章主要是用selenium解决滑块验证码的个别案列。 思路: 用selenium打开浏览器指定网站 将残缺块图片和背景图片下载到本地 对比两张图片的相似地方&#…

openocd调试esp32(通过FT232H)

之前在学习ESP32,其中有一部分课程是学习openocd通过JTAG调试程序的,因为我用的是ESP32-wroom,usb端口没有集成对应的usb转jtag的ft232,查了ESP32相关的资料(JTAG 调试 - ESP32 - — ESP-IDF 编程指南 latest 文档 (es…

【yolov系列:小白yolov7跑数据集建立环境】

首先在github上面获取别人的源码 这个是github的源码包,直接下载解压使用 打开解压后的文件夹应该可以看到这个页面。 进入文件夹的requirements.txt的页面 这篇文章是为了记录自己的环境配置过程,当作笔记使用来看,目前网上各种安装教程都…

微信小程序中键盘弹起输入框自动跳到键盘上方处理

效果展示 键盘未弹起时 键盘弹起后: 实现方式 话就不多说了 我直接贴代码了 原理就是用你点击的输入框的底部 距离顶部的位置 减去屏幕高度除以2,然后设成负值,再将这个值给到最外层相对定位的盒子的top属性,这样就不会出现顶…

linux文件I/O之 fcntl() 函数用法:设置文件的 flags、设置文件锁(记录锁)

头文件和函数声明 #include <unistd.h> #include <fcntl.h> int fcntl(int fd, int cmd, ... /* arg */ ); 函数功能 获取、设置已打开文件的属性 返回值 成功时返回根据 cmd 传递的命令类型的执行结&#xff0c;失败时返回 -1&#xff0c;并设置 errno 为相…

山西电力市场日前价格预测【2023-08-12】

日前价格预测 预测明日&#xff08;2023-08-12&#xff09;山西电力市场全天平均日前电价为330.52元/MWh。其中&#xff0c;最高日前电价为387.00元/MWh&#xff0c;预计出现在19: 45。最低日前电价为278.05元/MWh&#xff0c;预计出现在13: 00。 价差方向预测 1&#xff1a; 实…

【Bert101】最先进的 NLP 模型解释【02/4】

0 什么是伯特&#xff1f; BERT是来自【Bidirectional Encoder Representations from Transformers】变压器的双向编码器表示的缩写&#xff0c;是用于自然语言处理的机器学习&#xff08;ML&#xff09;模型。它由Google AI Language的研究人员于2018年开发&#xff0c;可作为…

最强自动化测试框架Playwright(9)- 下载文件

对于页面下载的每个附件&#xff0c;都会发出 page.on&#xff08;“download”&#xff09; 事件。 下载开始后&#xff0c;将发出下载事件。下载完成后&#xff0c;下载路径将变为可用 所有这些附件都下载到一个临时文件夹中。可以使用事件中的下载对象获取下载 URL、文件系…