麻省理工人工智能实验室新研究!有远见的机器学习方法:能预知未来行为的AI智能体

news2024/11/26 1:40:15

原创/文 BFT机器人

 

近日,麻省理工学院的研究人员开发出一种新技术,让AI智能体能够思考更远的未来,寻找更合适的合作与竞争长期解决方案。

想象一个游戏规则:两支足球队在球场上PK,玩家们可以选择相互合作合作来实现目标,也可以选择与其他玩家们竞争,以取得游戏胜利。

创建一个可以像人类一样高效地学习竞争和合作的AI智能体并不容易,其中具有挑战性的关键难点是:让 AI 智能体能够预测其他智能体的未来行为。由于这个问题的复杂性,目前的方法机器学习方法往往是短视的;AI智能体只能猜测队友或对手接下来的几个动作。这并不利于他们的长期发展。

为解决这一难点,来自麻省理工学院、MIT-IBM Watson人工智能实验室,和其他实验室的研究人员开发了一种新方法,为AI智能体提供了一个更长远的学习视角。他们的机器学习框架能使AI智能体,不仅仅能够考虑其他合作或竞争的智能体接下来的几个动作,而是考虑到他们在更长远时间范围内的更多行为。然后,AI智能体会根据预测到的结果,相应地调整自身的行为,从而影响其他智能体接下来的行为,并得出最优的长期解决方案。

这个框架可以用于自动无人机在茂密的森林中寻找迷路的徒步旅行者,或用于自动驾驶汽车预测高速公路上行驶的其他车辆的动线来保护乘客的安全。

“当 AI 智能体进行合作或竞争时,最重要的是它们的行为在未来的某个时刻融合。在这一过程中有很多暂时性的行为,从长远来看并不重要。“我们真正关心的是如何达到这种融合,现在正好有一种数学方法可以实现。”麻省理工学院信息与决策系统实验室 (LIDS) 研究生、一篇描述该框架论文的主要作者Dong-Ki Kim说。

该论文的高级作者是 Jonathan P. How,他是 Richard C. Maclaurin 航空航天学教授,也是MIT-IBM Watson人工智能实验室的成员。论文的共同作者包括MIT-IBM Watson人工智能实验室、IBM 研究院、Mila-Quebec人工智能研究所和牛津大学的其他人。这项研究将在神经信息处理系统会议上发表。

 

更多人工智能体,更多问题

研究人员专注于一个称为多智能体强化学习的问题。强化学习是机器学习的一种形式,其中AI 智能体通过反复试验和试错来进行学习。研究人员会对其帮助实现其目标的“良好”行为给予奖励,AI智能体会调整其行为以获得最大化奖励,直到它最终成为这项任务的专家。

但是当许多合作或竞争的AI智能体同时学习时,事情就会变得越来越复杂。随着AI智能体考虑到更多其他同伴的未来行为,以及他们自己的行为如何影响他人,这个问题的有效解决就需要更多的计算能力。这就是为什么其他方法只关注短期,而忽视未来的原因。

AI真的很想预测游戏的结局,但他们不知道游戏什么时候结束。他们需要思考如何不断地调整自己的行为,以便在未来某个遥远的时间点获胜。“我们的论文实质上提出了一个新目标,使 AI 能够思考无穷大” Kim说。

但是,由于不可能在算法中插入无穷大,研究人员设计了他们的系统,使AI智能体专注于他们的行为,将与其他AI智能体的行为趋同的一个未来点,称为平衡点。一个平衡点决定了AI智能体的长期表现,多智能体场景中可以存在多个平衡点。因此,一个有效的AI智能体会积极影响其他智能体的未来行为,从而使他们从智能体的角度来看达到一个理想的平衡点。如果所有智能体都相互影响,他们就会汇聚成一个一般的概念,研究人员称之为“主动均衡”。

他们开发的机器学习框架被称为 FURTHER(代表通过平均奖励充分加强主动影响),使智能体能够学习如何在与其他智能体交互时调整自己的行为,以实现这种主动平衡。

FURTHER进一步使用两个机器学习模块来做到这一点。第一个是推理模块,它使智能体能够仅根据其他先前的行为,来猜测其他智能体的未来行为以及他们使用的学习算法。这一信息被输入强化学习模块,智能体利用该模块调整其行为,并以最大化的回报方式来影响其他智能体。

“挑战在于思考无限。我们必须使用许多不同的数学工具来实现这一点,并做出一些假设,才能使其在实践中发挥作用,”Kim说。

胜利在远方

他们在几种不同的场景中用他们的方法,针对其他多智能体强化学习框架进行了测试,包括一对机器人的相扑式比赛,和两个 25智能体团队的较量。在这两种情况下,使用 FURTHER 的 AI智能体能更大概率赢得比赛。

Kim解释说,由于他们的方法是去中心化的,这意味着AI智能体学会了独立赢得比赛,因此它也比其他需要中央计算机控制AI智能体的方法更具可扩展性。

研究人员使用游戏来测试他们的方法,但FURTHER可以用来解决任何类型的多智能体问题。例如,在许多相互作用的权利具有随时间变化的行为和利益的情况下, 经济学家可以应用它来制定合理的政策。


 

本文为原创文章,版权归BFT机器人所有,如需转载请与我们联系。若您对该文章内容有任何疑问,请与我们联系,将及时回应。
 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/68446.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[附源码]Python计算机毕业设计Django学生宿舍管理系统

项目运行 环境配置: Pychram社区版 python3.7.7 Mysql5.7 HBuilderXlist pipNavicat11Djangonodejs。 项目技术: django python Vue 等等组成,B/S模式 pychram管理等等。 环境需要 1.运行环境:最好是python3.7.7,…

web前端期末大作业:云南旅游网页主题网站设计——云南城市旅游5页HTML+CSS+JavaScript

👨‍🎓静态网站的编写主要是用 HTML DⅣV CSSJS等来完成页面的排版设计👩‍🎓,一般的网页作业需要融入以下知识点:div布局、浮动定位、高级css、表格、表单及验证、js轮播图、音频视频Fash的应用、uli、下拉…

c + linux + cmake + arm + MQTT

先给你们看个最终代码结构吧,因为我改过的代码会加密,所以我只能放一部分源码,另外一部分源码我会直接贴在博客,具体使用我会在博客里面说明! 1.MQTTPacket源码库(MQTTPacket源码地址) 2.MQTTClient.c /*********************************************************************…

Linux中线程池的制作

一.介绍 1.1概念 一种线程使用模式。线程过多会带来调度开销,进而影响缓存局部性和整体性能。线程池维护着多个线程,等待着监督管理者分配可并发执行的任务。这避免了在处理短时间任务时创建与销毁线程的代价。线程池不仅能够保证内核的充分利用&#x…

如何从github上克隆库、跑库

第一步:在Github上找到想要的库,以YOLOv3项目为例。 第二步:拷贝这个库到自己的电脑上,下载到本地。 方法一:在GitHub上,Code -> Download ZIP(有的时候会有一些问题,不建议&…

DBW*的trace文件过大的bug

问题描述: 近期某现场发现trace目录下的dbw*文件达到了大几G的大小导致/oracle目录占用率突增,删除这些trace文件,几天后又重新生成较大的dbw*的trace 11G Dec 4 10:38 rb_dbw0_2086848.trc 3.6G Dec 4 10:38 rb_dbw1_2086852.trc 4.4G De…

前端工程师常考手写面试题指南

实现 add(1)(2)(3) 函数柯里化概念: 柯里化(Currying)是把接受多个参数的函数转变为接受一个单一参数的函数,并且返回接受余下的参数且返回结果的新函数的技术。 1)粗暴版 function add (a) { return function (b) …

码云线上误删主项目文件夹的恢复

码云线上误删主项目文件夹的恢复前言描述解决办法解决问题前言描述 本来某个项目即将上线,然后同事不知道怎么的,直接打开了自己的码云,在网站上把主项目目录删除了。。。。是的,删除了!!!&…

职场生涯亮红灯要注意这些

很多时候,当事业变红的时候,很多年轻人还在傻傻地工作。他们做的事情越多,在不被领导看重的情况下,就越不会得到领导的重用。在关心下属的时候,会在无形中释放出一些不好的信号,这是一种被领导抛弃的行为。…

winform 处理tabcontrol控件,隐藏顶部的tab标签,及tabcontrol的边框线

处理tabcontrol控件,隐藏顶部的tab标签,及tabcontrol的边框线处理tabcontrol控件,隐藏顶部的tab标签,及tabcontrol的边框线隐藏顶部的tab标签隐藏边框线运行效果图处理tabcontrol控件,隐藏顶部的tab标签,及…

智能电销机器人《各版本机器人部署》

科技在进步,时代在发展,越来越多人工智能产品出现在我们的生活中,从各种工业机器人到智能家居产品,人工智能在越来越多的行业出现,代替人们做重复枯燥的工作。在企业中出现最多的是电销机器人,并逐渐被越来…

【面试宝典】Mysql面试题大全

mysql面试题大全1、数据库存储引擎2、InnoDB(B树)3、TokuDB( Fractal Tree-节点带数据)4、MyIASM5、Memory6、InnoDB与MyISAM的区别7、索引8、常见索引原则有9、数据库的三范式是什么10、第一范式(1st NF - 列都是不可再分)11、第二范式(2nd NF- 每个表只描述一件事情)12、第三…

MemoryAnalyzer分析线上OOM异常

本文档记录工作中发生的一次OOM异常分析 最近线上环境频繁出现OOM异常,导致应用服务器宕机,之前有观察过最近的程序更新,猜测定位到最近的一个接口上,之前发现问题都是打印堆栈信息排查,但是这次发现堆栈信息并不能有…

lc刷题总结(二叉树第一次)

前中后序的递归遍历 lc144 94 145 class Solution { public:void travel(TreeNode * cur,vector<int>& vec){if(curnullptr){return;}travel(cur->left, vec);travel(cur->right, vec);vec.push_back(cur->val);}vector<int> postorderTraversal(Tre…

视频点播小程序毕业设计,视频点播系统设计与实现,微信小程序毕业设计论文怎么写毕设源码开题报告需求分析怎么做

项目背景和意义 目的&#xff1a;本课题主要目标是设计并能够实现一个基于微信小程序视频点播系统&#xff0c;前台用户使用小程序&#xff0c;后台管理使用基java&#xff08;springboot框架&#xff09;msyql8数据库的B/S架构&#xff1b;通过后台添加课程信息、视频信息等&a…

Spring Cloud(十五):微服务自动化部署 DevOps CI/CD、Maven打包、ELK日志采集

DevOps CI/CD Gitlab(免费版和收费版)Jenkins基于GitLabJenkins快速实现CI\CD 后端项目打包以及部署方式 spring-boot-maven-pluginmaven-dependency-pluginmaven 官网插件maven-jar-plugin上传jar包到maven私服 ELK 日志采集 使用FileBeatLogstashES实现分布式日志收集使用 ma…

使用握手信号实现跨时钟域数据传输(verilog)

大家好&#xff0c;最近汇总了2021年oppo哲库招聘手撕代码题目&#xff0c;本文章一共含有以下几个题目&#xff1a; 一&#xff0c;使用握手信号实现跨时钟域数据传输&#xff08;verilog&#xff09; 二&#xff0c;自动售卖机&#xff08;verilog&#xff09; 三&#xf…

Jenkins执行shell脚本报错:bash: kubectl: command not found

问题描述 搭建好Jenkins之后&#xff0c;通过shell脚本构建k8s应用&#xff0c;但是脚本报错&#xff1a; bash: kubectl: command not found网上找了很多解决办法都不正确&#xff0c;并不适用于我的问题。 先说明&#xff0c;我的Jenkins和k8s各自独立的&#xff0c;不在同…

如何实现自有App上的小程序第三方微信授权登陆?

对于微信小程序来说&#xff0c;有 OpenID 或 UnionID 作为唯一标识&#xff0c;微信授权登陆小程序账号是很容易实现的&#xff0c;但对于其他应用上的小程序来说&#xff08;如支付宝、百度等&#xff09;&#xff0c;打通该登陆方式是比较麻烦的。 之前在FinClip开发了小程…

OPC Expert 最新版 Crack-2022-12-05

使用 OPC Expert 进行故障排除只是开始&#xff01;像专业人士一样解决您的 OPC 和 DCOM 连接问题&#xff01; 快速修复 OPC 和 DCOM 错误&#xff1a;使用 OPC Expert&#xff0c;您无需任何经验即可解决和修复 OPC 连接问题。OPC Expert 为您完成繁重的工作&#xff0c;以快…