【RLChina2023】CCF 苏州 记录

news2025/1/13 3:36:36

目录

  • RLChina介绍
  • 主旨报告
  • 专题报告
    • 智能体学习理论(专题一)
    • 智能体决策与规划(专题二)
    • 智能体框架、体系结构与训练系统(专题六)
    • 基于大语言模型的具身智能体与机器人研究 (专题八)
  • 教学报告——强化学习入门
  • 特别论坛——智能体和多智能体艺术的探索
  • 会议照片

RLChina介绍

在这里插入图片描述

RLChina 2023 大会 11 月 24 日在苏州 CCF 业务总部召开,并于 25 日圆满结束。

近年来,大型语言模型(LLM)与智能体 (AI Agent) 的紧密结合逐渐成为人工智能领域的新研究热点和应用焦点。此次大会旨在邀请来自国内外的智能体研究领军人物,共同探讨智能体学习的前沿理论、大模型在智能体领域的应用、智能体的结构设计、思维链路、决策机制、价值对齐以及多智能体之间的博弈与合作等诸多核心议题。

会议为期三天,共设置主旨报告3场;专题报告9场;教学报告4场;特别论坛1场。由于时间限制,许多报告场次都是并行进行的。笔者根据自己兴趣选择了几场报告参加,摘录比较笼统,许多记录基于演讲者口头汇报,细节展示有限,还望理解。

主旨报告

Liu-Qun 刘群 : LLM的自我改进和自我进化

Model Training Data Size
GPT-3(OpenAl,2020.5) 500 Bilion tokens
Palm (Google,2022.4) 780 Billion tokens
Chinchilla (Deepmind) 1.4 Trilion tokens
Llama (Meta) 1.5 Trillion tokens
Llama2 (Meta) 2 Trillion tokens
GPT-4 (OpenAl) 13 Trilion tokens (text·2+code·4) + 2 Trillion tokens (image)

大模型往后的训练数据量只会越来越大,但人类已有的知识是有限的,这就有一个问题:Will we run out of data ? 事实上,在生成模型提出以后,这个问题就得到了缓解。

SELF: Language-Driven Self-Evolution for Large Language Model
LLM 拥有自我批判(self-critiquing)的能力,并且该能力与模型体量呈正相关,模型越大,它拥有的自我批判能力越强,自我批判产生的提升也越明显。
作者提出两阶段学习过程:1、元技能学习阶段;2、自我进化学习阶段
在这里插入图片描述

Aligning Large Language Models with Human: A Survey
大模型训练的价值观与人类对齐

Gaining Wisdom from Setbacks: Aligning Large Language Models via Mistake Analysis
利用反例:人可以从错误中汲取教训,那么机器可以吗
Discrimination is easier than generation !
在这里插入图片描述
一个攻防实验,机器能否在人的指示下做出违背基本伦理的动作?
通过学习反例可以获得这种能力。


Deng-XiaoTie 邓小铁 : On Provable Bound of Nash Equilibrium Approximtor

AI in Math以一种建设性的方式处理数学,使推理变得自动化,不那么费力,也不容易出错。对于算法来说,问题变成了如何对特定问题进行自动化分析。这项工作首次为理论计算机科学中一个得到充分研究的问题提供了一种自动逼近分析方法:计算两人博弈中的近似纳什均衡(Approximate Nash Equilibria)。
The Search-and-Mix Paradigm in Approximate Nash Equilibrium Algorithms
目前最好的成果是得到 33% 近似的 Nash 均衡
在这里插入图片描述Is Nash Equilibrium Approximator Learnable?
Are Equivariant Equilibrium Approximators Beneficial?

上述两篇文章从假设博弈矩阵服从一个分布出发,探讨纳什均衡的学习力和等纳什的有效性。
博弈论的基本原理是:在双方信息互相了解的情况下,我知道你,你知道我知道你…由此无限套娃,博弈层次会收敛到一个结果矩阵上。
但如果信息是不对称的,那么博弈的层次有限。对于优势方可以快速做出对自己有利的决策。


An-Bo 安波 :Towards Foundation Agents: Autonomous Agents, AI Agents, and Agents society

推销了一波 AAMAS ,谷歌一个比较有代表性的评论,就是领域内 most influential 的含金量罢了。在这里插入图片描述主要研究领域

  • 多智能体协调与规划
  • 分布式约束满足与优化
  • 算法博弈理论
  • 多智能体学习
  • 分布式机器学习
  • 逻辑、仿真、agent-oriented programming等

应用

  • 机器人,互联网经济,安全,可持续性,分布式系统,游戏

AI agent 正在成为一个新兴领域

工业界 学术界 框架 评估
OpenAI GPTs SayCan Reasoning World of bits
Microsoft Copilot Code as policies Planning Mind2Web
Adept ACT-1 ReAct Grounding WebArena
AutoGPT Generative agents Memory AitW
Langchain Voyager Tool use AgentBench
Llamalndex Eureka Reflection RT-X

Classifying ambiguous identities in hidden‑role Stochastic games with multi‑agent reinforcement learning

在这里插入图片描述
在这里插入图片描述
由人类 & 特殊AI agents & Foundation agents 组成的 Agent Society。


专题报告

智能体学习理论(专题一)

Wang-LiWei 王立威 : Chain of Thought (CoT) 大模型推理的关键技术

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
在这里插入图片描述
Self-consistency improves chain of thought reasoning in language models

在这里插入图片描述

由于大多数 LLMs 都遵循 autoregressive 的结构范式,即输出结果的 token 是顺序产生的,并且加在已生成的 Sequence 后作为再输入。从架构层面解释了为什么 CoT prompt 所带来的提升这么明显。作者从理论角度对CoT进行解释,并在两个数学领域(四则运算、线性方程组)展开探讨。

Towards Revealing the Mystery behind Chain of Thought: A Theoretical Perspective


Yang Yuan 袁洋 : On the Power of Foundation Models

On the Power of Foundation Models

Yuan 提出一个观点:Intelligence is Positioning.

预训练算法是在学习一个类别中的态射(形态)

  • 对比学习 : 相似性
  • Masked modeling : Masked对象 -> 完整对象
  • language model: 句子 -> next 句子

Wang-Jun 汪军 : On Physical foundations of AI Agents

学习是通过已知经验改变行为的过程。
AI Agent 的定义应该取决于其所处环境。

Agent 与 Maxwell’s Demon(Maxwell on Heat and Statistical Mechanics)
麦克斯韦妖是麦克斯韦在19世纪70年代提出的一个概念,它显然可以推翻热力学第二定律。被推翻的定律就不再是定律,因此,魔鬼的概念似乎对物理学的基本理解产生了怀疑,而物理学是一个强大的概念。恶魔(麦克斯韦称其为“agent”;威廉·汤姆森将其命名为“demon”)在一个被隔板隔开的气体盒子之间开了一个活板门,监视快速移动的分子,让它们进入一边,但保留慢速移动的分子。他也可以反过来做。例如,过了一段时间,一半的气体变热,一半变冷,而不消耗能量。事实上,现在我们可以做一些工作来恢复热平衡,但只要有这样一个恶魔,就可以提取无限的能量。

在这里插入图片描述

Demon 的另一个可能的动作是,他可以观察分子,只有当分子从右边接近陷阱门时才打开门。这将导致所有的分子最终都在左边。同样,此设置可用于运行引擎。这一次,人们可以在隔板中放置一个活塞,让气体流入活塞腔,从而推动一根杆,产生有用的机械功。这种假想的情况似乎与热力学第二定律相矛盾。为了解释这个悖论,科学家们指出,要实现这种可能性,Demon 仍然需要使用能量来观察分子(例如以光子的形式)。而 Demon 本身(加上陷阱门机制)会在移动陷阱门时从气体中获得熵。因此,系统的总熵仍然增加。Demon 试图从系统中创造比原来更多的有用能量。同样地,他减少了系统的随机性(通过按照一定的规则排列分子),从而减少了熵。目前还没有发现这种违反热力学第二定律的现象。更少的有用能量意味着更多的随机性和熵。

对于一个存在智能体的环境,在不施加任何功的情况下,可以降低系统的总熵。


Laurent Lafforgue : Reality and its representations: a mathematical model

在这里插入图片描述
劳老师数学造诣过高,个人水平有限,实在没听懂在讲啥,对不起。


Rasul Tutunov : Why Can Large Language Models Generate Correct Chain-of-Thoughts

Why Can Large Language Models Generate Correct Chain-of-Thoughts?

在这里插入图片描述与CoT生成相容的自然语言文本生成的概率图形模型。

在这里插入图片描述
在这里插入图片描述


Olivia Caramello : Syntactic Learning Via Topos Theory

On morphisms of relative toposes


智能体决策与规划(专题二)

Zhang-zongchang 章宗长: 驾驭信息:智能决策Agent的设计及挑战

DIKW金字塔理论
在这里插入图片描述

  • D:数据,构成信息和知识的原始材料
  • I:信息,数据所包含的意义,是数据描述的不确定性减少
    • 信息熵 H = − ∑ i = 1 N p i ⋅ l o g p i H=-\sum_{i=1}^{N}p_i\cdot logp_i H=i=1Npilogp

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1259688.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

什么是迁移学习

1 迁移学习概述 迁移学习(Transfer Learning)是机器学习中的一种方法,它允许模型将从一个任务中学到的知识应用到另一个相关的任务中。这种方法在数据稀缺的情况下尤为有用,因为它减少了对大量标记数据的需求。迁移学习已成为深度…

Failed to load resource: the server responded with a status of 404 ()

路径问题: 路径省略前面的http://localhost:8080/ 就行了。

OSG粒子系统与阴影 - ​​​​​​​阴影shadow(7)

OSG阴影 在虚拟现实仿真中,为了真实地模拟自然效果,阴影效果是不可缺少的,它对一个场景的真实性是非常重要的。在游戏或仿真中,一个高效的阴影往往能够提供非常强悍的视觉真实感。 osgShadow库 在OSG中专门定义了一个名字空间osg…

ShowWeb-浏览器插件:可视化元素路径查看器

ShowWeb👻:可视化元素路径查看器适配【谷歌】【Edge】 每次写前端最烦的就是一层一层找元素,又臭又长。所以我开发了一个小插件来缓解这个问题,这个插件可以输出整个路径,并把最后元素的内容输出方便查看,…

docker基础快速入门:基础命令、网络、docker compose工具

docker基础命令快速入门 目录 docker基本命令docker 网络docker compose Docker介绍 Docker是一个虚拟环境容器,可以将你的开发环境、代码、配置文件等一并打包到这个容器中,并发布和应用到任意平台中。 Docker的三个概念 镜像 Docker镜像是一个特…

Java飞翔的小鸟

一、项目分析 创建一个窗口和画板,把画板放到窗口上,在画板上绘画图片 (2)让小鸟在画面中动起来,可以上下飞 (3)让地面和管道动起来 (4)碰撞检测 (5&#xf…

2023信息技术应用创新论坛|云轴科技ZStack分享云原生超融合在智慧交通的应用

11月25日,2023信息技术应用创新论坛在常州开幕。江苏省工业和信息化厅副厅长池宇、中国电子工业标准化技术协会理事长胡燕、常州市常务副市长李林等领导出席论坛并致辞。中国工程院院士郑纬民出席并作主题报告。来自产学研用金等各界的千余名代表参加本次论坛。 在“…

UE5 - 虚幻引擎各模块流程图

来自虚幻官方的一些资料,分享一下; 一些模块的流程图,比如动画模块: 或角色相关流程: 由于图片比较大,上传到了网络,可自取: 链接:https://pan.baidu.com/s/1BQ2KiuP08c…

MATLAB的rvctools工具箱熟悉运动学【机械臂机器人示例】

1、rvctools下载安装 rvctools下载地址:rvctools下载 截图如下,点击红色箭头指示的“Download Shared Folder” 即可下载 下载之后进行解压,解压到D:\MATLAB\toolbox这个工具箱目录,这个安装路径根据自己的情况来选择&#xff0c…

【华为OD】统一考试C卷真题 100%通过: 传递悄悄话 二叉树遍历 C/C++实现

目录 题目描述: 示例1 解题思路: 代码实现: 题目描述: 给定一个二叉树,每个节点上站着一个人,节点数字表示父节点到该节点传递悄悄话需要花费的时间。 初始时,根节点所在位置的人有一个悄悄…

中通快递查询入口,根据物流更新量筛选出需要的单号记录

批量中通快递单号的物流信息,根据物流更新量将需要的单号记录筛选出来。 所需工具: 一个【快递批量查询高手】软件 中通快递单号若干 操作步骤: 步骤1:运行【快递批量查询高手】软件,并登录 步骤2:点击主…

代码随想录算法训练营第六十天|84. 柱状图中最大的矩形

84. 柱状图中最大的矩形 给定 n 个非负整数,用来表示柱状图中各个柱子的高度。每个柱子彼此相邻,且宽度为 1 。 求在该柱状图中,能够勾勒出来的矩形的最大面积。 示例 1: 输入:heights [2,1,5,6,2,3] 输出:10 解释…

PT里如何针对某个模块设置false path

我正在「拾陆楼」和朋友们讨论有趣的话题,你⼀起来吧? 拾陆楼知识星球入口 如题,这个问题实际上讲的是get_cells的用法,我们要抓取某个模块内的全部cell,在ICC2里可以get_flat_cells xx/xx/module_name*,但…

Linux 基本语句_12_信号

用途: 信号可以直接进行用户进程与内核进程之间的交互 特性: 对于一个进程,其可以注册或者不注册信号,不注册的信号,进程接受后会按默认功能处理,对于注册后的信号,进程会按自定义处理 自定义…

Mysql之局域网内不同ip互登陆mysql

1 navicat修改mysql表中user> host改为% 2 重新加载mysql服务 3登陆mysql -h 192.168.x.xxx(计算机ip) -P 3306 -uroot -p123456(密码)

AI大模型相关产品的数据飞轮如何建设?

1、背景 数据飞轮,是今年大模型带火的一个典型词汇,通过客户在应用程序中输入的提示词这样的数据反馈,使大模型快速迭代。简单说:好的产品 -> 更多的用户数据 -> 更好的模型质量 -> 更好的产品就进入了一个正向循环。一…

单片机学习10——独立按键

独立按键输入检测&#xff1a; #include<reg52.h>sbit LED1P1^0; sbit KEY1P3^4;void main() {KEY11;while(1){if(KEY10) //KEY1按下{LED10; //LED1被点亮}else{LED11;}} } 按键 #include<reg52.h>#define uchar unsigned char #define uint unsigned intsbit …

linux下的工具---vim

一、了解vim 1、vim是linux的开发工具 2、vi/vim的区别简单点来说&#xff0c;它们都是多模式编辑器&#xff0c;不同的是vim是vi的升级版本&#xff0c;它不仅兼容vi的所有指令&#xff0c;而且还有一些新的特性在里面。例如语法加亮&#xff0c;可视化操作不仅可以在终端运行…

苍穹外卖项目笔记(5)——Redis

1 入门 1.1 Redis 简介 Redis 是一个基于内存的 key-value 结构数据库&#xff0c;官网链接&#xff08;中文&#xff09;&#xff1a;https://www.redis.net.cn 特点&#xff1a; 基于内存存储&#xff0c;读写性能高适合存储热点数据&#xff08;热点商品、资讯、新闻&am…

数据结构与算法编程题31

判断给定二叉树是否是完全二叉树 #define _CRT_SECURE_NO_WARNINGS#include <iostream> using namespace std;typedef char ElemType; #define ERROR 0 #define OK 1 #define Maxsize 100 #define STR_SIZE 1024typedef struct BiTNode {ElemType data;BiTNode* lchild, …