「融合RL与LLM思想,探寻世界模型以迈向AGI」这篇文章也探究了思维系统的两种推理模式:系统Ⅰ(快思考)和系统Ⅱ(慢思考)在推理过程的本质普遍性及表象差异性,以及尝试挖掘快·慢思考是否与两类学习方法(LLM的AR/RL的r2Q)存在着某种形式关联?Agent在其中的内涵与定位是什么?
在文章中,关于system1·快思考与system2·慢思考上,阐释了两种思考模式或是推理模式对于不管是人类大脑还是机器大脑,在某种底层逻辑上本质是相同的,如不管是在底层所采的模型结构或数学变换在不同计算域的训练拟合、还是不同激活函数最终的损失目标对齐上,甚至对模型的训练或采用不同任务类型与训练范式上所呈现的底层tokenize数据流形分布表象差异和本质统一上,均存在着本质上的同构(这里的同构取自群论中两个群在底层数学运算结构上所具有的同构性)。而这里的LLM与RL即是所对应的上述两种不同类型的模型算法与任务训练范式。
Agent则可看成为某个复杂·认知流形中的衔接上下游不同流行分布的解析者、转换者、代理者、信号传递与激活者、探索与利用的平衡者...
感兴趣的大伙可以翻看阅读我的历史专栏或置顶🔝文章/笔记,或baidu一下自寻出处:)网盘下载
文章标题:「融合RL与LLM思想,探寻世界模型以迈向AGI」