阅读提示:
本篇系列内容的是建立于自己过去一年在以LLM为代表的AIGC快速发展浪潮中结合学术界与产业界创新与进展的一些碎片化思考并记录最终沉淀完成,在内容上,与不久前刚刚完稿的那篇10万字文章「融合RL与LLM思想,探寻世界模型以迈向AGI」间有着非常紧密的联系,可以说,这篇长篇文章中的很多内容也是基于这些碎片化的思考与沉淀,当然也正是这样的一个个碎片化的、看似玄幻大胆、step by step的探索过程,才促成我最终完成那篇看上去并不是特别易读的文章。
因此,这个系列文章将以笔记的形式,去重新回顾体会一下自己去年的这些碎片化思考与探索历程,并希望将这些碎片化的、step by step探索式的思考与历程分享给大伙。一方面去回顾、修正自己之前的思考和观点,一方面作为那篇长文阅读的补充参考,并在其中的内容中标注出与其相关的阅读指针与提示。
在内容记录形式上,因为一年前自己的思考历程按时间顺序记录呈现出一定的主题割裂与内容的碎片化,我将按照时间线顺序向大家呈现一年前自己的想法,内容上可能进行一些合并和整合但会尽量保持原文内容不变。
另外大伙需特别注意的是,因为保持了原始记录时内容的不变(仅修改笔记上的笔误与错字),一年前的想法跟当前的认知可能会有较大的差异和改变,也会存在一些不成熟观点,千万不要被我当时片面的观点所误导。主要是想给大家抛出一些过去技术进展当中存在的一些问题和关键点,当然坦率地说,自己确实也在回顾中针对某些想法有了新的思路!如果大家针对我过去或刚完稿的那篇文章有更有建设性的意见甚至批评指正那就更好了!
最后,为了不让这个系列笔记显得不那么单调,在每一篇内容中会附上一些过去自己经历的有趣的生活照片或的图片,有吃喝玩乐,有学术美图,也有搞笑娱乐。
「2023/06/12 · 在SystemⅡ未知之境之中徘徊」
背景提要 ↓
基于上一篇“探索复杂推理的未知之境”,本篇笔记将在system2的未知之境中继续徘徊、探索,并对一些本质问题继续通过慢思考的模式来尝试进行思维上的扩散与延展,并期待在其中过滤并把握住一些本质洞察。同时,大家可以结合本次记录和思考的内容,可以去阅读那篇「融合RL与LLM思想,探寻世界模型以迈向AGI」文章的中篇第一小节「system2·慢思考本质阐释」,我想将会有一些不一样的体会吧,这也是这个系列分享目的之一。
记录正文 ↓
前日针对整个E2E下的system2涉及到的深度推理模式与对应的神经网络中的神经元信号激活形式两者间的等效性进行了大胆猜想与尝试,在这一过程中,我们看到针对某一模式寻找对应的另一种抽象结构上的形式化映射匹配,其难度可想而知,且现在似乎也没有相关完备的理论去支撑印证它,而对于复杂的长链推理本身而言,对于我们当下的探索来说仍有许多未解之谜:
① 上接前文,这种E2E system2长链思维模式是否对于我们所身处的真实世界来说是一种真实存在的客观认知规律呢,其反映出的推理链,归纳链,反思链等这些看似决策过程的中间环节是否是得出答案(因→果)的客观存在的必须一环呢?是否存在其它链式模式或完全的非链式结构(非人类或超越人类现有认知模式)甚至根本不存在这种长链模式的存在呢?而上述这种范长链模式是否可以通过一个完全E2E的的方式通过超大样本,超大多样性的推理任务数据集仅通过输入因和输出的果(不包含中间的推理模式过程)将这种中间的非或超人类推理模式硬拟合到模型参数并通过网络中神经元信号激活的传递中呢?!
如果拿强化学习(如DPO)训练的过程来举例,即仅通过稀疏奖励函数而非稠密奖励函数来完成对于神经网络中多层神经元的目标价值的梯度优化。研究强化学习的大家可能都知道,密集型的过程奖励对模型目标的收敛是有益的,但这种“有益”的意义背后的真实原因可能还未找到一个足矣令人信服的答案。直觉上,这种稠密的过程奖励通过利用某种可行的模式将优化目标进行细粒度切分并融合,即同时将切分后的细粒度目标映射匹配到稠密奖励的过程中来,这一过程也许降低了目标优化过程中采用数学工具或方法的难度,也许是仅仅按照人类的某种特有的先验认知模式来形式性的“简化”这一复杂过程的折中,也许通过这样的形式性“简化”或“取巧”,也会在这一过程中使我们丢失或遗漏一些东西,甚至是导致这一过程复杂度提升的元凶。(回到当前时间节点的额外补充:大家可以试想一下基于CV像素级别建模学习的sora和llm对于原始训练数据的采样并最终学习到物理规律的过程)在这里可以思考一下alpha zero的强化学习过程中的长期稀疏奖励与短期稠密奖励两者间的平衡意义。
② 可否真的可以将长链推理中的规划、步骤分解、反思等过程模式映射为某种模型网络信号激活结构,实现E2E呢?如某一场景下模型通过迭代反思后发现并没有理解问题或基于历史长链推理出现了偏差或矛盾而无法做出生成应答,而模型内部的某隐层信号激活状态又会感知到这种状态,模型内部的神经元信号传递并激活到另一其中隐层状态,从而形式上促进另一种思维模式去继续尝试探索...目前这一部分仍仅停留在猜想假说阶段,后续可能需要结合实验进行持续的探索,但相信最终人类能够通过逐步的探索,最终打开隐藏在模型内部的黑盒。
③【阶段性总结】:感觉我所理解的上述system2的E2E更多是体现在让模型网络中神经元的激活状态与路径(参数控制)最终拟合到人类所擅长的认知长链推理模式中去,实现模型网络结构中参数激活传递的多跳,而COT思想下的autoGPT,HuggingGPT,plugin更多是在推理形式维度上生成单跳(为什么说是推理形式维度:因为在模型网络结构参数中实际上应该是多跳,如物理的多跳,但这种物理的多跳没有涌现出逻辑的多跳)。即推理真正的在模型参数的激活中中涌现出抽象长链推理。
「本篇配图」
这一期的笔记貌似问题很多,看的出来在涉足“未知之境”当中自己的这种迷茫和彷徨,甚至直到当下,其中的部分问题还是悬而未决。
但处于这种“未知之境”中除了带给我迷茫和彷徨之外,也对未知有着越来越强烈的兴奋和期待。
因此本期配图将为大家附上我未曾亲身品尝过并拍照留存的一些美食图片(之前的配图都是来自自己的吃拍照),图片来自昨日好友朋友圈晒的吃拍照,嗯...他也是一位爱吃拍的“美食家”哦~你们能是否吃过或能叫出菜名吗?味道如何?欢迎大家评论区讨论~
「融合RL与LLM思想,探寻世界模型以迈向AGI」内容回顾与再版更新
融合RL与LLM思想,探寻世界模型以迈向AGI「上篇」
融合RL与LLM思想,探寻世界模型以迈向AGI「中/下篇」
融合RL与LLM思想,探寻世界模型以迈向AGI「下篇」
融合RL与LLM思想,探寻世界模型以迈向AGI「总结」
合集PDF版本v6.2已更新,大家可访问百度网盘地址自行下载:
https://pan.baidu.com/s/1dwuviZkL8J7afBhjEQqXqg?pwd=lm51
提取码: lm51
或扫码下载: