本篇内容节选自今年初我撰写的那篇10万的文章《融合RL与LLM思想,探寻世界模型以迈向AGI》,其观点也是文章中核心中的核心。
想进一步完整阅读的小伙伴可关注评论,节选内容如下↓
接上篇..“因此当前无论对先验自回归学习下的LLMs也好还是未来与RL的融合对未知领域的持续探索与利用,本质上都是在tokenize的世界中挖掘并探寻更广泛token间映射的流形distribution和long chain pattern,这里对于模型来说不仅仅局限于特定训练任务下的特征提取、知识压缩甚至隐空间表征,还包括遵循于广阔流形下的延展与扩散。
LLMs在进行pre training时对数据的pattern探索所面临的scaling law相比这个世界上更加丰满而庞杂的pattern chain来说也许并不算什么,因LLMs自身自回归(AR)的语言模型在尝试通过学习全人类历史数据做pre training时探寻的更多是那些简单的单跳映射pattern,可以形象的想象为碎片化流形分布(当然这也并没有说明这些人类所沉淀下来的历史数据都仅仅暗含一些简单pattern,更多原因是取决于next token prediction的自监督模式以及所考虑的高昂的数据标注成本没有将其中所隐含深刻内涵的long chain pattern所挖掘出来)。
而对比alignment阶段来说则是建立了某种更广泛的tokenize世界的探索和对齐,目的是挖掘更广阔的pattern chain,因此我不知IIya所提及的超级对齐以及杨植麟所认为的alignment的scaling law是不是也在隐含预示着这些,甚至关于Q*很多的传言和猜想..
而RL似乎提供了一种可行的long chain模拟+探索模式,通过self-play和奖励反馈,系统性的逐步探寻并建立tokenize世界中隐含的未发掘pattern chain,这种chain可以理解为通常我们所提及的CoT或系统·Ⅱ下的long reasoning.
当然,这种在tokenize世界中的pattern泛化映射,某种程度上来说也是对现实物理世界的一种形式化模拟,在某些复杂领域与诸如数学形式化证明、物理规律推演,化学方程计算甚至是流体力学模拟所体现出的内涵表征如出一辙,即是用另一种形式化符号加以表征。
因此,我认为,未来的LLMs+RL+...也许能够最终构建起通往AGI之门路径之一。
...”
#人工智能#AGI#LLM#人工智能艺术#AIGC#世界模型#流形#流形分布#泛化#表征