探究以泛GPT为代表的预训练自回归next token prediction GenAI(即llm)与Alpha系列为代表的RL,再到Sora为代表的DiT视觉生成领域模型的本质普遍性及表象差异,以及为什么要将其两者或三者联系甚至融合起来看待?本质上是尝试对比采用上述三种模型结构或算法思想对真实世界中拟合的各种认知模式所对应的数据分布或构象的探究 · 而这里的分布或构象的本质包括对真实世界中所蕴含的自然物理规律模式、基于现实抽象的概念模式、抽象的形式化逻辑模式、复杂的个体生物&群体社会行为模式等呈现并映射的多样化流形数据进行模拟或分布表征 - 这部分请参见「中篇」中对于LLM与RL融合章节最后的观点阐释部分。在过程上是运用各种抽象的数学思想搭配变换工具(如拉式变换/傅里叶变换/Z变换/希尔伯特变换等多种数学变换方法实现微分方程→普通多项式代数方程)的求解,即在神经网络中,通过对可微(学习)的激活函数进行梯度拟合近似,如激活函数在网络中被参数化为多项式、样条化、sigmoid线性单元或神经网络等...
因此,对于不同领域世界中所呈现并表示的数据流形分布在数据维度、模态以及流形轨迹的多样化上,促使并对应了采用不同的学习与任务训练模式(ar、rl,diffusion..)以及采用的不同数学变换方法或者所采用的多样激活函数及激活形式的(如MLP vs KAN)不同,甚至如有必要的话,在网络训练与推理过程中建立起符号思想与连接思想的融合与平衡。
感兴趣的大伙可以翻看阅读我的历史专栏或置顶🔝文章/笔记,或baidu一下自寻出处:)
文章标题:「融合RL与LLM思想,探寻世界模型以迈向AGI」