一年前 LLM AGI 碎片化思考与回顾系列④ · 从System2→Post-training的疑虑和思考

news2025/2/24 13:35:58
阅读提示:

本篇系列内容的是建立于自己过去一年在以LLM为代表的AIGC快速发展浪潮中结合学术界与产业界创新与进展的一些碎片化思考并记录最终沉淀完成,在内容上,与不久前刚刚完稿的那篇10万字文章 「融合RL与LLM思想,探寻世界模型以迈向AGI」间有着非常紧密的联系,可以说,这篇长篇文章中的很多内容也是基于这些碎片化的思考与沉淀,当然也正是这样的一个个碎片化的、看似玄幻大胆、step by step的探索过程,才促成我最终完成那篇看上去并不是特别易读的文章。
因此,这个系列文章将以笔记的形式,去重新回顾体会一下自己去年的这些碎片化思考与探索历程,并希望将这些碎片化的、step by step探索式的思考与历程分享给大伙。一方面去回顾、修正自己之前的思考和观点,一方面作为那篇长文阅读的补充参考,并在其中的内容中标注出与其相关的阅读指针与提示。
在内容记录形式上,因为一年前自己的思考历程按时间顺序记录呈现出一定的主题割裂与内容的碎片化,我将按照时间线顺序向大家呈现一年前自己的想法,内容上可能进行一些合并和整合但会尽量保持原文内容不变。
另外大伙需特别注意的是,因为保持了原始记录时内容的不变(仅修改笔记上的笔误与错字),一年前的想法跟当前的认知可能会有较大的差异和改变,也会存在一些不成熟观点,千万不要被我当时片面的观点所误导。主要是想给大家抛出一些过去技术进展当中存在的一些问题和关键点,当然坦率地说,自己确实也在回顾中针对某些想法有了新的思路!如果大家针对我过去或刚完稿的那篇文章有更有建设性的意见甚至批评指正那就更好了!
最后,为了不让这个系列笔记显得不那么单调,在每一篇内容中会附上一些过去自己经历的有趣的生活照片或的图片,有吃喝玩乐,有学术美图,也有搞笑娱乐。

这张来自某艺术空间展馆的配图感觉很像system2所容纳的那些未知,有咩有


「2023年06月01日 ·从 System2→Post-training」

记录正文 ↓

今天回顾与反思的内容是一年前的今天体会到LLM对未来AGI的潜力与疑惑,结合人类思考模式与GPT再到System2→post-training的思考:

以COT或TOT为驱动的类Agent的system2长推理链思考模式是否能自然而平滑地融入到AIGC内嵌式推理生成?方法是怎样的?甚至是否会存在一种不同以往的模型认知推理模式或训练范式?就像人在某些深入理性思考过程也体现出经过内部神经元信号快速激活传递而产生的涌现或顿悟,而不是现在这种类GPT的交互式prompt工程或ICL。

关键点在于:“如何自然平滑融入”,需要从训练和推理两个阶段进行思考。就像在模型推理生成决策与行动内容上等效于实现类思维链提示那样的额外prompt工程效果,或者实现Toolformer那样的plug-in调用与执行。

例如:如将复杂而抽象的统计学方法或数学思维快速迁移到生科生信、临床科研场景中来(来自arxiv_cancerGPT启示)。

思路探索:是否可采用self play自博弈模式或简单的借鉴于基于PPO的RLHF思想( or DPO)进行长推理链的E2E训练?

顺着上面的思考路径,昨天读到了一篇基于LLM生成事件schema模式的文献以及一篇论证RLHF质量与数量及模拟人类构建RLHF机制的文献,产生了延展思考:

对于post-training下的SFT也好还是采用PPO-RLHF或DPO-RL也好(这是可能未来两种RL优化模式),基于LLM在pre-training阶段下隐含了大量复杂而抽象的知识的前提下,在System2→post-training两者间未来如何趋向统一与相互之间的平衡(这么说的原因之一是因为要考虑训练过程的整体数据分布),即是否存在一种趋势或模式:使得pre-training阶段尽可能广的学习到繁杂表象领域的泛化性知识(或者叫模式),post-training更多承担领域抽象知识或模式,这里有一个前提或猜想是:在我们的世界中存在着的复杂知识结构,这种结构蕴含着广度与深度、表象与抽象的复杂结构。又或是两种训练方法对知识的学习和模式的认知是与上述表述相反的?能够直觉体会到的是:预训练阶段可能承担学习更多繁杂且扁平化的多领域知识关联,直觉上的原因是:它的模型泛化与迁移能力所体现出的涌现效果以及自回归的这种next token predict的模式。


「2023年06月02日 · system2慢思考的一些疑虑」

继续针对一年前的今天,关于“system2·慢思考”存在于心中的一些疑惑向大家分享并抛出:

① 今天早上又想到一个点:对于某种广义上的认知行为来说,是不是只有像丹尼尔·卡尼曼(Daniel Kahneman)老先生所归纳的那样复杂而完全呢?看似完全将快与慢分别看待?或者在两种思考模式间,是否还存在着更多的内涵或疑问:

  • 只存在system1·快思考&system2·慢思考这两种认知模式吗?有没有超脱于现有人类认知思维模式之外的system3·*思考?
  • 快与慢分别对应所指的认知过程内涵与意义是什么?
  • 如果存在既不属于system1与system2的其它的认知思维模式,那应该是一种什么形态或过程?如何其判别这种差异呢?
  • 如果所谓的其它不同于system1与system2的认知思维模式与两者并无二致,即属于system1与system2的某个子集,那么背后的逻辑限定是什么?我想这背后一定会有更基础、更透彻的对于认知本身的定义与理解,它可能与我们存在的这个真实物理世界的自然规律、抽象理念世界中的类属加种差的概念体系有着很大的关联。

② 来自于如何更彻底的看待CoT或ToT对于整个认知过程中的定位和作用的切入点思考:从表象直觉上,其看似是将LLM中所蕴含的知识或模式激活,那就意味着 如何把LLM中所蕴含压缩的知识和模式【定向或精准】激活出来?或者说是组织出来?是否存在某种范式基础或甚至是新的信息学理论?目前看简单的操作模式是通过prompt这一种手段,难道只有prompt这一种手段吗?

对于经过了pre training之后的foundation model其中所压缩蕴含的知识和模式是都否是仅仅是碎片化的隐匿于模型网络神经元的参数之中,或也可以看似是一种蕴含着大量知识的编码后状态,解码的钥匙则是通过promp去解码重构其中所蕴含并被压缩在LLM中的碎片化知识与模式。

这里应该会充斥着多样且复杂的知识组织轨迹或组织模式空间,取决于模型网络中神经元信号激活传导路径(前向传播计算)。当然这里的前提是,经过了pre-training和post-training之后的LLM中隐含在内部的庞大参数已经能够借助并驱动蕴含于其中的数学变换和计算算子去逼近拟合这些复杂的知识与模式的真实组织。

③ 想到以一篇论文摘要作为最终结果标记,论文原文中间的实验与论述作为中间结果标记,需求与问题作为输入,去构建的一种过程化RLHF是否是一种可行的推理思维链信息熵扩散模式?其中训练过程中的目标如何优雅的进行传递与优化?推理时如何满足过程与结果的平滑、自然且完备?LLM自回归的方式是否是唯一或者是适合的?有没有其它更适合生成复杂推理模式的概率预测框架?

④ 能否尝试构建一种长过程链的训练推理一体化范式:模型会自己遵循某种方式自主的建立长链思维训练与推理范式。对应的深度学习神经网络的标记化监督学习一类认知推理模式(对应system1),连续的递归prompt是另一类认知推理模式(对应sysystem2),两种方式是否可优雅的融合?还有没有其他的推理模式?

⑤ 或者说更进一步的,现在的pre-taining+SFT+RLHF是否是一个面向CoT或ToT 端到端的合理范式吗?应该不是,他仍只更适合system1,system2应该有别的E2E范式。

直觉上,看起来taining+SFT是简单粗暴的嵌入(学习)非常广泛具象抽象支持,而RLHF是更加深邃,长程的信息熵增的扩散生成;亦或是,CoT或ToT本身就不存在E2E的这种范式?

有几种可能的上述解决模式:

  • (1)基于模型网络结构的改造;
  • (2)基于过程监督的训练任务;
  • (3)不同于当前GPT看起来以pre-training为主导基础,再以post-training下的sft或rlhf为辅的训练模式(当然,这里需要说明的是sft和rlhf并不是不重要,相反chatGPT之所以能否产生如此惊艳的能力,sft和rlhf在其中起到了决定性作用且这部分是所耗费的成本和实现的难度与挑战是最大的。这里是想从对pre-training,sft,rlhf这三者在LLM全景训练过程中对全量数据进行信息压缩与模式学习所承载的计算量角度来去比较),而是采用以如强化学习RL为主导的方式;

⑥ 在模型结构创新层面,也许解决上述E2E CoT或ToT的技术路径可能需要采用某种技术创新手段,做出模型在transform网络结构推理层面的改良或替代,以模型参数的足够容量和灵活性对标取代采用prompt提示输入的效果,当然前面我们提到这种模型中参数的改变变量与prompt输入的变化变量在数学变换本质上可能是一致的,在数值计算逻辑上存在较大的差异。之所以提出⑥这一种可能,还是因为基于NLP这种通用,普遍性符号化表达的多样性与开放性。


「奇闻异事&生活配图」

从今天的视角来看,感觉一年前关于system2·慢思考的探索与思考初探到了深水区,而且看似这种直观简单粗暴的自回归next token predict模式下的pre-training在更加深邃而长过程推理领域中scaling law的潜在瓶颈。

结合近几日在各种重口味的狂轰下(历经了山东、东北重口烧烤,各种预制工业辣,西北的滩羊与各种碳水)今天换换清淡一点的口味:余姚的【黄鱼面】,也是为了后续系列的爆发留下更多重口味的想象空间,我想大家也是期待一次比一次强烈的重口吧。

配图是2019年深秋,一次余姚的差旅,那天记得下着小雨,酒店周围随便溜达就碰到一家面馆,落座后点了一碗热气腾腾的黄鱼面+两只闸蟹,黄鱼面刚入嘴时随略感清淡无味,但在口中经咀嚼之后并就口汤,让人意味悠长,颇有江南之细腻~强烈推荐大家去当地品尝。


「融合RL与LLM思想,探寻世界模型以迈向AGI」内容回顾与再版更新

融合RL与LLM思想,探寻世界模型以迈向AGI「上篇」

融合RL与LLM思想,探寻世界模型以迈向AGI「中/下篇」

融合RL与LLM思想,探寻世界模型以迈向AGI「下篇」

融合RL与LLM思想,探寻世界模型以迈向AGI「总结」

合集PDF版本v6.2已更新,大家可访问百度网盘地址自行下载:

https://pan.baidu.com/s/1dwuviZkL8J7afBhjEQqXqg?pwd=lm51

提取码: lm51

或扫码下载:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1824254.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

B+索引的分裂及选择率和索引基数

1、B树索引的分裂 B树索引页的分裂并不总是从页的中间记录开始,这样可能会导致页空间的浪费。 例子 比如下面这个记录: 1、2、3、4、5、6、7、8、9 由于插入是以自增的顺序进行的,若这时插入第10条记录然后进行页的分裂操作,那…

QChar转换为Unicode,判断数字、字母、符号、标点

实现 QChar转换为Unicode,判断数字、字母、符号、标点等 #include "widget.h" #include "ui_widget.h" #include "QMessageBox"widget::widget(QWidget *parent): QWidget(parent), ui(new Ui::widget) {ui->setupUi(this); }widg…

Java 网站开发入门指南:如何用java写一个网站

Java 网站开发入门指南:如何用java写一个网站 Java 作为一门强大的编程语言,在网站开发领域也占据着重要地位。虽然现在 Python、JavaScript 等语言在网站开发中越来越流行,但 Java 凭借其稳定性、可扩展性和丰富的生态系统,仍然…

TF-IDF算法详细介绍

TF-IDF(Term Frequency-Inverse Document Frequency)是一种用于信息检索和文本挖掘的统计方法,旨在评估一个词在文档集合或语料库中的重要性。它是计算机科学和文本分析中最常用的特征提取技术之一。本文将详细介绍TF-IDF的基本概念、计算方法…

CentOS7.9 安装jdk17

切换到目录 /usr/local/src cd /usr/local/src下载压缩包 wget https://download.oracle.com/java/17/latest/jdk-17_linux-x64_bin.tar.gz解压 tar -zxvf jdk-17_linux-x64_bin.tar.gz添加环境变量 vim /etc/profile重加载环境变量 export JAVA_HOME/usr/local/usr/jdk-1…

AI影像时代来临,联发科天玑以专业无畏精神重新定义手机专业影像

近期,联发科与Discovery探索频道联合举办了一场以“越极境,见芯境”为主题的天玑影像展,活动地点位于我国桂林阳朔。活动现场展示了阳朔壮美山水的画卷,以及救援队员在岩壁上进行训练的极限瞬间。令人意想不到的是,这些…

DockerHub无法访问,国内镜像拉取迂回解决方案

无法访问后,主要存在以下几个问题: 无法进行镜像的搜索无法查看镜像相关的使用说明无法直接拉取镜像 对于第二点,目前没啥解决思路,主要针对第一点和第三点。 解决无法搜索镜像 目前仅可以解决部分问题,在知道镜像名…

基于 Redis 实现分布式缓存

一、单节点 Redis 的问题 1.1 存在的问题 1、数据丢失问题:Redis 是内存存储,服务重启可能会丢失数据。 2、并发能力问题:单节点 Redis 并发能力虽然不错,但也无法满足如 618 这样的高并发场景。 3、故障恢复问题:如果…

小白跟做江科大32单片机之定时器

原理部分 1. 计数器每遇到一个上升沿就会计数值1,。 72MHZ72000000 72000000/65536/655360.0167638063430786132812559.652323555555554 (s) 2. 3. 计数时钟每来一个上升沿,计数值1,自动运行。如果计数值与存储在自动重装载寄存器中的值相等&#…

2024 年最新 Python 基于百度智能云实现短语音识别、语音合成详细教程

百度智能云语音识别 采用国际领先的流式端到端语音语言一体化建模算法,将语音快速准确识别为文字,支持手机应用语音交互、语音内容分析、机器人对话等场景。百度短语音识别可以将 60 秒以下的音频识别为文字。适用于语音对话、语音控制、语音输入等场景…

C++ 32 之 静态成员函数

#include <iostream> #include <string> using namespace std;// 特点: // 1.在编译阶段就分配了内存空间 // 2.类内声明&#xff0c;在类外进行初始化 // 3.所有对象共享一份静态成员数据 class Students02{ public:int s_c;static int s_d;// 静态成员函数&#…

重装了mysql,然后安装为服务时,net start 启动一直报错,MySQL服务无法启动的解决

之前写过一篇关于安装mysql的文章&#xff0c;按上面的处理&#xff0c;基本上是可以的。 今天换了下目录&#xff0c;重新安装&#xff0c;一直报错。 然后我们来看一下问题&#xff1a; mysqld -console 这里的目录是有问题的&#xff0c;设置的是&#xff1a;datadird:\to…

如何完美解决升级 IntelliJ IDEA 最新版之后遇到 Git 记住密码功能失效的问题

&#x1f6e0;️ 如何完美解决升级 IntelliJ IDEA 最新版之后遇到 Git 记住密码功能失效的问题 摘要 在这篇文章中&#xff0c;我们将详细探讨如何解决在升级到 IntelliJ IDEA 最新版&#xff08;2024.1.3 Ultimate Edition&#xff09;后遇到的 Git 记住密码功能失效的问题。…

简单Mesh多线程合并,使用什么库性能更高

1&#xff09;简单Mesh多线程合并&#xff0c;使用什么库性能更高 2&#xff09;Unity Semaphore.WaitForSignal耗时高 3&#xff09;VS编辑的C#代码注释的中文部分乱码 4&#xff09;变量IntPtr m_cachePtr切换线程后变空 这是第389篇UWA技术知识分享的推送&#xff0c;精选了…

【github】项目的代码仓库重命名

问题 有时候&#xff0c;我们先创建了远端项目仓库&#xff0c;然后就把相关code上传到远端项目仓库。 可能需要结合实际情况对远端项目仓库进行重命名。 当前仓库名称v_ttc&#xff0c;如何将他修改成v_datejs 操作步骤 1、在 GitHub.com 上&#xff0c;导航到存储库的主页…

个人关于Leecode 49题见解(保姆级)

题目&#xff1a; 49. 字母异位词分组 中等 相关标签 相关企业 给你一个字符串数组&#xff0c;请你将 字母异位词 组合在一起。可以按任意顺序返回结果列表。 字母异位词 是由重新排列源单词的所有字母得到的一个新单词。 示例 1: 输入: strs ["eat", "…

边界内聚和耦合

内聚 功能内聚 功能内聚是软件工程中一个重要的概念&#xff0c;它描述了一个模块内部各个元素之间的紧密程度。一个具有高功能内聚的模块意味着其内部的各个组件都共同完成一个具体的、明确的功能&#xff0c;并且这些组件之间的联系不是偶然的&#xff0c;而是因为它们共同服…

QT打包(windows linux)封包 完整图文版

目录 简介: 一. for windows 1.首先下载组件 2.开始构建Release版本. 3.然后点击构建 4.在文件夹内直接点击exe文件,会报下面的错误,因为缺少dll连接; 5.需要把这个exe单独复制到一个文件夹内, 6.先cd到单独exe所在的文件夹; cd 文件路径 7.然后运行 windeployqt 文…

渗透测试和红蓝对抗是什么?二者之间有何区别?

在网络安全这个庞大的体系中&#xff0c;渗透测试、红蓝对抗是比较常见的专业名词&#xff0c;承担着非常重要的作用&#xff0c;那么什么是渗透测试、红蓝对抗?红蓝对抗和渗透测试有什么区别?小编通过这篇文章为大家介绍一下。 渗透测试 渗透测试&#xff0c;是通过模拟黑…

FastWeb - Lua开源跨平台网站开发服务

在网站开发领域&#xff0c;大家都熟知PHPStudy和宝塔这两款广受欢迎的工具&#xff0c;但今天我要介绍的是一款功能强大、支持跨平台的开源Lua网站开发服务——Fast Web&#xff0c;以及与之配套的网站管理器。 Fast Web简介 Fast Web是一款基于Lua编写的网站开发框架&#…