论文简要
题目:Chain of Thought Empowers Transformers to Solve Inherently Serial Problems
Denny Zhou等人提出的中间推理token,跟o1的核心技术CoT非常相似。
传统的Transformer模型的致命弱点,就是擅长并行计算,但不擅长串行推理。
而CoT,恰恰解决了这个问题。
在这项工作中,Denny Zhou等人发现:传统的Transformer模型,只能解决AC0电路能解决的问题;但一旦加入CoT,Transformer几乎可以解决任何问题。
说明:AC0(AC zero)是指没有任何额外约束的电路,也就是只能进行基本的逻辑运算,如 AND、OR 和 NOT 门电路。这意味着传统的 Transformer 模型能够处理的问题范围有限,只能解决一定复杂度的问题。
CoT 是一种让模型在给出最终答案之前,先生成一系列解题步骤的技术。这些中间步骤类似于人类解决问题时的思考过程,它们帮助模型更好地理解和解决复杂问题。通过 CoT,Transformer 几乎可以解决任何问题,这是因为它能够模拟更复杂的推理过程,从而超越了 AC0 电路的局限。
简而言之,CoT 使得 Transformer 模型能够进行更高级别的抽象和推理,提升了其解决问题的能力。
只要CoT步骤足够多,Transformer就能模拟任意大小的布尔电路,解决P/poly问题
也就是说,可以用数学严格证明,CoT可以让Transformer解决几乎所有能用计算机解决的问题。
利用CoT,可以模拟布尔电路中每个逻辑门的计算
这项工作暗示着,CoT为更强大的LLM推理提供了新的思路,CoT或将成为未来LLM发展的重要方向,而且很可能闪烁着AGI的火花。
Denny Zhou发帖后,立即引发了AI社区的热议。
讨论
谷歌DeepMind首席科学家Denny Zhou在ICLR 2024论文中提出,通过引入中间推理token,Transformer可以解决任何问题,从而打破了推理能力的极限。
这一观点与OpenAI的CoT技术相似,CoT技术已经帮助LLM在少量样本下进行复杂推理,甚至表现出类人情感。
然而,这一理论被田渊栋和Yann LeCun等人质疑,他们认为CoT的长度可能会非常长,难以通过梯度下降学习,且人类推理链的简洁性和效率与之不同。
LeCun指出,尽管理论上2层多层感知器可以拟合任何函数,但在实践中这样的模型可能难以应用。
网友们对CoT的效果和LeCun关于模型复杂性的担忧进行了讨论,有人认为CoT在多维扩展场景中有潜力,而有人则认为这种讨论类似于无限序列猴子定理。
说明:猴子定理,也被称为无限猴子定理,是概率论中的一个理论。这个定理指出,如果无限多的猴子随机地、无限长时间地敲打键盘,它们最终将几乎必然地打出任何给定的文本,如莎士比亚的全部作品。
田渊栋认为,谷歌的论文思路有可取之处,但问题更为复杂,涉及数据分布、模型架构、学习算法等多个方面。Denny Zhou在UC伯克利的讲座中强调了AI推理能力的重要性,并指出LLM在包含中间步骤和解释原理时能够更好地进行少样本学习。尽管CoT提供了一种新的推理方式,但它并不能解决所有LLM推理的缺陷,例如模型容易受到无关上下文的干扰,以及自我纠正能力的不健全。
核心歧义点
尽管理论上 2 层多层感知器可以拟合任何函数,但在实践中这样的模型可能难以应用。LeCun 进一步表示,人类推理链的简洁性和效率与 CoT 的方法不同,而且 AI 目前只能进行暴力搜索,而没有人类的 “启发式” 思考和 “直觉”。
最终,AI系统需要模拟人类的高效问题解决路径,以达到AGI的水平。