今日arXiv最热NLP大模型论文：无需提示也能推理！Google DeepMind新研究揭示AI内在推理能力

在人工智能领域，大语言模型（LLMs）已经在各种复杂的推理基准测试中展现出了令人瞩目的性能。传统上，这些推理能力是通过精心设计的提示技术来激发的，例如少量示例提示（few-shot prompting）或零示例提示（zero-shot prompting）。然而，这些方法往往涉及到手动密集的提示工程，限制了它们在不同任务中的通用性。

本项工作探索了一个不同的视角，提出了一个关键的问题：LLMs能否在没有特定提示的情况下有效地进行推理？研究发现一令人惊讶的结果，通过简单地改变解码过程，可以从预训练的LLMs中自然地激发出链式推理（CoT）路径。这种解码修改绕过了CoT提示，并且是完全无监督的，不需要模型调整。

研究还揭示了预训练语言模型固有的推理能力，这一发现与之前侧重于改进提示以促进推理的研究形成了鲜明对比。研究发现，当模型在其解码路径中存在CoT时，对其最终答案的信心增加。利用这种增加的信心，研究者提出了CoT解码方法，以选择更可靠的解码路径，从而在各种推理基准测试中显著提高了模型性能。

实验结果表明，CoT解码在解码过程中自然地揭示了CoT推理路径，显著提高了模型的推理能力，超越了贪心解码。此外还观察到这些路径在预训练数据中频繁出现的任务中更为普遍，而在复杂的合成任务中则不那么常见，在这些任务中，可能仍然需要高级提示技术来触发这些推理路径。

这与McCoy等人（2023年）和Prystawski等人（2023年）的发现一致。在这些场景中还发现，少量CoT示例在指导模型如何解决任务方面发挥了更大的“教学”作用，模型主要模仿这些提示的格式来生成准确的推理路径。

总之，研究表明，通过改变解码策略，可以有效地从LLMs中激发出推理能力，而无需依赖于特定的提示技术。这一发现不仅为理解LLMs的内在推理能力提供了新的视角，而且为未来的研究提供了新的方向，即如何利用这些模型固有的推理能力来解决更广泛的问题。

论文标题:Chain-of-Thought Reasoning Without Prompting

公众号「夕小瑶科技说」后台回复“Chain”获取论文PDF！

CoT-decoding的新视角：无需提示即可激发推理

1. CoT-decoding方法介绍

CoT-decoding是一种新的解码方法，它能够从预训练的大语言模型（LLMs）中激发出推理能力，而无需依赖于传统的提示技术。这种方法通过探索解码过程中的替代top-𝑘令牌，揭示了模型在生成答案时内在的推理路径（CoT路径）。这种方法的关键在于，它不仅避免了提示带来的混淆因素，而且允许我们更准确地评估LLMs的内在推理能力。

（图为CoT解码示意图，这些模型在解码最终答案时往往显示出更高的可信度）

2. 预训练LLM中的CoT路径发现

研究发现，即使在没有明确提示的情况下，预训练的LLMs在解码过程中也能自然地展现出CoT推理模式。

例如，在数学推理任务中，当模型不是简单地贪心解码，而是考虑top-𝑘令牌时，CoT路径就会自然出现。

这表明，预训练的LLMs在其解码轨迹中固有地包含了推理能力，这与以往依赖于提示技术来激发推理能力的研究形成了鲜明对比。

3. CoT路径与模型答案置信度的关联

CoT-decoding的另一个关键发现是，当解码过程中存在CoT路径时，模型在解码其最终答案时表现出更高的置信度。这种置信度可以通过模型在每个解码步骤中对top两个令牌的概率差异来衡量。

研究表明，CoT路径的存在通常会导致最终答案的解码更加自信，这一点通过模型对最终答案的概率评分显著高于非CoT路径的情况得到了证实。利用这一现象，研究者们开发了一种方法来筛选出最可靠的解码路径，即CoT-decoding，从而在各种推理基准测试中显著提高了模型的推理能力。

（图为通过考虑不同解码步骤的替代标记分析解码路径。虽然某些任务可能存在多个分支位置，但所有都通向正确推理路径）

实验设置：评估CoT-decoding的有效性

实验方法与模型选择

在评估CoT-decoding的有效性时，研究者们采用了一种新颖的解码方法，即考虑在解码过程中的top-𝑘备选词汇，而不是仅依赖于贪心解码路径。实验中使用的模型是预训练的PaLM-2大模型，与标准的贪心解码路径（𝑘 = 0）进行比较，其中𝑘 > 0表示在第一步解码时选择的第𝑘个词汇。此外，还探讨了Mistral-7B模型，包括预训练和指令调优（instruction-tuned）变体。

数学推理任务的实验结果

在数学推理任务中，CoT-decoding显著提高了模型的推理能力，与贪心解码相比，在不同规模的PaLM-2模型上均有一致的提升。

例如，在GSM8K数据集上，CoT-decoding在PaLM-2大型模型上实现了比贪婪解码高出26.7%的绝对准确率。值得注意的是，CoT-decoding甚至可以提高经过指令调优的模型的性能。

自然语言推理任务的实验结果

在自然语言推理任务中，研究者们探讨了“年份奇偶性”任务，发现即使是最先进的模型，如GPT-4，在直接提示的情况下也只能达到几率水平的准确率（约50%）。然而，通过CoT-decoding，模型能够在大多数情况下恢复CoT推理路径，并实现超过90%的准确率。

错误分析表明，大多数错误源自模型检索错误的出生年份，而生成的CoT路径在奇偶性和模型检索的年份之间保持高度一致。

符号推理任务的实验结果

在符号推理任务中，CoT-decoding的收益随着任务复杂性的增加而减小。

模型在高度合成的任务中，即那些在预训练分布中缺乏显著表示的任务，无法生成准确的CoT路径。

这些任务包括需要准确状态跟踪的任务，如Coin-Flip和Web-of-Lies，以及多步算术任务。在这些任务中，CoT提示技术在教导模型如何解决任务方面发挥了更大的“教学”作用。

通过这些实验，研究者们展示了预训练语言模型在解码过程中固有的推理能力，并通过CoT-decoding显著提高了各种推理基准测试中的模型性能。

CoT-decoding与传统方法的比较

1. CoT-decoding与贪心解码的对比

CoT-decoding方法与传统的贪心解码（greedy decoding）有显著的不同。在贪心解码中，大语言模型（LLMs）通常会直接生成一个答案，而不会展示出解决问题的思考过程（chain-of-thought，CoT）。这种方法在处理简单问题时可能效果不错，但在需要复杂推理的任务上，模型往往会直接给出错误答案。

例如，在数学问题GSM8K中，贪心解码可能会直接给出“$60.00”作为答案，而不展示计算过程。

相比之下，CoT-decoding方法通过考虑解码过程中的top-𝑘个备选词，能够揭示出隐藏在解码轨迹中的CoT推理路径。这种方法不需要显式的提示（prompting），也不需要模型训练或指令调整。实验表明，CoT-decoding能够自然地揭示出CoT路径，并显著提高模型在各种推理基准测试中的表现。

例如，在同一个GSM8K问题中，CoT-decoding能够在𝑘=9的路径中找到正确的计算过程，并给出正确答案“$64”。

此外，CoT-decoding方法还能够通过模型在解码过程中的置信度来区分CoT和非CoT路径。这一现象可以用于从多个解码路径中筛选出更可靠的输出。即：当CoT路径存在时，模型在解码最终答案时表现出更高的置信度。

2. CoT-decoding与CoT提示方法的对比

CoT-decoding与CoT提示方法（如few-shot CoT prompting和zero-shot CoT prompting）相比，提供了一种不依赖于显式提示的推理能力激发方式。

CoT提示方法通常需要手动设计针对特定任务的提示，这不仅耗时而且限制了方法的通用性。
CoT-decoding则通过修改解码过程，允许评估LLMs的内在推理能力，而无需依赖于特定的提示设计。

实验结果显示，CoT-decoding在没有特定提示的情况下，能够与few-shot CoT prompting和zero-shot CoT prompting方法相媲美，甚至在某些情况下表现更好。

例如，在处理GSM8K数据集的数学问题时，CoT-decoding生成的CoT与few-shot CoT提示方法相比，展现出更自由形式的推理过程。

这表明CoT-decoding能够更好地揭示LLMs在解决问题时的内在策略，而不受外部提示可能引入的偏见影响。

（图为PaLM-2大模型的GSM8K数据集上的CoT解码精度，显示出与解码中使用了多少top-𝑘令牌有关）

总的来说，CoT-decoding为我们提供了一种新的视角，通过简单地改变解码策略，就能有效地激发出模型的推理能力，这一发现对于未来LLMs的研究和应用具有重要意义。

讨论：CoT-decoding的计算成本与未来方向

CoT-decoding，即链式推理解码，是一种新颖的方法，它通过改变解码过程来从预训练的大语言模型（LLMs）中引出推理能力，而无需特定的提示技术。这种方法的优势在于它能够揭示模型在生成答案时的内在推理路径，同时避免了提示技术可能引入的混淆因素，更准确地评估模型的固有推理能力。

然而，CoT-decoding的一个主要挑战是计算成本。由于它涉及到在解码过程中考虑多个备选的top-𝑘令牌，因此需要更多的计算资源来探索和评估这些备选路径。

未来的研究方向可能包括利用CoT-decoding路径来微调模型，以增强其推理能力。此外，目前的探索主要集中在第一个令牌的分支上，因为这样可以产生高度多样化的解码路径，但未来的工作可以探索在任何令牌上进行分支，并在解码阶段搜索最佳路径。尽管这将大幅增加计算成本，如何在搜索过程中可靠地识别最佳令牌将是一个值得探索的方向。

总结：CoT-decoding在LLM推理中的潜力展望

1. CoT-decoding的发现和意义

研究表明，通过改变解码过程，即使没有显式提示，预训练的大语言模型（LLM）也能自然地产生链式思考（CoT）推理路径。这种方法被称为CoT-decoding，它通过考虑解码过程中的顶部-k个代替令牌，揭示了CoT路径通常是这些序列中的固有部分。CoT-decoding不仅绕过了提示的混淆因素，而且还允许我们评估LLM的内在推理能力。

2. CoT-decoding与模型信心的关联

研究观察到，当解码路径中存在CoT时，模型在解码其最终答案时表现出更高的信心。这种信心度量有效地区分了CoT路径和非CoT路径。在各种推理基准测试中的广泛实证研究表明，所提出的CoT-decoding方法显著优于标准的贪心解码。

3. CoT-decoding在不同任务中的表现

在数学推理、自然语言推理和符号推理任务中，CoT-decoding都显示出了显著的性能提升。特别是在那些在预训练数据中频繁出现的任务上，CoT-decoding能够自然地揭示CoT路径，而在复杂的合成任务中，可能仍然需要高级提示来触发这些推理路径。

公众号「夕小瑶科技说」后台回复“Chain”获取论文PDF！