LLMs之CoD:《Chain of Draft: Thinking Faster by Writing Less》翻译与解读

news2025/3/17 13:29:07

LLMs之CoD:《Chain of Draft: Thinking Faster by Writing Less》翻译与解读

导读:这篇论文的核心是提出了一种名为“Chain of Draft”(CoD,草稿链)的新型提示策略,用于改进大型语言模型(LLMs)的推理能力,并解决现有方法的效率问题。核心是提出了一种新的、更高效的 LLM 推理方法 CoD,它通过模仿人类的简略思考方式,在保证准确率的同时,大幅降低了推理的成本和延迟,为 LLM 的实际应用提供了新的思路。 但是,论文也指出了 CoD 在零样本场景和小型模型上的局限性,这为未来的研究方向提供了指引。

>> 背景痛点:现有的大型语言模型推理方法,例如“Chain of Thought”(CoT,思维链),虽然在复杂推理任务中取得了显著成果,但其步骤冗长,生成大量文本,导致推理过程计算成本高延迟大,不适用于对效率要求高的实际应用场景。这与人类高效的简略思考和记录关键信息的过程形成鲜明对比。

>> 具体的解决方案:提出Chain of Draft (CoD)。CoD 是一种新型的提示策略,它模仿人类在解决问题只记录关键信息的思维方式。与 CoT 不同,CoD 鼓励 LLMs 在每个推理步骤中生成简洁、信息密集的输出,从而减少冗余信息。 CoD 的核心在于将冗长的推理步骤浓缩成简短的“草稿”只保留关键信息和计算结果。

>> 核心思路步骤:CoD 的核心思想是将 CoT 中冗长的推理步骤简化成更简洁的表达。 它通过提示词引导模型进行分步推理,但要求每一步推理的输出都尽可能简短(例如,限制在五个单词以内)。 这使得模型能够专注于解决问题,而不是生成大量的无关信息。

>> 优势:

显著降低延迟和成本:CoD在保持或提高准确率的同时,大幅减少了 token 使用量和推理时间。实验结果表明,CoD的 token 使用量仅为 CoT 的 7.6%,延迟也大幅降低。

保持或提高准确率:在算术推理、常识推理和符号推理等多种任务上,CoD 的准确率与 CoT 相当甚至更好。

● 提高效率:CoD 的简洁性使其更适合于资源受限的实际应用场景。

>> 论文结论和观点:

● CoD 是一种有效的 LLM 推理策略,它在保持或提高准确率的同时,显著降低了计算成本和延迟。

● CoD 的简洁性使其更适用于实际应用场景,尤其是在资源受限的环境中。

● CoD 的成功表明,有效的 LLM 推理并不一定需要冗长的输出。

● 未来的研究可以探索将 CoD 与其他降低延迟的方法结合起来,进一步优化性能。

● CoD 的理念可以启发新的 LLM 设计策略,例如使用简洁的推理数据进行训练。

● CoD 在零样本设置和小型模型上的表现较差,这表明需要进一步研究如何改进 CoD 在这些场景下的性能,例如通过使用 CoD 格式的数据进行微调。

目录

《Chain of Draft: Thinking Faster by Writing Less》翻译与解读

Abstract

1、Introduction

Figure 1:Comparison of Claude 3.5 Sonnet’s accuracy and token usage across different tasks with three different prompt strategies: direct answer (Standard), Chain of Thought (CoT), and Chain of Draft (CoD). CoD achieves similar accuracy as CoT while using significant fewer tokens.图 1:在三种不同的提示策略(直接回答(标准)、思维链(CoT)和草稿链(CoD))下,Claude 3.5 生成十四行诗在不同任务中的准确性和标记使用情况对比。CoD 达到了与 CoT 相似的准确率,但使用的标记数量显著更少。

Discussion


《Chain of Draft: Thinking Faster by Writing Less》翻译与解读

地址

论文地址:[2502.18600v2] Chain of Draft: Thinking Faster by Writing Less

时间

2025年2月25日

作者

Zoom团队

Abstract

Large Language Models (LLMs) have demonstrated remarkable performance in solving complex reasoning tasks through mechanisms like Chain-of-Thought (CoT) prompting, which emphasizes verbose, step-by-step reasoning. However, humans typically employ a more efficient strategy: drafting concise intermediate thoughts that capture only essential information. In this work, we propose Chain of Draft (CoD), a novel paradigm inspired by human cognitive processes, where LLMs generate minimalistic yet informative intermediate reasoning outputs while solving tasks. By reducing verbosity and focusing on critical insights, CoD matches or surpasses CoT in accuracy while using as little as only 7.6% of the tokens, significantly reducing cost and latency across various reasoning tasks. Our code and data are available at this https URL.

大型语言模型(LLMs)通过诸如链式思维(CoT)提示等机制在解决复杂推理任务方面表现出色,这种机制强调冗长、逐步的推理过程。然而,人类通常采用一种更高效的策略:起草简洁的中间想法仅捕捉关键信息。在本研究中,我们提出了链式草稿(CoD)这一新范式,它受人类认知过程启发,让 LLM 在解决任务时生成简洁但信息丰富的中间推理输出。通过减少冗余并专注于关键见解,CoD 在准确性方面与 CoT 相当甚至更优,同时仅使用 7.6% 的标记量显著降低了各种推理任务的成本和延迟。我们的代码和数据可在该 https URL 获取。

1、Introduction

Recent advances in reasoning models such as OpenAI o1 OpenAI (2024) and DeepSeek R1 Guo et al. (2025) have propelled large language models (LLMs) to unprecedented performance on complex tasks using techniques like Chain of Thought (CoT) Wei et al. (2022). This paradigm encourages models to break down problems into step-by-step explorations, mimicking the structured reasoning process of humans. While effective, this approach demands substantially more computational resources at inference time, leading to verbose outputs and higher latency. Such verbosity contrasts sharply with how humans typically approach problem-solving: we rely on concise drafts or shorthand notes to capture essential insights without unnecessary elaboration.

Motivated by this difference, we propose Chain of Draft (CoD), a novel prompting strategy that aligns more closely with human reasoning by prioritizing efficiency and minimalism. Instead of verbose intermediate steps, Chain of Draft encourages LLMs to generate concise, dense-information outputs at each step. This approach reduces latency and computational costs without sacrifice of accuracy, making LLMs more practical for real-world applications where efficiency is paramount.

近期,诸如 OpenAI 的 o1(OpenAI,2024 年)和 DeepSeek 的 R1(Guo 等人,2025 年)等推理模型的进展,借助链式思维(CoT)等技术(Wei 等人,2022 年),使大型语言模型(LLMs)在复杂任务上的表现达到了前所未有的高度。这种范式鼓励模型将问题分解为逐步探索的过程,模仿人类结构化的推理流程。尽管有效,但这种方法在推理时需要大量的计算资源,导致输出冗长且延迟更高。这种冗长性与人类解决问题的方式形成了鲜明对比:我们通常依靠简洁的草稿或简略笔记来捕捉关键见解,而无需不必要的详述。

鉴于这种差异,我们提出了“草稿链”(CoD),这是一种新颖的提示策略,通过优先考虑效率和简约性,更贴近人类的推理方式。与冗长的中间步骤不同,“草稿链”鼓励 LLM 在每一步生成简洁、信息密集型的输出。这种方法在不牺牲准确性的情况下降低了延迟和计算成本,使大型语言模型在效率至关重要的实际应用中更具实用性。

The intuition behind Chain of Draft is rooted in how humans externalize thought. When solving complex tasks — whether solving mathematical problems, drafting essays, or coding — we often jot down only the critical pieces of information that help us progress. By emulating this behavior, LLMs can focus on advancing toward solutions without the overhead of verbose reasoning.

To evaluate the effectiveness of Chain of Draft, we conducted experiments across a variety of benchmarks requiring multi-step reasoning, including arithmetic reasoning, common sense reasoning, and symbolic reasoning. Our results demonstrate that this minimalist approach maintains or even improves accuracy compared with standard Chain of Thought, while significantly reducing token usage and latency.

“草稿链”的直觉源于人类如何将思维外化。在解决复杂任务时——无论是解决数学问题、起草文章还是编写代码——我们通常只记录有助于我们推进的关键信息。通过模仿这种行为,大型语言模型可以专注于向解决方案推进,而无需冗长推理带来的开销。

为了评估“草稿链”的有效性,我们在需要多步推理的各种基准测试上进行了实验,包括算术推理、常识推理和符号推理。我们的结果表明,与标准的“思维链”相比,这种极简主义方法在保持甚至提高准确性的同时,显著减少了标记使用量和延迟。

The contributions of this paper are threefold:

• We introduce Chain of Draft, a concise reasoning prompting strategy inspired by human cognitive processes.

• We empirically validate that Chain of Draft can achieve significantly reduced latency and cost without sacrificing accuracy.

• We discuss the implications of Chain of Draft for LLM design, deployment, and real-world usability.

本文的贡献有三方面:

• 我们引入了“草稿链”,这是一种受人类认知过程启发的简洁推理提示策略。• 我们通过实证验证了“草稿链”能够在不牺牲准确性的情况下显著降低延迟和成本。

• 我们探讨了“草稿链”对大型语言模型设计、部署以及实际应用的影响。

Figure 1:Comparison of Claude 3.5 Sonnet’s accuracy and token usage across different tasks with three different prompt strategies: direct answer (Standard), Chain of Thought (CoT), and Chain of Draft (CoD). CoD achieves similar accuracy as CoT while using significant fewer tokens.图 1:在三种不同的提示策略(直接回答(标准)、思维链(CoT)和草稿链(CoD))下,Claude 3.5 生成十四行诗在不同任务中的准确性和标记使用情况对比。CoD 达到了与 CoT 相似的准确率,但使用的标记数量显著更少。

Discussion

The latency issue has often been overlooked in studies of the reasoning capabilities of LLMs. However, it is crucial for lots of real-time applications to have low latency while maintaining high-quality responses. In this work, we propose Chain of Draft (CoD), a novel approach that substantially reduces the latency required for reasoning while achieving comparable or even superior accuracy compared to standard Chain-of-Thought prompting strategies. Unlike traditional methods that often involve lengthy reasoning steps, CoD leverages concise reasoning drafts to speed up response generation without sacrificing correctness.

在对大型语言模型(LLM)推理能力的研究中,延迟问题常常被忽视。然而,对于许多实时应用来说,在保持高质量响应的同时实现低延迟至关重要。在本研究中,我们提出了“草稿链”(CoD)这一新颖方法,它能大幅降低推理所需的延迟,同时在准确性方面与标准的“思维链”提示策略相比,达到相当甚至更优的水平。与通常涉及冗长推理步骤的传统方法不同,CoD 利用简洁的推理草稿来加快响应生成速度,同时不牺牲正确性。

Additionally, CoD offers significant cost advantages. By compacting the reasoning steps, it reduces the number of input tokens required for few-shot prompting and shortens the output token length, directly lowering computational cost. This token efficiency makes CoD especially appealing in cost-sensitive scenarios, such as large-scale deployments of LLMs or applications with strict budget constraints.

CoD demonstrates that effective reasoning in LLMs does not necessarily require lengthy outputs, offering an alternative approach where reasoning depth is maintained with minimal verbosity. Future work could explore combining CoD with other latency-reducing methods, such as adaptive parallel reasoning or multi-pass validation, to further optimize performance across different application domains. In addition, the principles behind the compact reasoning of CoD could inspire new strategies to improve reasoning models by training with compact reasoning data, while maintaining interpretability and efficiency in LLMs, helping bridge the gap between research-driven improvements in reasoning and the practical demands of real world systems.

此外,CoD 还具有显著的成本优势。通过压缩推理步骤,它减少了少样本提示所需的输入标记数量,并缩短了输出标记长度,直接降低了计算成本。这种标记效率使 CoD 在成本敏感的场景中特别具有吸引力,例如 LLM 的大规模部署或预算严格的场景。

CoD 证明了在大型语言模型中进行有效推理不一定需要冗长的输出,提供了一种替代方法,在保持推理深度的同时尽量减少冗余。未来的研究可以探索将 CoD 与其他降低延迟的方法(如自适应并行推理或多轮验证)相结合,以进一步优化不同应用领域的性能。此外,CoD 背后的紧凑推理原则可以启发新的策略,通过使用紧凑推理数据进行训练来改进推理模型,同时保持 LLM 的可解释性和效率,有助于弥合推理研究驱动的改进与现实世界系统实际需求之间的差距。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2316642.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

0CTF 2016 piapiapia 1

#源码泄露 #代码审计 #反序列化字符逃逸 #strlen长度过滤数组绕过 www.zip 得到源码 看到这里有flag ,猜测服务端docker的主机里,$flag变量应该存的就是我们要的flag。 于是,我们的目的就是读取config.php 利用思路 这里存在 任意文件读取…

python_巨潮年报pdf下载

目录 前置: 步骤: step one: pip安装必要包,获取年报url列表 step two: 将查看url列表转换为pdf url step three: 多进程下载pdf 前置: 1 了解一些股票的基本面需要看历年年报,在巨潮一个个下载比较费时间&…

为什么需要使用十堰高防服务器?

十堰高防服务器的核心价值与应用必要性 一、‌应对复杂攻击的防御能力‌ ‌T级DDoS攻击防护‌ 十堰高防服务器搭载 ‌T级清洗中心‌,支持智能流量调度与分层处理,可抵御 ‌800Gbps-1.2Tbps‌ 的大规模混合攻击(如SYN Flood、UDP反射&#xff…

人工智能中的线性代数基础详解

‌ 线性代数是人工智能领域的重要数学基础之一,是人工智能技术的底层数学支柱,它为数据表示、模型构建和算法优化提供了核心工具。其核心概念与算法应用贯穿数据表示、模型训练及优化全过程。更多内容可看我文章:人工智能数学基础详解与拓展-CSDN博客 一、基本介绍 …

【毕业论文格式】word分页符后的标题段前间距消失

文章目录 【问题描述】 分页符之后的段落开头,明明设置了标题有段前段后间距,但是没有显示间距: 【解决办法】 选中标题,选择边框 3. 选择段前间距,1~31磅的一个数 结果

【蓝桥杯每日一题】3.16

🏝️专栏: 【蓝桥杯备篇】 🌅主页: f狐o狸x 目录 3.9 高精度算法 一、高精度加法 题目链接: 题目描述: 解题思路: 解题代码: 二、高精度减法 题目链接: 题目描述&…

2.7 滑动窗口专题:串联所有单词的子串

LeetCode 30. 串联所有单词的子串算法对比分析 1. 题目链接 LeetCode 30. 串联所有单词的子串 2. 题目描述 给定一个字符串 s 和一个字符串数组 words,words 中所有单词长度相同。要求找到 s 中所有起始索引,使得从该位置开始的连续子串包含 words 中所…

电脑实用小工具--VMware常用功能简介

一、创建、编辑虚拟机 1.1 创建新的虚拟机 详见文章新创建虚拟机流程 1.2 编辑虚拟机 创建完成后,点击编辑虚拟机设置,可对虚拟机内存、处理器、硬盘等各再次进行编辑设置。 二、虚拟机开关机 2.1 打开虚拟机 虚拟机创建成功后,点击…

为训练大模型而努力-分享2W多张卡通头像的图片

最近我一直在研究AI大模型相关的内容,想着从现在开始慢慢收集各种各样的图片,万一以后需要训练大模型的时候可以用到,或者自己以后也许会需要。于是决定慢慢收集这些图片,为未来的学习和训练大模型做一些铺垫,哈哈。 …

JVM 垃圾回收器的选择

一:jvm性能指标吞吐量以及用户停顿时间解释。 二:垃圾回收器的选择。 三:垃圾回收器在jvm中的配置。 四:jvm中常用的gc算法。 一:jvm性能指标吞吐量以及用户停顿时间解释。 在 JVM 调优和垃圾回收器选择中&#xff0…

使用GPTQ量化Llama-3-8B大模型

使用GPTQ量化8B生成式语言模型 服务器配置:4*3090 描述:使用四张3090,分别进行单卡量化,多卡量化。并使用SGLang部署量化后的模型,使用GPTQ量化 原来的模型精度为FP16,量化为4bit 首先下载gptqmodel量化…

2025-03-16 学习记录--C/C++-PTA 习题4-2 求幂级数展开的部分和

合抱之木,生于毫末;九层之台,起于累土;千里之行,始于足下。💪🏻 一、题目描述 ⭐️ 习题4-2 求幂级数展开的部分和 已知函数e^x可以展开为幂级数1xx^2/2!x^3/3!⋯x^k/k!⋯。现给定一个实数x&a…

【C#】Http请求设置接收不安全的证书

在进行HTTP请求时&#xff0c;出现以下报错&#xff0c;可设置接收不安全证书跳过证书验证&#xff0c;建议仅测试环境设置&#xff0c;生产环境可能会造成系统漏洞 /// <summary> /// HttpGet请求方法 /// </summary> /// <param name"requestUrl"&…

AP AR

混淆矩阵 真实值正例真实值负例预测值正例TPFP预测值负例FNTN &#xff08;根据阈值预测&#xff09; P精确度计算&#xff1a;TP/(TPFP) R召回率计算&#xff1a;TP/(TPFN) AP 综合考虑P R 根据不同的阈值计算出不同的PR组合&#xff0c; 画出PR曲线&#xff0c;计算曲线…

Leetcode-1278.Palindrome Partitioning III [C++][Java]

目录 一、题目描述 二、解题思路 【C】 【Java】 Leetcode-1278.Palindrome Partitioning IIIhttps://leetcode.com/problems/palindrome-partitioning-iii/description/1278. 分割回文串 III - 力扣&#xff08;LeetCode&#xff09;1278. 分割回文串 III - 给你一个由小写…

C++特性——智能指针

为什么需要智能指针 对于定义的局部变量&#xff0c;当作用域结束之后&#xff0c;就会自动回收&#xff0c;这没有什么问题。 当时用new delete的时候&#xff0c;就是动态分配对象的时候&#xff0c;如果new了一个变量&#xff0c;但却没有delete&#xff0c;这会造成内存泄…

ctf web入门知识合集

文章目录 01做题思路02信息泄露及利用robots.txt.git文件泄露dirsearch ctfshow做题记录信息搜集web1web2web3web4web5web6web7web8SVN泄露与 Git泄露的区别web9web10 php的基础概念php的基础语法1. PHP 基本语法结构2. PHP 变量3.输出数据4.数组5.超全局变量6.文件操作 php的命…

MySQL-存储过程和自定义函数

存储过程 存储过程&#xff0c;一组预编译的 SQL 语句和流程控制语句&#xff0c;被命名并存储在数据库中。存储过程可以用来封装复杂的数据库操作逻辑&#xff0c;并在需要时进行调用。 使用存储过程 创建存储过程 create procedure 存储过程名() begin存储过程的逻辑代码&…

图——表示与遍历

图的两种主要表示方法 图有两种常用的表示方法&#xff0c;一种是邻接表法&#xff08;adjacency-list&#xff09;&#xff0c;另一种是邻接矩阵法&#xff08;adjacency-matrix&#xff09;。 邻接表法储存数据更紧凑&#xff0c;适合稀疏的图&#xff08;sparse graphs&am…

新手村:数据预处理-异常值检测方法

机器学习中异常值检测方法 一、前置条件 知识领域要求编程基础Python基础&#xff08;变量、循环、函数&#xff09;、Jupyter Notebook或PyCharm使用。统计学基础理解均值、中位数、标准差、四分位数、正态分布、Z-score等概念。机器学习基础熟悉监督/无监督学习、分类、聚类…