大模型推理新范式:Chain of Draft 更快思考
大模型推理新范式:Chain of Draft 更快思考
在大语言模型(LLMs)的快速发展进程中,如何让模型更高效地处理复杂任务,成为了研究的关键方向。论文“Chain of Draft: Thinking Faster by Writing Less”提出了一种全新的范式——Chain of Draft(CoD),为提升 LLMs 的推理效率带来了新的思路。
一、研究背景:大模型推理的困境与机遇
随着 OpenAI 的 o1、DeepSeek 的 R1 等推理模型的发展,LLMs 在复杂任务上取得了显著进展,其中 Chain-of-Thought(CoT)提示技术功不可没。CoT 让模型像人类进行结构化推理一样,将问题逐步拆解解决,有效提升了模型准确性。但实际应用中,这种方式存在明显缺陷:推理过程冗长、输出内容繁杂,不仅耗费大量计算资源,还导致推理延迟增加。
反观人类解决问题的过程,往往通过简洁的草稿、便签记录关键信息,快速抓住问题核心推进思考。受此启发,论文作者提出 CoD,旨在让 LLMs 模仿这种高效思考方式,推理时生成简洁却包含关键信息的中间结果,在提升效率的同时不牺牲准确性。
二、相关研究:探寻大模型推理优化之路
(一)结构化推理框架的发展
近年来,OpenAI o1、DeepSeek R1、阿里巴巴 QwQ 等推理模型不断涌现,它们借助 CoT 推理、树状和图状拓扑结构推理等结构化方法,增强模型鲁棒性和问题解决能力。同时,自我一致性 CoT、ReAct 等技术也提升了推理可靠性,拓展了模型获取外部知识的能力。但这些方法普遍存在推理过程繁琐、资源消耗大的问题。
(二)LLM 推理延迟优化技术
为降低推理延迟,研究人员尝试了多种方法:
- 流媒体技术:逐步输出部分结果减少用户感知延迟,但无法降低整体延迟和计算成本,不适合 CoT 推理;
- Skeleton-of-Thought(SoT):先生成答案框架再并行解码,虽降低延迟,但无法减少计算成本,对可并行化问题有局限性;
- Coconut:在连续潜在空间推理,减少延迟和成本,但复杂任务准确性下降,失去自然语言推理的可解释性;
- Concise Thoughts(CCoT):为推理步骤设定固定全局 token 预算,适配性差,模型可能不遵守预算;
- token-budget-aware LLM reasoning(TALE):动态估计预算,但额外调用 LLM 增加延迟,复杂任务中预测推理复杂性的能力有限。
相比之下,CoD 采用每步预算的方式,推理步骤不受限,适应性更强。
三、CoD 策略:简洁高效的推理新路径
(一)CoD 的核心思想
CoD 的设计灵感源于人类思考时记录草稿的行为。面对数学计算、写作、编程等复杂任务,人们会提取关键信息,用简洁方式记录中间思考过程。CoD 让 LLMs 模仿这一行为,推理过程中每个步骤只生成简洁且信息丰富的内容,摒弃不必要细节,专注于关键计算和转换,以此提升推理效率。
(二)具体示例对比
以算术题“Jason 有 20 根棒棒糖,给了 Denny 一些后,还剩 12 根,Jason 给了 Denny 多少根棒棒糖?”为例,三种提示策略的差异如下:
- 标准提示策略:直接给出答案“8”,无推理过程,缺乏透明度,复杂问题易出现幻觉;
- CoT 提示策略:详细逐步推导,虽准确可解释,但包含过多无关信息,导致 token 数增加、延迟变长。具体推理如下:
Let’s think through this step by step:
- Initially, Jason had 20 lollipops.
- After giving some to Denny, Jason now has 12 lollipops.
- To find out how many lollipops Jason gave to Denny, we need to calculate the difference between the initial number of lollipops and the remaining number.
- We can set up a simple subtraction problem: Initial number of lollipops - Remaining number of lollipops = Lollipops given to Denny
- Putting in the numbers: 20-12=Lollipops given to Denny
- Solving the subtraction: 20-12=8
Therefore, Jason gave 8 lollipops to Denny.
- CoD 提示策略:简化为“20 - x = 12; x = 20 - 12 = 8”,仅保留关键数学运算,兼顾准确性和透明度,大幅减少 token 使用。
四、实验过程:严谨验证 CoD 的实力
(一)实验设置
- 任务选择:算术推理(GSM8k 数据集)、常识推理(BIG-bench 中的日期理解、体育理解任务)、符号推理(自行合成的硬币翻转任务);
- 对比策略:标准提示策略、CoT 提示策略、CoD 提示策略;
- 实验模型:OpenAI 的 GPT-4o、Anthropic 的 Claude 3.5 Sonnet;
- CoD 规则:每个推理步骤最多使用 5 个单词,为每个示例提供人工编写的草稿链。
(二)实验结果
- 算术推理(GSM8k 数据集)
| 模型 | 提示策略 | 准确率 | Token 数量 | 延迟 |
|---------------------|------------|--------|------------|-------|
| GPT-4o | Standard | 53.3% | 1.1 | 0.6s |
| GPT-4o | CoT | 95.4% | 205.1 | 4.2s |
| GPT-4o | CoD | 91.1% | 43.9 | 1.0s |
| Claude 3.5 Sonnet | Standard | 64.6% | 1.1 | 0.9s |
| Claude 3.5 Sonnet | CoT | 95.8% | 190.0 | 3.1s |
| Claude 3.5 Sonnet | CoD | 91.4% | 39.8 | 1.6s |
CoD 保持 91% 左右准确率的同时,响应 token 数减少 80%,平均延迟分别降低 76.2%(GPT-4o)和 48.4%(Claude 3.5 Sonnet)。
-
常识推理——日期理解任务
| 模型 | 提示策略 | 准确率 | Token 数量 | 延迟 |
|---------------------|------------|--------|------------|-------|
| GPT-4o | Standard | 72.6% | 5.2 | 0.6s |
| GPT-4o | CoT | 90.2% | 75.7 | 1.7s |
| GPT-4o | CoD | 88.1% | 30.2 | 1.3s |
| Claude 3.5 Sonnet | Standard | 84.3% | 5.2 | 1.0s |
| Claude 3.5 Sonnet | CoT | 87.0% | 172.5 | 3.2s |
| Claude 3.5 Sonnet | CoD | 89.7% | 31.3 | 1.4s | -
常识推理——体育理解任务
| 模型 | 提示策略 | 准确率 | Token 数量 | 延迟 |
|---------------------|------------|--------|------------|-------|
| GPT-4o | Standard | 90.0% | 1.0 | 0.4s |
| GPT-4o | CoT | 95.9% | 28.7 | 0.9s |
| GPT-4o | CoD | 98.3% | 15.0 | 0.7s |
| Claude 3.5 Sonnet | Standard | 90.6% | 1.0 | 0.9s |
| Claude 3.5 Sonnet | CoT | 93.2% | 189.4 | 3.6s |
| Claude 3.5 Sonnet | CoD | 97.3% | 14.3 | 1.0s |
CoD 在体育理解任务中表现突出,Claude 3.5 Sonnet 的响应 token 数减少 92.4%,准确率反而提升。
- 符号推理——硬币翻转任务
| 模型 | 提示策略 | 准确率 | Token 数量 | 延迟 |
|---------------------|------------|--------|------------|-------|
| GPT-4o | Standard | 73.2% | 1.0 | 0.4s |
| GPT-4o | CoT | 100.0% | 52.4 | 1.4s |
| GPT-4o | CoD | 100.0% | 16.8 | 0.8s |
| Claude 3.5 Sonnet | Standard | 85.2% | 1.0 | 1.2s |
| Claude 3.5 Sonnet | CoT | 100.0% | 135.3 | 3.1s |
| Claude 3.5 Sonnet | CoD | 100.0% | 18.9 | 1.6s |
CoD 与 CoT 均达到 100% 准确率,且 token 数大幅减少(GPT-4o 减少 68%,Claude 3.5 Sonnet 减少 86%)。
(三)局限性分析
- 零样本设置下的表现:不提供少样本示例时,CoD 效果明显下降。Claude 3.5 Sonnet 使用 CoD 仅提升 3.6% 性能,token 节省效果也不如少样本设置,推测因模型训练数据中缺乏 CoD 风格推理模式。
- 在小模型上的应用:参数少于 3B 的小语言模型中,CoD 虽能减少 token 数并提高准确率,但与 CoT 的性能差距更为明显。研究人员认为,用 CoD 格式数据微调小模型,有望提升其推理准确性。
五、研究意义与展望
(一)研究意义
CoD 为 LLMs 推理优化带来重要突破:效率上,不牺牲准确性的同时大幅降低推理延迟,适配实时性要求高的场景;成本上,减少输入输出 token 数量,降低计算成本,对大规模部署或预算有限的应用具有显著经济价值;思路上,证明 LLMs 有效的推理不依赖冗长输出,为模型推理提供了新方向。
(二)未来展望
未来可探索将 CoD 与自适应并行推理、多轮验证等方法结合,进一步优化不同领域模型性能;还可基于 CoD 的紧凑推理原则,用紧凑推理数据训练模型,在保持可解释性和效率的同时,提升推理能力,更好地满足实际应用需求。
CoD 作为创新的推理范式,为大语言模型发展注入了新活力。随着研究深入,相信它将在更多领域发挥重要作用,推动人工智能技术迈向新高度。
- 点赞
- 收藏
- 关注作者
评论(0)