大模型推理新范式:Chain of Draft 更快思考

举报
qinggedada 发表于 2025/10/23 17:18:24 2025/10/23
【摘要】 大模型推理新范式:Chain of Draft 更快思考在大语言模型(LLMs)的快速发展进程中,如何让模型更高效地处理复杂任务,成为了研究的关键方向。论文“Chain of Draft: Thinking Faster by Writing Less”提出了一种全新的范式——Chain of Draft(CoD),为提升 LLMs 的推理效率带来了新的思路。 一、研究背景:大模型推理的困...

大模型推理新范式:Chain of Draft 更快思考

在大语言模型(LLMs)的快速发展进程中,如何让模型更高效地处理复杂任务,成为了研究的关键方向。论文“Chain of Draft: Thinking Faster by Writing Less”提出了一种全新的范式——Chain of Draft(CoD),为提升 LLMs 的推理效率带来了新的思路。

一、研究背景:大模型推理的困境与机遇

随着 OpenAI 的 o1、DeepSeek 的 R1 等推理模型的发展,LLMs 在复杂任务上取得了显著进展,其中 Chain-of-Thought(CoT)提示技术功不可没。CoT 让模型像人类进行结构化推理一样,将问题逐步拆解解决,有效提升了模型准确性。但实际应用中,这种方式存在明显缺陷:推理过程冗长、输出内容繁杂,不仅耗费大量计算资源,还导致推理延迟增加。

反观人类解决问题的过程,往往通过简洁的草稿、便签记录关键信息,快速抓住问题核心推进思考。受此启发,论文作者提出 CoD,旨在让 LLMs 模仿这种高效思考方式,推理时生成简洁却包含关键信息的中间结果,在提升效率的同时不牺牲准确性。

二、相关研究:探寻大模型推理优化之路

(一)结构化推理框架的发展

近年来,OpenAI o1、DeepSeek R1、阿里巴巴 QwQ 等推理模型不断涌现,它们借助 CoT 推理、树状和图状拓扑结构推理等结构化方法,增强模型鲁棒性和问题解决能力。同时,自我一致性 CoT、ReAct 等技术也提升了推理可靠性,拓展了模型获取外部知识的能力。但这些方法普遍存在推理过程繁琐、资源消耗大的问题。

(二)LLM 推理延迟优化技术

为降低推理延迟,研究人员尝试了多种方法:

  • 流媒体技术:逐步输出部分结果减少用户感知延迟,但无法降低整体延迟和计算成本,不适合 CoT 推理;
  • Skeleton-of-Thought(SoT):先生成答案框架再并行解码,虽降低延迟,但无法减少计算成本,对可并行化问题有局限性;
  • Coconut:在连续潜在空间推理,减少延迟和成本,但复杂任务准确性下降,失去自然语言推理的可解释性;
  • Concise Thoughts(CCoT):为推理步骤设定固定全局 token 预算,适配性差,模型可能不遵守预算;
  • token-budget-aware LLM reasoning(TALE):动态估计预算,但额外调用 LLM 增加延迟,复杂任务中预测推理复杂性的能力有限。

相比之下,CoD 采用每步预算的方式,推理步骤不受限,适应性更强。

三、CoD 策略:简洁高效的推理新路径

(一)CoD 的核心思想

CoD 的设计灵感源于人类思考时记录草稿的行为。面对数学计算、写作、编程等复杂任务,人们会提取关键信息,用简洁方式记录中间思考过程。CoD 让 LLMs 模仿这一行为,推理过程中每个步骤只生成简洁且信息丰富的内容,摒弃不必要细节,专注于关键计算和转换,以此提升推理效率。

(二)具体示例对比

以算术题“Jason 有 20 根棒棒糖,给了 Denny 一些后,还剩 12 根,Jason 给了 Denny 多少根棒棒糖?”为例,三种提示策略的差异如下:

  • 标准提示策略:直接给出答案“8”,无推理过程,缺乏透明度,复杂问题易出现幻觉;
  • CoT 提示策略:详细逐步推导,虽准确可解释,但包含过多无关信息,导致 token 数增加、延迟变长。具体推理如下:

    Let’s think through this step by step:

    1. Initially, Jason had 20 lollipops.
    2. After giving some to Denny, Jason now has 12 lollipops.
    3. To find out how many lollipops Jason gave to Denny, we need to calculate the difference between the initial number of lollipops and the remaining number.
    4. We can set up a simple subtraction problem: Initial number of lollipops - Remaining number of lollipops = Lollipops given to Denny
    5. Putting in the numbers: 20-12=Lollipops given to Denny
    6. Solving the subtraction: 20-12=8
      Therefore, Jason gave 8 lollipops to Denny.
  • CoD 提示策略:简化为“20 - x = 12; x = 20 - 12 = 8”,仅保留关键数学运算,兼顾准确性和透明度,大幅减少 token 使用。

四、实验过程:严谨验证 CoD 的实力

(一)实验设置

  • 任务选择:算术推理(GSM8k 数据集)、常识推理(BIG-bench 中的日期理解、体育理解任务)、符号推理(自行合成的硬币翻转任务);
  • 对比策略:标准提示策略、CoT 提示策略、CoD 提示策略;
  • 实验模型:OpenAI 的 GPT-4o、Anthropic 的 Claude 3.5 Sonnet;
  • CoD 规则:每个推理步骤最多使用 5 个单词,为每个示例提供人工编写的草稿链。

(二)实验结果

  1. 算术推理(GSM8k 数据集)
    | 模型 | 提示策略 | 准确率 | Token 数量 | 延迟 |
    |---------------------|------------|--------|------------|-------|
    | GPT-4o | Standard | 53.3% | 1.1 | 0.6s |
    | GPT-4o | CoT | 95.4% | 205.1 | 4.2s |
    | GPT-4o | CoD | 91.1% | 43.9 | 1.0s |
    | Claude 3.5 Sonnet | Standard | 64.6% | 1.1 | 0.9s |
    | Claude 3.5 Sonnet | CoT | 95.8% | 190.0 | 3.1s |
    | Claude 3.5 Sonnet | CoD | 91.4% | 39.8 | 1.6s |

CoD 保持 91% 左右准确率的同时,响应 token 数减少 80%,平均延迟分别降低 76.2%(GPT-4o)和 48.4%(Claude 3.5 Sonnet)。

  1. 常识推理——日期理解任务
    | 模型 | 提示策略 | 准确率 | Token 数量 | 延迟 |
    |---------------------|------------|--------|------------|-------|
    | GPT-4o | Standard | 72.6% | 5.2 | 0.6s |
    | GPT-4o | CoT | 90.2% | 75.7 | 1.7s |
    | GPT-4o | CoD | 88.1% | 30.2 | 1.3s |
    | Claude 3.5 Sonnet | Standard | 84.3% | 5.2 | 1.0s |
    | Claude 3.5 Sonnet | CoT | 87.0% | 172.5 | 3.2s |
    | Claude 3.5 Sonnet | CoD | 89.7% | 31.3 | 1.4s |

  2. 常识推理——体育理解任务
    | 模型 | 提示策略 | 准确率 | Token 数量 | 延迟 |
    |---------------------|------------|--------|------------|-------|
    | GPT-4o | Standard | 90.0% | 1.0 | 0.4s |
    | GPT-4o | CoT | 95.9% | 28.7 | 0.9s |
    | GPT-4o | CoD | 98.3% | 15.0 | 0.7s |
    | Claude 3.5 Sonnet | Standard | 90.6% | 1.0 | 0.9s |
    | Claude 3.5 Sonnet | CoT | 93.2% | 189.4 | 3.6s |
    | Claude 3.5 Sonnet | CoD | 97.3% | 14.3 | 1.0s |

CoD 在体育理解任务中表现突出,Claude 3.5 Sonnet 的响应 token 数减少 92.4%,准确率反而提升。

  1. 符号推理——硬币翻转任务
    | 模型 | 提示策略 | 准确率 | Token 数量 | 延迟 |
    |---------------------|------------|--------|------------|-------|
    | GPT-4o | Standard | 73.2% | 1.0 | 0.4s |
    | GPT-4o | CoT | 100.0% | 52.4 | 1.4s |
    | GPT-4o | CoD | 100.0% | 16.8 | 0.8s |
    | Claude 3.5 Sonnet | Standard | 85.2% | 1.0 | 1.2s |
    | Claude 3.5 Sonnet | CoT | 100.0% | 135.3 | 3.1s |
    | Claude 3.5 Sonnet | CoD | 100.0% | 18.9 | 1.6s |

CoD 与 CoT 均达到 100% 准确率,且 token 数大幅减少(GPT-4o 减少 68%,Claude 3.5 Sonnet 减少 86%)。

(三)局限性分析

  1. 零样本设置下的表现:不提供少样本示例时,CoD 效果明显下降。Claude 3.5 Sonnet 使用 CoD 仅提升 3.6% 性能,token 节省效果也不如少样本设置,推测因模型训练数据中缺乏 CoD 风格推理模式。
  2. 在小模型上的应用:参数少于 3B 的小语言模型中,CoD 虽能减少 token 数并提高准确率,但与 CoT 的性能差距更为明显。研究人员认为,用 CoD 格式数据微调小模型,有望提升其推理准确性。

五、研究意义与展望

(一)研究意义

CoD 为 LLMs 推理优化带来重要突破:效率上,不牺牲准确性的同时大幅降低推理延迟,适配实时性要求高的场景;成本上,减少输入输出 token 数量,降低计算成本,对大规模部署或预算有限的应用具有显著经济价值;思路上,证明 LLMs 有效的推理不依赖冗长输出,为模型推理提供了新方向。

(二)未来展望

未来可探索将 CoD 与自适应并行推理、多轮验证等方法结合,进一步优化不同领域模型性能;还可基于 CoD 的紧凑推理原则,用紧凑推理数据训练模型,在保持可解释性和效率的同时,提升推理能力,更好地满足实际应用需求。

CoD 作为创新的推理范式,为大语言模型发展注入了新活力。随着研究深入,相信它将在更多领域发挥重要作用,推动人工智能技术迈向新高度。

【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。