- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

[洞察] 企业AI场景 + DeepSeek R1意味着什么？

郑岩 - 我是郑大师~ 发表于 2025/03/05 16:53:09 2025/03/05

【摘要】 DeepSeek R1发布和开源，一方面帮我们补齐了对于OpenAI o系列推理模型如何训练的疑问，另一方面，也使得我们可以更加充分的探讨推理模型应用和意义。

题记：

DeepSeek R1发布和开源，一方面帮我们补齐了对于OpenAI o系列推理模型如何训练的疑问，另一方面，也使得我们可以更加充分的探讨推理模型应用和意义。

TL;DR，本篇核心探讨：

推理模型修炼过程中，展现出三个值得关注的新趋势：
1）端到端强化学习
2）“蒸馏大法”
3）AI真的“会”逻辑思考
推理模型如何使用：
1）与传统大模型的区别：提示词从“下达指令”到“表达需求”
2）使用方式有什么区别：API多了reasoning_content字段
3）当前的几个短板和展望：推理性能、泛化能力、幻觉问题、提示词遵从
结合推理模型的特点，探讨三个可以被打穿的企业应用场景：
1）多工具调用的Agent场景
2）拥有清晰评价标准的封闭场景
3）知识密集的复杂问题解决场景
在DeepSeek R1的喧嚣中，被掩盖的信息和趋势：OpenAI Deep Research、Gemini 2.0、Qwen 2.5-Max等
推理模型还留下几个未解之谜，有待跟进：逻辑思维数据怎么准备？本质是训练还是激活？基模型蒸馏怎么破？

1. 推理模型如何训练的、如何使用？

为了填上篇的坑，这里还是要带一下，推理模型训练过程中的一些值得关注的技术方案。由于OpenAI o3的情况依然不清楚，但是DeepSeek R1和Kimi K1.5的论文都发了，基本上套路类似、殊途同归，所以这里就基于这俩来探讨推理模型的实现逻辑。

1.1 先对比一下OpenAI o1/o3和DeepSeek R1、Kimi K1.5

下面这张图的数据是我从几个论文和OpenAI官网上扒拉的，就是为了有个直观感受：

DeepSeek R1和Kimi K1.5已经大致追上OpenAI o1直逼OpenAI o3-mini (high)，但OpenAI o3还是yylx的
DeepSeek R1确实比Kimi K1.5优秀，但是K1.5是多模态、长上下文，而DeepSeek R1只有文本
如果再加上DeepSeek R1又开源了代码和参数，还开放了论文，相比之下，活该K1.5的声音被淹没了呀…

所以，Kimi K1.5被盖住也是有原因的…既不开源，也不够强，不过论文还是挺有用的。

1.2 DeepSeek R1是怎么来的？

这里我不做展开，因为公司内外讲这块的材料太多太多，如果真的是感兴趣，强烈推荐，挂上豆包，去看看R1的论文，没几页，也不复杂，很快就看完了。

DeepSeek R1论文地址

简单说，大致步骤如下：

先用纯强化学习，基于DeepSeek V3搞了个R1-Zero，见证了aha moment，水平可以，就是语无伦次
为了解决这个问题，就又搞了一轮改进版：用两轮SFT+RL，继续从V3开始训，搞出来了R1，效果直逼OpenAI o1
最后有蒸馏了80万数据，吐给Qwen和Llama，发现效果都不错

（原谅我，觉得网上的图太复杂，自己画了一下，确实有点糙…）

上面这不是最关键的，最关键的是，OpenAI认为，DeepSeek R1确实独立发现了o系列模型的训练方法，那么这里的细节就值得研究下。

1.3 Kimi K1.5是怎么来的？

除了DeepSeek R1，与其同一天发布论文的还有Kimi K1.5（的论文），当然Kimi也同一天上线了其K1.5模型，但相比于R1除了数据全部都开源，还是欠了一点诚意，所以就彻底被掩盖了。
（已经比CloseAI好了一点，但是跟DeepSeek格局上还有差距）

简单说，Kimi K1.5的逻辑，是DeepSeek R1的简化版，只有一轮SFT+RL，但是追求了更长的上下文和全模态。

Kimi K1.5论文地址

1.4 推理模型训练过程中，值得关注的技术方向

1.4.1 纯强化学习，确实能让AI大模型做推理

其实，我个人认为，长期来看，相比于DeepSeek R1，更重要的是DeepSeek R1-Zero，因为这是Pure RL的第一枪（开源系）。从刚发布的OpenAI Deep Research的技术报告看，也是E2E RL。

从R1的实现来看，差不多迭代了9000~10000轮，就能达到超过o1的效果。

使用的策略也非常简单：Rule Based，有多简单呢，就下面这俩

答案对不对
格式是不是带think标签

这个方式整体上非常简单，使得之前OpenAI放出来的“烟雾弹”，包括PRM、MCTS这些技术并不需要纳入。（不确定未来是不是能解，目前看是不用）

DeepSeek R1的论文里提到了两者的难点所在：一个是性价不不高，一个是太复杂没法玩儿。同样的，Kimi K1.5的论文里同样提到：PRM、MCTS这些技术不需要，总之，殊途同归吧。

纯强化学习，这个玩法告诉我们： 完全没有任何人类监督数据，只有题目和评价策略，就能打爆一个垂域场景，这是给我最大的启发。

不仅如此，还彻底解决了之前大家不知道怎么准备数据的问题，大家都看到了更好的数据可以教给LLM怎么干活，但是怎么准备更好的垂域数据？专家的思考逻辑怎么写，真的找一堆高级别专家一个字一个字的敲嘛。现在都不用了，哪怕用也只要很少量就行。

（详见论文第6-7页）

另外，整个大逻辑，还要结合AlphaGo系列来看，从AlphaGo，到AlphaGo Zero，只是前两步（从需要人教怎么下棋，到完全不需要人教，自我对弈），同样的R1-Zero只是第二步，后面还要再泛化到更多场景。

ps，这么对比，有一点点不严谨：AlphaGo Zero是没有任何预训练的，而DeepSeek R1-Zero是基于V3来的，所以某种意义上也做了一波预训练。不过反过来想，目前DeepSeek V3的预训练更多是一种初始化，主要问题还是AI大模型目前还没办法直接跟世界做反馈，未来也许配合上具身智能的反馈，可能可以从0开始做。

1.4.2 “蒸馏大法”，蜂王浆确实好使

他们做了一个有趣的尝试，用DeepSeek R1蒸馏了80万条数据，直接SFT微调几个开源的基模型，没加任何额外的训练：

这里最优秀的当属Qwen-32B，碾压了OpenAI-o1-mini，与Open-o1还有一丢丢差距，但已经不太大了（参考上上图）。

这事儿他们还做了另一个实验，就是直接用Qwen-32B来搞Pure RL，结果发现效果不好：

还给了个结论：这基模型不够强大，还是得牛逼的模型往下传授功力好些。

外加上最近这段时间，各个团队都在疯狂的探索“蒸馏大法”，比如李飞飞学生就用Gemini 2.0 Flash Experimental蒸馏了1000条数据，SFT了Qwen-32，号称也能在一些评测集上超过OpenAI-o1-preview，SFT这一下只花了20$。所以，总体上大致有个感受，就是蒸馏对数据量和成本要求并不高，但要求数据质量很高，带高质量的思维逻辑在里面。

我有个不太恰当的比方：有点像嫁接，在垃圾花枝上嫁接牡丹，第二年也能开牡丹花。对比模型，就是弱鸡模型打了凤凰血，能力也大幅提升了，而且尺寸更小（算力要求更低）。还有个小观察点，我发现大家都喜欢Qwen-32作为胚子，说明这模型还行。

然后，关于蒸馏这事儿，也不是新东西，之前通用LLM的时候，大家就都去爬GPT4的数据，训一个不错的LLM来，某种意义上也是蒸馏。只不过Reasoning Model之前最强的o1系列，限定了不输出提示词（OpenAI怕这个，是为了拖大家进度吧），而且成本200美刀，又限定访问次数，导致大家没答案抄。这把开源以后，我相信能大幅提升业界的平均线，不过要超过母体，还是要卷基模型或者卷更高质量的数据的吧。

“蒸馏大法”，这个玩法告诉我们： 能力更强的推理大模型，吐出来的逻辑推理数据，蕴含着大量的know-how，可以帮助一个更小、更弱鸡的模型来快速提升（服我仙丹，鸡犬升天的赶脚…）

（详见论文第13-14页）

ps，这哪里是蒸馏大法，分明是吸星大法，这里其实带来了另一个隐忧，谁当“大怨种”？

1.4.3 逻辑思考这事儿，AI大模型还挺擅长的

这个推论确实有点一时间难以接受，不过大致用了半个多月DeepSeek R1和Kimi K1.5以后，发现人家AI思维能力挺好的…

这是前几天的一个实际case，个人实际感受上，觉得Kimi K1.5的思维链更严谨：

另外，值得一提，DeepSeek R1-Zero出来以后，展现出中英混杂和可读性的问题，但是最终结果是对的，这也很有意思。我认为这恰恰是一种“返祖现象”，对齐人类语言未必是大模型的本质，谁说AI大模型不能有自己的语言呢？

2. 推理模型的如何使用？

2.1 推理模型与传统通用大模型有啥区别？

这里主要是想同步下，大家对于推理模型使用方式在提示词方面的差异。

当然，我还是引用R1论文里的一句话：

简单说，就是别多说话、别瞎喊和，直接提问题，让人家模型自己想。
（详见论文第16页）

（图片源自下面这个很好的科普讲座可以参考：）
《DeepSeek使用：从入门到精通》讲解视频+PDF-清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室

所以，我不禁要想，Prompt Enginerring这个岗位的寿命似乎又快走到尽头了。（迟早像下棋一样，AI不需要人教任何东西）

2.2 推理模型的使用方式是什么？

从本质上，跟传统通用模型没太多区别，唯一的区别就是多了个“reasoning_content”，如下是DeepSeek R1的API文档：

那么问题来了，我们之前的AI应用是要怎么改造。这里我看到两套说法：

方案1： 直接替换，有更好的，谁还需要之前那个傻子？
方案2： 配合着用，case by case，by场景做选择

从本质上看，我认为不存在方案2，一切只是时间问题，有更好的、更聪明的模型，一定是用更聪明的，一个傻瓜再快、再便宜，要来有啥用？

当然，当下需要时间补齐的就是下面这几个事儿。

2.3 当前推理模型的短板还有哪些？

目前看有几个最需要解决的问题：

推理性能： 我认为这是最迫切要解决的，目前看有几个方向：
- 一个是Kimi K1.5提到的用长CoT去训短CoT，提出了几种方式，包括模型合并、长度惩罚等等，某种意义上是做了个一种折中优化，让模型思考过程不要为了长而长。
- 另外一个方向就是更强的算力，把每秒Token数增加一到两个数量级，问题也就结局了。比如一个问题需要思考100秒，那就干到1秒嘛。我看到网上有人手用MI300x（价值200万一台），DS满血版可以1秒3500Token，那么多生成那几千、几万Token无非就是几秒的事儿，未来只会更快，我相信这是时间问题。
泛化能力： 由于Reasoning模型过度强调用代码和数学来做RL，导致通用能力衰减。不过目前从DeepSeek R1的评测情况看，R1和V3打的有来有回，并不是瘸腿偏科，我相信这个问题也是可以解决的。
幻觉问题： 幻觉源自几个方面：
- 一方面，推理模型本身就不懂这块东西，或者背景知识有限，上下文也没给足（这里其实也意味着对基模型的能力诉求）
- 另一方面，是推理过程中，模型确实在自己发挥，今天看到了一些case，也看到HIS的评测看板的数据，确实说明这里有些问题，需要解决
  
  同样的，Vectara的评测显示，R1比V3的幻觉高了非常多（这个问题还会随着蒸馏，传播给蒸馏模型，所以这是原生性问题…）
提示词遵从： 前面也提到了，提示词对Reasoning model来说会影响效果，而且大概率也不怎么work（就是说控制不住、不听话），这个今天我们看到了不少实例证明了这一点。这确实是个问题，某种意义上，还需要一个当下泛化性、遵从性更好的模型来补充。

综上，目前还有一些问题，但是目测都不是天花板，推论是成立的：以后不会存在所谓的通用模型和推理模型，只会存在一个“更好的AI大模型”。我认为，这就是代际的演进、是替代，而不是一个补充选项。

所以下面我们在评估企业场景应用时，会站在这个角度来思考和设计，再去结合现实情况，把耗时、泛化、幻觉和遵从的短板拿出来看。

2.4 补充：关于成本

上篇的时候，我探讨过OpenAI o3消耗了很多算力，R1出来一看，其实这分明就跟之前部署一个AI大模型一毛一样啊…并没有OpenAI所说的消耗了大量的计算资源（OpenAI耍我们？）

DeepSeek R1部署和部署DeepSeek V3一毛一样
DeepSeek R1-Distill-Qwen-2.5-32B和部署Qwen-2.5-32B一毛一样
…

所以，这里会有个有趣的结论：推理侧算力一定会大幅增加的（因为生成的Token数量多，所以占用GPU时更多些）

3. 推理模型如何在企业AI场景应用？

我大致盘了下，感觉下面这三个场景是第一波可以被打穿的。

3.1 多工具调用的Agent场景

一个Agent场景要能work，且不要退而求其次（自欺欺人），做成RPA，核心就是reasoning的能力，这块我想复用AgentForce的一页图，这个图最简单直接，本质上Agent的发动机就是Reasoning Engine：

之前大家苦于LLM幻觉问题、准确性问题、思考深度问题，这一波就都解决了。

不如设想一下，既然数学题可以做，企业的“封闭场景”任务拆解和规划，一样可以解。通过一些有效的{问题}+{推理过程}+{答案}，加上一些轮次的RL，就可以强化学习，训出一个真正懂如何干活儿的Reasoning模型。

3.2 拥有清晰评价标准的封闭场景

所谓“封闭场景”，业界也没有标准，个人认为，就是计算机很容易做优劣判断的场景。

只有计算机能自动做评价，这个场景就能进入RL流水线，自我迭代，最终有望达成目标。

首当其冲，是一些数理统计、分析场景，编码场景，统计分析有数值结果，编码有测试用例。都是有清晰的准确的答案，

然后，是一些业务场景，这里不妨做个判断题，拿最近收到的一些实际业务场景诉求：

解决方案市场空间洞察与分析场景 – NOK，非封闭场景
运维事件问题分析定界场景（有故障树辅助）-- OK，封闭场景
标书答标场景 – OK，封闭场景
客户拜访交流PPT书写 – NOK，非封闭场景

3.3 知识密集的复杂问题解决场景

这部分是为了对比之前的简单问答场景，我认为之前LLM做RAG都是简单问答，直来直往的实时性问题才有价值。相反的，对于拐弯抹角的问题，需要反复斟酌、思考、补齐信息的场景，RAG的方案根本不够，而搞AgenticRAG又受限于LLM的脑子不太好，推多了效果更差。

但是，体验了DeepSeek R1或者Kimi K1.5 + 联网搜索的同学都一定有感觉，通过多轮次的思考、补齐信息、反思、理解，最终得到一个解决方案，大概率是对的，准确度提升不少。

我们用现网的badcase来测试R1-Distill模型，发现拉长推理时间，确实能提升20%~30%的准确度。

这块也建议去看OpenAI Deep Research的技术报告，主打的就是这个场景。其本质上就是一个Agent，里面做了一些工程化的方案，从评估结果上看，确实能够再度提升整体的效果，当然换来的就是更长的推理时间。

Introducing deep research

4. 在DeepSeek的喧嚣中被掩盖的信息

下面这些事儿，都是最近这一两周发生的，这让我再次嗅到了GPT3.5和ChatGPT发布后的那段时间，每天都有大事发生的感觉。

4.1 OpenAI的Deep Search

基于o3，也是端到端RL，能做多步自主研究、深度浏览互联网、整合信息（特别适合搞洞察的同学），这再次证明了端到端RL的方向正确性（人类监督某种意义上进入过去式）

4.2 Google Gemini 2.0

Gemini 2.0 Flash的成本比DeepSeek V3低6倍、输出速度快60倍、上下文长16倍，并原生支持所有模态。证明了DeepSeek V3的低成本和效果，也成了过去式，征程在前，来不及驻足自赏。

4.3 阿里的Qwen 2.5 Max

同样在指标上超过DeepSeek V3，但最让我感兴趣的是，在某些个别的数学和编程测试集上，超过了R1，这让我不禁在想：也许推理模型和通用LLM模型之间，并没有鸿沟，可能未来会合并成一个，或者成为一种能力。

5. 还留下几个未解之谜，有待跟进

DeepSeek R1的那几千条冷启动数据集到底是啥？

DS虽然公开了代码和模型，但并没有公开数据
这对我们从企业垂域打透一个场景来说至关重要，又要卷数据了（这里参见LIMO，817条数据+逻辑链）

到底是RL训练出的推理能力，还是激活了LLM里压缩的万亿Token背后的潜能？

目前看到有几篇报告提出质疑，表示貌似不是训的，而是LLM本来就有这些能力
这对于我们如何跟进和选择技术，也非常重要，毕竟复制没有未来，得摸着OpenAI和DS过河（ps，DS也摸着OpenAI过河）

“蒸馏大法”好，训基模型的ROI怎么算都划不来，谁来持续卷基模型、预训练？怎么防？

我又在想，去年看ilya说，预训练时代已经结束，当时没懂，现在有点懂了…
以后模型安全是否会加一条：防蒸馏？怎么防？？？
基模型的能力对推理能力至关重要，不卷又不行（毕竟孩子还是爹妈生的…）

6. 最后，见证完历史，八卦一下感受

DeepSeek R1自打春节档发布以来，最让我感慨的瞬间，当属大年初二在某个五线小城车站旁的小餐馆里，隔壁桌几位路人在畅聊DeepSeek…全民就这样被彻底“教育”了，上一波全民AI热，还停留在2023年ChatGPT刚发布的时候。

然后网上开始神话幻方和梁文峰，我认为，可以敬佩，但大可不必造神，才刚刚开始，还是要辩证性的来看DeepSeek的技术方案，Kimi K1.5的文章同样提到很多值得借鉴的思路，比如长上下文的价值。整个赛道上的其他玩家们还在继续卷，这条路还长得很…

DeepSeek只是一个阶段性里程碑，或者一个符号，方向已经清晰，未来还会有其他更强的本土公司、人才、模型出来（ps，截止目前，DS R1还是开源界TOP1，V3已经易主）

最最后，想起梁宁老师的“点线面体”，感谢前辈们赏饭，使得我们搞AI应用的小伙伴们，职业生涯可以再续几年~~~稳了 :D

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

[洞察] 企业AI场景 + DeepSeek R1意味着什么？

题记：

目录

1. 推理模型如何训练的、如何使用？

1.1 先对比一下OpenAI o1/o3和DeepSeek R1、Kimi K1.5

1.2 DeepSeek R1是怎么来的？

1.3 Kimi K1.5是怎么来的？