[洞察] 企业AI场景 + DeepSeek R1意味着什么?
题记:
DeepSeek R1发布和开源,一方面帮我们补齐了对于OpenAI o系列推理模型如何训练的疑问,另一方面,也使得我们可以更加充分的探讨推理模型应用和意义。
TL;DR,本篇核心探讨:
- 推理模型修炼过程中,展现出三个值得关注的新趋势:
1) 端到端强化学习
2)“蒸馏大法”
3)AI真的“会”逻辑思考 - 推理模型如何使用:
1)与传统大模型的区别:提示词从“下达指令”到“表达需求”
2)使用方式有什么区别:API多了reasoning_content字段
3)当前的几个短板和展望:推理性能、泛化能力、幻觉问题、提示词遵从 - 结合推理模型的特点,探讨三个可以被打穿的企业应用场景:
1)多工具调用的Agent场景
2)拥有清晰评价标准的封闭场景
3)知识密集的复杂问题解决场景 - 在DeepSeek R1的喧嚣中,被掩盖的信息和趋势:OpenAI Deep Research、Gemini 2.0、Qwen 2.5-Max等
- 推理模型还留下几个未解之谜,有待跟进:逻辑思维数据怎么准备?本质是训练还是激活?基模型蒸馏怎么破?
目录
1. 推理模型如何训练的、如何使用?
为了填上篇的坑,这里还是要带一下,推理模型训练过程中的一些值得关注的技术方案。由于OpenAI o3的情况依然不清楚,但是DeepSeek R1和Kimi K1.5的论文都发了,基本上套路类似、殊途同归,所以这里就基于这俩来探讨推理模型的实现逻辑。
1.1 先对比一下OpenAI o1/o3和DeepSeek R1、Kimi K1.5
下面这张图的数据是我从几个论文和OpenAI官网上扒拉的,就是为了有个直观感受:
- DeepSeek R1和Kimi K1.5已经大致追上OpenAI o1直逼OpenAI o3-mini (high),但OpenAI o3还是yylx的
- DeepSeek R1确实比Kimi K1.5优秀,但是K1.5是多模态、长上下文,而DeepSeek R1只有文本
- 如果再加上DeepSeek R1又开源了代码和参数,还开放了论文,相比之下,活该K1.5的声音被淹没了呀…
所以,Kimi K1.5被盖住也是有原因的…既不开源,也不够强,不过论文还是挺有用的。
1.2 DeepSeek R1是怎么来的?
这里我不做展开,因为公司内外讲这块的材料太多太多,如果真的是感兴趣,强烈推荐,挂上豆包,去看看R1的论文,没几页,也不复杂,很快就看完了。
简单说,大致步骤如下:
- 先用纯强化学习,基于DeepSeek V3搞了个R1-Zero,见证了aha moment,水平可以,就是语无伦次
- 为了解决这个问题,就又搞了一轮改进版:用两轮SFT+RL,继续从V3开始训,搞出来了R1,效果直逼OpenAI o1
- 最后有蒸馏了80万数据,吐给Qwen和Llama,发现效果都不错
(原谅我,觉得网上的图太复杂,自己画了一下,确实有点糙…)
上面这不是最关键的,最关键的是,OpenAI认为,DeepSeek R1确实独立发现了o系列模型的训练方法,那么这里的细节就值得研究下。
1.3 Kimi K1.5是怎么来的?
除了DeepSeek R1,与其同一天发布论文的还有Kimi K1.5(的论文),当然Kimi也同一天上线了其K1.5模型,但相比于R1除了数据全部都开源,还是欠了一点诚意,所以就彻底被掩盖了。
(已经比CloseAI好了一点,但是跟DeepSeek格局上还有差距)
简单说,Kimi K1.5的逻辑,是DeepSeek R1的简化版,只有一轮SFT+RL,但是追求了更长的上下文和全模态。
1.4 推理模型训练过程中,值得关注的技术方向
1.4.1 纯强化学习,确实能让AI大模型做推理
其实,我个人认为,长期来看,相比于DeepSeek R1,更重要的是DeepSeek R1-Zero,因为这是Pure RL的第一枪(开源系)。从刚发布的OpenAI Deep Research的技术报告看,也是E2E RL。
从R1的实现来看,差不多迭代了9000~10000轮,就能达到超过o1的效果。
使用的策略也非常简单:Rule Based,有多简单呢,就下面这俩
- 答案对不对
- 格式是不是带think标签
这个方式整体上非常简单,使得之前OpenAI放出来的“烟雾弹”,包括PRM、MCTS这些技术并不需要纳入。(不确定未来是不是能解,目前看是不用)
DeepSeek R1的论文里提到了两者的难点所在:一个是性价不不高,一个是太复杂没法玩儿。同样的,Kimi K1.5的论文里同样提到:PRM、MCTS这些技术不需要,总之,殊途同归吧。
纯强化学习,这个玩法告诉我们: 完全没有任何人类监督数据,只有题目和评价策略,就能打爆一个垂域场景,这是给我最大的启发。
不仅如此,还彻底解决了之前大家不知道怎么准备数据的问题,大家都看到了更好的数据可以教给LLM怎么干活,但是怎么准备更好的垂域数据?专家的思考逻辑怎么写,真的找一堆高级别专家一个字一个字的敲嘛。现在都不用了,哪怕用也只要很少量就行。
(详见论文第6-7页)
另外,整个大逻辑,还要结合AlphaGo系列来看,从AlphaGo,到AlphaGo Zero,只是前两步(从需要人教怎么下棋,到完全不需要人教,自我对弈),同样的R1-Zero只是第二步,后面还要再泛化到更多场景。
ps,这么对比,有一点点不严谨:AlphaGo Zero是没有任何预训练的,而DeepSeek R1-Zero是基于V3来的,所以某种意义上也做了一波预训练。不过反过来想,目前DeepSeek V3的预训练更多是一种初始化,主要问题还是AI大模型目前还没办法直接跟世界做反馈,未来也许配合上具身智能的反馈,可能可以从0开始做。
1.4.2 “蒸馏大法”,蜂王浆确实好使
他们做了一个有趣的尝试,用DeepSeek R1蒸馏了80万条数据,直接SFT微调几个开源的基模型,没加任何额外的训练:
这里最优秀的当属Qwen-32B,碾压了OpenAI-o1-mini,与Open-o1还有一丢丢差距,但已经不太大了(参考上上图)。
这事儿他们还做了另一个实验,就是直接用Qwen-32B来搞Pure RL,结果发现效果不好:
还给了个结论:这基模型不够强大,还是得牛逼的模型往下传授功力好些。
外加上最近这段时间,各个团队都在疯狂的探索“蒸馏大法”,比如李飞飞学生就用Gemini 2.0 Flash Experimental蒸馏了1000条数据,SFT了Qwen-32,号称也能在一些评测集上超过OpenAI-o1-preview,SFT这一下只花了20$。所以,总体上大致有个感受,就是蒸馏对数据量和成本要求并不高,但要求数据质量很高,带高质量的思维逻辑在里面。
我有个不太恰当的比方:有点像嫁接,在垃圾花枝上嫁接牡丹,第二年也能开牡丹花。对比模型,就是弱鸡模型打了凤凰血,能力也大幅提升了,而且尺寸更小(算力要求更低)。还有个小观察点,我发现大家都喜欢Qwen-32作为胚子,说明这模型还行。
然后,关于蒸馏这事儿,也不是新东西,之前通用LLM的时候,大家就都去爬GPT4的数据,训一个不错的LLM来,某种意义上也是蒸馏。只不过Reasoning Model之前最强的o1系列,限定了不输出提示词(OpenAI怕这个,是为了拖大家进度吧),而且成本200美刀,又限定访问次数,导致大家没答案抄。这把开源以后,我相信能大幅提升业界的平均线,不过要超过母体,还是要卷基模型或者卷更高质量的数据的吧。
“蒸馏大法”,这个玩法告诉我们: 能力更强的推理大模型,吐出来的逻辑推理数据,蕴含着大量的know-how,可以帮助一个更小、更弱鸡的模型来快速提升(服我仙丹,鸡犬升天的赶脚…)
(详见论文第13-14页)
ps,这哪里是蒸馏大法,分明是吸星大法,这里其实带来了另一个隐忧,谁当“大怨种”?
1.4.3 逻辑思考这事儿,AI大模型还挺擅长的
这个推论确实有点一时间难以接受,不过大致用了半个多月DeepSeek R1和Kimi K1.5以后,发现人家AI思维能力挺好的…
这是前几天的一个实际case,个人实际感受上,觉得Kimi K1.5的思维链更严谨:
另外,值得一提,DeepSeek R1-Zero出来以后,展现出中英混杂和可读性的问题,但是最终结果是对的,这也很有意思。我认为这恰恰是一种“返祖现象”,对齐人类语言未必是大模型的本质,谁说AI大模型不能有自己的语言呢?
2. 推理模型的如何使用?
2.1 推理模型与传统通用大模型有啥区别?
这里主要是想同步下,大家对于推理模型使用方式在提示词方面的差异。
当然,我还是引用R1论文里的一句话:
简单说,就是别多说话、别瞎喊和,直接提问题,让人家模型自己想。
(详见论文第16页)
(图片源自下面这个很好的科普讲座可以参考:)
《DeepSeek使用:从入门到精通》讲解视频+PDF-清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室
所以,我不禁要想,Prompt Enginerring这个岗位的寿命似乎又快走到尽头了。(迟早像下棋一样,AI不需要人教任何东西)
2.2 推理模型的使用方式是什么?
从本质上,跟传统通用模型没太多区别,唯一的区别就是多了个“reasoning_content”,如下是DeepSeek R1的API文档:
那么问题来了,我们之前的AI应用是要怎么改造。这里我看到两套说法:
- 方案1: 直接替换,有更好的,谁还需要之前那个傻子?
- 方案2: 配合着用,case by case,by场景做选择
从本质上看,我认为不存在方案2,一切只是时间问题,有更好的、更聪明的模型,一定是用更聪明的,一个傻瓜再快、再便宜,要来有啥用?
当然,当下需要时间补齐的就是下面这几个事儿。
2.3 当前推理模型的短板还有哪些?
目前看有几个最需要解决的问题:
-
推理性能: 我认为这是最迫切要解决的,目前看有几个方向:
- 一个是Kimi K1.5提到的用长CoT去训短CoT,提出了几种方式,包括模型合并、长度惩罚等等,某种意义上是做了个一种折中优化,让模型思考过程不要为了长而长。
- 另外一个方向就是更强的算力,把每秒Token数增加一到两个数量级,问题也就结局了。比如一个问题需要思考100秒,那就干到1秒嘛。我看到网上有人手用MI300x(价值200万一台),DS满血版可以1秒3500Token,那么多生成那几千、几万Token无非就是几秒的事儿,未来只会更快,我相信这是时间问题。
-
泛化能力: 由于Reasoning模型过度强调用代码和数学来做RL,导致通用能力衰减。不过目前从DeepSeek R1的评测情况看,R1和V3打的有来有回,并不是瘸腿偏科,我相信这个问题也是可以解决的。
-
幻觉问题: 幻觉源自几个方面:
- 一方面,推理模型本身就不懂这块东西,或者背景知识有限,上下文也没给足(这里其实也意味着对基模型的能力诉求)
- 另一方面,是推理过程中,模型确实在自己发挥,今天看到了一些case,也看到HIS的评测看板的数据,确实说明这里有些问题,需要解决
同样的,Vectara的评测显示,R1比V3的幻觉高了非常多(这个问题还会随着蒸馏,传播给蒸馏模型,所以这是原生性问题…)
-
提示词遵从: 前面也提到了,提示词对Reasoning model来说会影响效果,而且大概率也不怎么work(就是说控制不住、不听话),这个今天我们看到了不少实例证明了这一点。这确实是个问题,某种意义上,还需要一个当下泛化性、遵从性更好的模型来补充。
综上,目前还有一些问题,但是目测都不是天花板,推论是成立的:以后不会存在所谓的通用模型和推理模型,只会存在一个“更好的AI大模型”。我认为,这就是代际的演进、是替代,而不是一个补充选项。
所以下面我们在评估企业场景应用时,会站在这个角度来思考和设计,再去结合现实情况,把耗时、泛化、幻觉和遵从的短板拿出来看。
2.4 补充:关于成本
上篇的时候,我探讨过OpenAI o3消耗了很多算力,R1出来一看,其实这分明就跟之前部署一个AI大模型一毛一样啊…并没有OpenAI所说的消耗了大量的计算资源(OpenAI耍我们?)
DeepSeek R1部署和部署DeepSeek V3一毛一样
DeepSeek R1-Distill-Qwen-2.5-32B和部署Qwen-2.5-32B一毛一样
…
所以,这里会有个有趣的结论:推理侧算力一定会大幅增加的(因为生成的Token数量多,所以占用GPU时更多些)
3. 推理模型如何在企业AI场景应用?
我大致盘了下,感觉下面这三个场景是第一波可以被打穿的。
3.1 多工具调用的Agent场景
一个Agent场景要能work,且不要退而求其次(自欺欺人),做成RPA,核心就是reasoning的能力,这块我想复用AgentForce的一页图,这个图最简单直接,本质上Agent的发动机就是Reasoning Engine:
之前大家苦于LLM幻觉问题、准确性问题、思考深度问题,这一波就都解决了。
不如设想一下,既然数学题可以做,企业的“封闭场景”任务拆解和规划,一样可以解。通过一些有效的{问题}+{推理过程}+{答案},加上一些轮次的RL,就可以强化学习,训出一个真正懂如何干活儿的Reasoning模型。
3.2 拥有清晰评价标准的封闭场景
所谓“封闭场景”,业界也没有标准,个人认为,就是计算机很容易做优劣判断的场景。
只有计算机能自动做评价,这个场景就能进入RL流水线,自我迭代,最终有望达成目标。
首当其冲,是一些数理统计、分析场景,编码场景,统计分析有数值结果,编码有测试用例。都是有清晰的准确的答案,
然后,是一些业务场景,这里不妨做个判断题,拿最近收到的一些实际业务场景诉求:
- 解决方案市场空间洞察与分析场景 – NOK,非封闭场景
- 运维事件问题分析定界场景(有故障树辅助)-- OK,封闭场景
- 标书答标场景 – OK,封闭场景
- 客户拜访交流PPT书写 – NOK,非封闭场景
3.3 知识密集的复杂问题解决场景
这部分是为了对比之前的简单问答场景,我认为之前LLM做RAG都是简单问答,直来直往的实时性问题才有价值。相反的,对于拐弯抹角的问题,需要反复斟酌、思考、补齐信息的场景,RAG的方案根本不够,而搞AgenticRAG又受限于LLM的脑子不太好,推多了效果更差。
但是,体验了DeepSeek R1或者Kimi K1.5 + 联网搜索的同学都一定有感觉,通过多轮次的思考、补齐信息、反思、理解,最终得到一个解决方案,大概率是对的,准确度提升不少。
我们用现网的badcase来测试R1-Distill模型,发现拉长推理时间,确实能提升20%~30%的准确度。
这块也建议去看OpenAI Deep Research的技术报告,主打的就是这个场景。其本质上就是一个Agent,里面做了一些工程化的方案,从评估结果上看,确实能够再度提升整体的效果,当然换来的就是更长的推理时间。
4. 在DeepSeek的喧嚣中被掩盖的信息
下面这些事儿,都是最近这一两周发生的,这让我再次嗅到了GPT3.5和ChatGPT发布后的那段时间,每天都有大事发生的感觉。
4.1 OpenAI的Deep Search
基于o3,也是端到端RL,能做多步自主研究、深度浏览互联网、整合信息(特别适合搞洞察的同学),这再次证明了端到端RL的方向正确性(人类监督某种意义上进入过去式)
4.2 Google Gemini 2.0
Gemini 2.0 Flash的成本比DeepSeek V3低6倍、输出速度快60倍、上下文长16倍,并原生支持所有模态。证明了DeepSeek V3的低成本和效果,也成了过去式,征程在前,来不及驻足自赏。
4.3 阿里的Qwen 2.5 Max
同样在指标上超过DeepSeek V3,但最让我感兴趣的是,在某些个别的数学和编程测试集上,超过了R1,这让我不禁在想:也许推理模型和通用LLM模型之间,并没有鸿沟,可能未来会合并成一个,或者成为一种能力。
5. 还留下几个未解之谜,有待跟进
- DeepSeek R1的那几千条冷启动数据集到底是啥?
- DS虽然公开了代码和模型,但并没有公开数据
- 这对我们从企业垂域打透一个场景来说至关重要,又要卷数据了(这里参见LIMO,817条数据+逻辑链)
- 到底是RL训练出的推理能力,还是激活了LLM里压缩的万亿Token背后的潜能?
- 目前看到有几篇报告提出质疑,表示貌似不是训的,而是LLM本来就有这些能力
- 这对于我们如何跟进和选择技术,也非常重要,毕竟复制没有未来,得摸着OpenAI和DS过河(ps,DS也摸着OpenAI过河)
- “蒸馏大法”好,训基模型的ROI怎么算都划不来,谁来持续卷基模型、预训练?怎么防?
-
我又在想,去年看ilya说,预训练时代已经结束,当时没懂,现在有点懂了…
-
以后模型安全是否会加一条:防蒸馏?怎么防???
-
基模型的能力对推理能力至关重要,不卷又不行(毕竟孩子还是爹妈生的…)
6. 最后,见证完历史,八卦一下感受
DeepSeek R1自打春节档发布以来,最让我感慨的瞬间,当属大年初二在某个五线小城车站旁的小餐馆里,隔壁桌几位路人在畅聊DeepSeek…全民就这样被彻底“教育”了,上一波全民AI热,还停留在2023年ChatGPT刚发布的时候。
然后网上开始神话幻方和梁文峰,我认为,可以敬佩,但大可不必造神,才刚刚开始,还是要辩证性的来看DeepSeek的技术方案,Kimi K1.5的文章同样提到很多值得借鉴的思路,比如长上下文的价值。整个赛道上的其他玩家们还在继续卷,这条路还长得很…
DeepSeek只是一个阶段性里程碑,或者一个符号,方向已经清晰,未来还会有其他更强的本土公司、人才、模型出来(ps,截止目前,DS R1还是开源界TOP1,V3已经易主)
最最后,想起梁宁老师的“点线面体”,感谢前辈们赏饭,使得我们搞AI应用的小伙伴们,职业生涯可以再续几年~~~稳了 :D
- 点赞
- 收藏
- 关注作者
评论(0)