DeepSeek 深夜发布 Engram:比 MoE 更节能的突破,V4 架构初露端倪
一向低调的 DeepSeek,在凌晨悄然更新了 GitHub。
没有发布会,没有营销话术,只有一篇论文和一个新模块的源码——Engram。
更耐人寻味的是,这篇论文的作者列表中,再次出现了 梁文锋 的名字。
论文标题很“工程味”:
Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models
一句话概括:这是一次试图把「记忆」从神经网络里拆出来的架构实验。
而不少开发者已经开始猜测——这可能不是一篇“孤立论文”,而是 DeepSeek 下一代模型(V4)的重要技术预告。

一、一个长期被忽视的问题:大模型到底在“算什么”?
当前主流的大模型,无论是 Dense Transformer,还是 MoE,本质上都在做同一件事:
用大量连续矩阵计算,去完成两类完全不同的工作。
第一类,是事实性记忆。 例如:
-
法国的首都是哪 -
某个 API 的固定用法 -
常见代码模板、语法结构
这些问题,本质上更接近查表。
第二类,是组合推理与计算。 例如:
-
多步逻辑推导 -
复杂上下文理解 -
抽象概念的重新组合
这才是真正需要神经网络“算”的地方。
问题在于:我们一直在用同一套高成本的神经计算,同时承担这两种职责。
MoE 解决了什么? 它解决的是:
参数规模 ≠ 计算量必须线性增长
但 DeepSeek 的观察更进一步:
即便在 MoE 中,用“专家网络”去记忆固定模式,仍然是一种浪费。
于是 Engram 出现了。

二、Engram 在做什么?一句话:该查的,别算
“Engram” 是神经科学中的术语,意为 记忆痕迹。
在这篇论文里,它被实现为一个可扩展、可学习、可条件触发的记忆模块。
核心思想并不复杂,但非常“反直觉”:
把一部分模型能力,从连续神经计算,转移到确定性查找。
具体来说,Engram 做了三件事:
第一,它不再试图“理解”所有 token。 而是将输入切分成 N-gram 片段(连续 token 组合)。
第二,这些 N-gram 会通过 哈希映射,直接定位到一个巨大的 Lookup Table。
第三,查找是确定性的、O(1) 复杂度。 不管这个表里存了多少“记忆”,一次检索的成本几乎不变。
这意味着什么?
模型可以用极低的算力,调用海量“已知模式”。

三、一条新的稀疏性轴:它和 MoE 并不冲突
论文里有一句很关键的话:
Engram introduces a new axis of sparsity.
这句话的分量不小。
MoE 的稀疏性,是:
-
条件计算 -
只激活少量专家网络
Engram 的稀疏性,是:
-
条件查找 -
只命中极少量记忆条目
两者解决的是不同问题。
可以这样理解:
|
|
|
|---|---|
|
|
|
|
|
|
在架构上,Engram 被放在较早的层级,用于模式重构与事实补全; 而深层网络,终于可以把算力集中在真正困难的推理任务上。
四、为什么工程师会对它这么兴奋?
在 Reddit、X 等社区里,技术讨论的焦点并不在“效果提升了多少”,而在几个更底层的点上:
第一,确定性寻址。 哈希 + 查表意味着:
-
逻辑清晰 -
行为稳定 -
可预测
这对工程系统来说,价值极高。
第二,潜在的硬件友好性。 有开发者指出:
Engram 的查找表,理论上可以放在主机内存中,而不是全部压在 GPU 上。
这让“本地部署大模型”的想象空间突然变大了。
第三,它并不依赖新奇技巧。 N-gram、哈希、查表—— 这些都是 NLP 领域的“老东西”。
但 DeepSeek 做的,是把它们重新放回现代 LLM 架构的正确位置。
五、V4 会用吗?没人官宣,但信号已经很明显
DeepSeek 并没有说 Engram 会直接进入 V4。
但社区的推断并非空穴来风:
-
这是一个可独立插拔的模块 -
它解决的是长期存在的结构性问题 -
论文中大量讨论的是规模化行为,而非小模型技巧
更重要的是,这种设计理念,和 DeepSeek 过去的路线高度一致:
不盲目堆参数,而是不断重构“算力应该花在哪里”。
如果说 V2 / V3 的关键词是 MoE 扩展效率, 那么 Engram 暗示的,是下一阶段的主题:
记忆与推理的结构性分离。
六、人工智能测试开发训练营
霍格沃兹测试开发学社做课程时,我们很少从“模型参数”讲起。
原因很简单:
大多数工程师真正缺的,不是论文阅读能力,而是把 AI 变成系统能力的路径。
无论是 Agent、RAG,还是今天看到的 Engram,本质上都在指向同一个方向:
AI 已经进入“工程复杂度主导”的阶段。
这也是我们课程一直强调的重点:
-
AI 系统如何拆模块 -
推理链路如何可控 -
复杂能力如何工程化落地
不是追某一个模型版本,而是建立长期可迁移的能力结构。
写在最后
Engram 并不是在“否定神经网络”。
它做的,只是一个极其工程化、但极其重要的判断:
不是所有智能,都值得用矩阵乘法来实现。
当模型规模继续扩大, 也许真正决定上限的,不再是参数数量, 而是——你是否知道,哪些东西该算,哪些东西只需要记住。
这条路,一旦走通,影响的不会只是 DeepSeek。
- 点赞
- 收藏
- 关注作者
评论(0)