DeepSeek 深夜发布 Engram:比 MoE 更节能的突破,V4 架构初露端倪

举报
霍格沃兹测试学社 发表于 2026/01/15 17:30:30 2026/01/15
【摘要】 当AI模型规模不断扩张,一个根本性问题愈发凸显:宝贵的算力是否被浪费在了本应“记住”而非“推算”的任务上?DeepSeek最新披露的Engram技术,正是对这一痛点的结构性回应。它试图将事实性记忆从昂贵的连续神经网络计算中剥离,转向确定性的高效查找,为大模型架构开辟了一条全新的“稀疏性”优化路径。这或许意味着,下一代模型的竞争焦点,正从参数规模转向计算质量的重新分配。

一向低调的 DeepSeek,在凌晨悄然更新了 GitHub。

没有发布会,没有营销话术,只有一篇论文和一个新模块的源码——Engram

更耐人寻味的是,这篇论文的作者列表中,再次出现了 梁文锋 的名字。

论文标题很“工程味”:

Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models

一句话概括:这是一次试图把「记忆」从神经网络里拆出来的架构实验。

而不少开发者已经开始猜测——这可能不是一篇“孤立论文”,而是 DeepSeek 下一代模型(V4)的重要技术预告。



一、一个长期被忽视的问题:大模型到底在“算什么”?

当前主流的大模型,无论是 Dense Transformer,还是 MoE,本质上都在做同一件事:

用大量连续矩阵计算,去完成两类完全不同的工作。

第一类,是事实性记忆。 例如:

  • 法国的首都是哪
  • 某个 API 的固定用法
  • 常见代码模板、语法结构

这些问题,本质上更接近查表

第二类,是组合推理与计算。 例如:

  • 多步逻辑推导
  • 复杂上下文理解
  • 抽象概念的重新组合

这才是真正需要神经网络“算”的地方。

问题在于:我们一直在用同一套高成本的神经计算,同时承担这两种职责。

MoE 解决了什么? 它解决的是:

参数规模 ≠ 计算量必须线性增长

但 DeepSeek 的观察更进一步:

即便在 MoE 中,用“专家网络”去记忆固定模式,仍然是一种浪费。

于是 Engram 出现了。



二、Engram 在做什么?一句话:该查的,别算

“Engram” 是神经科学中的术语,意为 记忆痕迹

在这篇论文里,它被实现为一个可扩展、可学习、可条件触发的记忆模块

核心思想并不复杂,但非常“反直觉”:

把一部分模型能力,从连续神经计算,转移到确定性查找。

具体来说,Engram 做了三件事:

第一,它不再试图“理解”所有 token。 而是将输入切分成 N-gram 片段(连续 token 组合)。

第二,这些 N-gram 会通过 哈希映射,直接定位到一个巨大的 Lookup Table。

第三,查找是确定性的、O(1) 复杂度。 不管这个表里存了多少“记忆”,一次检索的成本几乎不变。

这意味着什么?

模型可以用极低的算力,调用海量“已知模式”。



三、一条新的稀疏性轴:它和 MoE 并不冲突

论文里有一句很关键的话:

Engram introduces a new axis of sparsity.

这句话的分量不小。

MoE 的稀疏性,是:

  • 条件计算
  • 只激活少量专家网络

Engram 的稀疏性,是:

  • 条件查找
  • 只命中极少量记忆条目

两者解决的是不同问题。

可以这样理解:

模块
在干什么
Engram
快速回忆“我以前见过什么”
MoE / Transformer
认真思考“现在该怎么推理”

在架构上,Engram 被放在较早的层级,用于模式重构与事实补全; 而深层网络,终于可以把算力集中在真正困难的推理任务上。


四、为什么工程师会对它这么兴奋?

在 Reddit、X 等社区里,技术讨论的焦点并不在“效果提升了多少”,而在几个更底层的点上:

第一,确定性寻址。 哈希 + 查表意味着:

  • 逻辑清晰
  • 行为稳定
  • 可预测

这对工程系统来说,价值极高。

第二,潜在的硬件友好性。 有开发者指出:

Engram 的查找表,理论上可以放在主机内存中,而不是全部压在 GPU 上。

这让“本地部署大模型”的想象空间突然变大了。

第三,它并不依赖新奇技巧。 N-gram、哈希、查表—— 这些都是 NLP 领域的“老东西”。

但 DeepSeek 做的,是把它们重新放回现代 LLM 架构的正确位置


五、V4 会用吗?没人官宣,但信号已经很明显

DeepSeek 并没有说 Engram 会直接进入 V4。

但社区的推断并非空穴来风:

  • 这是一个可独立插拔的模块
  • 它解决的是长期存在的结构性问题
  • 论文中大量讨论的是规模化行为,而非小模型技巧

更重要的是,这种设计理念,和 DeepSeek 过去的路线高度一致:

不盲目堆参数,而是不断重构“算力应该花在哪里”。

如果说 V2 / V3 的关键词是 MoE 扩展效率, 那么 Engram 暗示的,是下一阶段的主题:

记忆与推理的结构性分离。


六、人工智能测试开发训练营

霍格沃兹测试开发学社做课程时,我们很少从“模型参数”讲起。

原因很简单:

大多数工程师真正缺的,不是论文阅读能力,而是把 AI 变成系统能力的路径。

无论是 Agent、RAG,还是今天看到的 Engram,本质上都在指向同一个方向:

AI 已经进入“工程复杂度主导”的阶段。

这也是我们课程一直强调的重点:

  • AI 系统如何拆模块
  • 推理链路如何可控
  • 复杂能力如何工程化落地

不是追某一个模型版本,而是建立长期可迁移的能力结构。


写在最后

Engram 并不是在“否定神经网络”。

它做的,只是一个极其工程化、但极其重要的判断:

不是所有智能,都值得用矩阵乘法来实现。

当模型规模继续扩大, 也许真正决定上限的,不再是参数数量, 而是——你是否知道,哪些东西该算,哪些东西只需要记住。

这条路,一旦走通,影响的不会只是 DeepSeek。

【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。