- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

DeepSeek下一代技术出奇招，解决长文痛点，重新书写大模型规则

码上开花_Lancer 发表于 2025/07/31 11:49:07 2025/07/31

【摘要】一、从 11 倍速到百万 token：NSA 如何重新定义大模型长文本处理能力？在 ACL 2025 的颁奖典礼上，一篇来自 DeepSeek 与北京大学联合团队的论文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》脱颖而出，斩获最佳论文奖。在投稿量翻倍至 8360 篇的激烈...

一、从 11 倍速到百万 token：NSA 如何重新定义大模型长文本处理能力？

在 ACL 2025 的颁奖典礼上，一篇来自 DeepSeek 与北京大学联合团队的论文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》脱颖而出，斩获最佳论文奖。在投稿量翻倍至 8360 篇的激烈竞争中，这项技术之所以能摘得桂冠，源于它解决了大语言模型领域一个长久以来的痛点：如何在不牺牲性能的前提下，让模型高效处理超长文本。

二、长文本处理的 "紧箍咒"：全注意力机制的困境

传统大语言模型处理长文本时，就像戴着镣铐跳舞。基于 Transformer 的模型采用的全注意力机制，其计算复杂度随序列长度呈平方级增长。这意味着当文本长度从 8k 提升到 64k 时，计算量会暴涨 64 倍。

论文数据显示，当处理 64k 长度的文本时，注意力计算占总延迟的 70-80%。这种效率瓶颈严重限制了大模型在长文档理解、代码库分析、多轮对话等场景的应用。尽管 OpenAI 的 o 系列、DeepSeek-R1 等模型已能处理超长文本，但高昂的计算成本让这些能力难以普及。

给注意力 "瘦身"：NSA 的动态分层策略

NSA（原生稀疏注意力）机制的核心 insight 很简单：文本中并非所有词之间的关系都同等重要。就像人类阅读时会快速浏览抓大意、精读关键段落、关注上下文衔接一样，NSA 让模型学会 "抓重点"。

三条并行注意力分支的协同作战

NSA 通过三种注意力路径的有机结合，实现了效率与性能的平衡：

压缩注意力：将连续的词块聚合为粗粒度表示，像快速浏览全文一样捕捉全局信息。通过可学习的 MLP 将 32 个连续 token 压缩为 1 个，既保留语义轮廓又大幅减少计算量。
选择性注意力：从文本中精准筛选出最重要的词块进行精细处理。基于压缩注意力的中间结果计算块重要性，选择 top-16 的关键块，确保不遗漏核心信息。
滑动注意力：维持 512 长度的局部窗口，专注处理上下文衔接的细节信息，避免因稀疏化丢失局部关联。

这三种注意力的输出通过门控机制动态融合，每个分支的权重由输入特征通过 MLP 动态生成，实现了 "该粗则粗、该细则细" 的自适应处理。

三、硬件友好的 Blockwise 设计

NSA 最精妙的地方在于算法与硬件的协同优化。现代 GPU 对连续内存块访问的效率远高于随机访问，NSA 的块级处理完美契合这一特性：

采用 64 token 的选择块大小，与 GPU Tensor Core 的计算粒度匹配
同一 GQA 组内的注意力头共享 KV 块选择结果，减少冗余内存访问
自定义 Triton 内核实现 SRAM 上的块级计算，避免频繁的 HBM 数据交互

这种设计让 NSA 在 64k 序列上实现了 9 倍的前向传播加速和 6 倍的反向传播加速，解码阶段更是达到 11.6 倍的速度提升。

四、不仅更快，还更准：NSA 的性能突破

稀疏化通常意味着性能损失，但 NSA 却实现了反超。在 270B tokens 预训练的 27B 参数模型上，NSA 在多项基准测试中展现出惊人表现：

通用能力全面领先

在 MMLU、GSM8K 等 9 项通用基准测试中，NSA 有 7 项超越全注意力模型，平均得分高出 0.013。特别是推理任务上优势明显：

DROP（阅读理解推理）提升 0.042
GSM8K（数学推理）提升 0.034

这证明 NSA 的稀疏化不是简单丢弃信息，而是通过聚焦关键信息过滤噪声，反而增强了模型的推理能力。

长文本处理能力碾压

在 64k 上下文的 "大海捞针" 测试中，NSA 实现了 100% 的检索准确率，完美定位隐藏在超长文本中的关键信息。在 LongBench 长文本基准测试中：

平均得分 0.469，超越全注意力模型 0.032
多跳问答（HPQ）提升 0.087，代码理解（LCC）提升 0.069
段落检索（PassR-en）提升 0.075

复杂推理能力跃升

用 DeepSeek-R1 的数学推理数据微调后，NSA 在 AIME（美国数学邀请赛）中的表现令人惊叹：

8k 上下文下准确率 0.121 vs 全注意力 0.046
16k 上下文下准确率 0.146 vs 全注意力 0.092

这种优势源于 NSA 能更高效地捕捉长程逻辑依赖，在复杂推导过程中保持思路连贯性。

五、从 64k 到百万 token：下一代模型的技术基石

论文一作袁境阳在 ACL 现场透露，NSA 技术将把上下文长度扩展到100 万 tokens，这意味着模型可以一次性处理整本小说、完整代码库或海量科研文献。结合 DeepSeek-R1 的蒸馏数据微调设置，业界普遍猜测这项技术将应用于下一代 DeepSeek-V4 和 DeepSeek-R2 模型。

NSA 的突破不仅是速度的提升，更重新定义了大模型处理长文本的范式 ——通过智能取舍实现效率与能力的双赢。当模型能以更低成本处理更长文本时，法律文档分析、基因序列解读、大规模代码生成等场景将迎来真正的智能化革命。

六、附原论文解读

原生稀疏注意力机制（NSA）：重新定义长文本建模的效率与能力边界

引言：长文本建模的迫切需求与现有困境

在当今大型语言模型（LLM）的发展浪潮中，长上下文建模能力已成为衡量下一代模型性能的核心指标。从深度推理任务（如数学证明、逻辑推演）到代码库级生成，再到多轮自主智能体系统，对超长文本处理的需求日益迫切。OpenAI 的 o 系列模型、DeepSeek - R1 以及 Gemini 1.5 Pro 等突破性成果，已经展示了处理整个代码库、长篇文档、维持数千 token 的连贯多轮对话的能力。然而，标准注意力机制的高计算成本成为了这一领域发展的关键瓶颈。

标准注意力机制（Vaswani et al., 2017）的计算复杂度随着序列长度的增加呈平方级增长，这使得在处理 64k 长度的上下文时，注意力计算占总延迟的 70 - 80%。这种高昂的计算成本不仅限制了模型的部署效率，也极大地增加了训练过程的资源消耗，成为长文本建模进一步发展的主要障碍。

稀疏注意力机制被认为是解决这一问题的有效途径，其核心思想是通过选择性地计算关键的查询 - 键对，在保持模型性能的同时显著降低计算开销。然而，现有的稀疏注意力方法在实际应用中仍存在诸多局限：许多方法无法实现与理论收益相匹配的速度提升，且大多数方法缺乏有效的训练时支持，难以充分利用注意力的稀疏模式。

为应对这些挑战，我们提出了 NSA（Natively trainable Sparse Attention）—— 一种原生可训练的稀疏注意力机制，它将算法创新与硬件对齐优化相结合，实现了高效的长上下文建模。NSA 采用动态分层稀疏策略，结合粗粒度的 token 压缩与细粒度的 token 选择，在保留全局上下文感知能力的同时确保了局部精度。本文将详细介绍 NSA 的设计理念、技术细节与实验结果，展示其在效率与性能上的双重突破。

现有稀疏注意力方法的局限性分析

在深入探讨 NSA 的创新之前，有必要先系统分析现有稀疏注意力方法的主要局限，这些分析为 NSA 的设计提供了重要的出发点。

启发式稀疏模式的局限

一些方法在注意力矩阵中采用固定的稀疏模式，使每个 token 只与一部分 tokens 交互。例如 Longformer 使用局部滑动窗口 + 全局 token 的模式，限制大部分注意力在局部窗口内，仅少数全局 token 互看，从而将复杂度降为近线性。BigBird 进一步结合了局部块、随机块和若干全局 token 的稀疏结构，实现在 4096 长度下处理长文档问答等任务达到 SOTA，同时理论上证明了这种稀疏模式的完备性。

然而，这些方法使用预先设定的稀疏模式或启发式规则，这难以充分适应注意力在不同输入中的动态分布。由于稀疏结构是人为设计的，可能无法对不同数据分配的注意力做到自适应最优，在面对复杂多变的文本数据时，无法灵活地捕捉到最关键的信息交互。

随机特征近似的问题

Performer 等方法用随机特征映射将 softmax 注意力转化为内积形式，以线性复杂度近似计算注意力，无需显式计算完整QK^T。这种方法在理论上提供无偏近似，但实践中精度取决于随机特征维度，可能需要较大近似维度才能接近全注意力效果。

为了达到较好的性能，往往需要增加随机特征的维度，这在一定程度上抵消了计算复杂度降低带来的优势，并且在实际应用中，对于某些对精度要求极高的任务，其近似效果可能无法满足需求。

内存访问与计算效率的矛盾

在实际的硬件实现中，内存访问效率对计算速度有着至关重要的影响。许多稀疏注意力方法虽然在理论上降低了计算复杂度，但在内存访问模式上没有进行优化，导致频繁的非连续内存访问，增加了数据传输的延迟，使得实际的计算速度提升并不明显。

例如，一些方法在选择稀疏模式时，没有考虑到 GPU 等硬件对连续内存块访问的高效性，导致在数据读取和计算过程中，浪费了大量时间在内存寻址和数据搬运上，无法充分发挥硬件的计算潜力。

NSA 的核心设计理念与技术细节

NSA 的设计旨在克服上述现有方法的局限，通过创新的算法设计与硬件对齐优化，实现高效的长文本建模。其核心设计理念包括动态分层稀疏策略、硬件对齐优化以及端到端可训练的稀疏模式。

动态分层稀疏策略

NSA 采用动态分层的方式来处理文本序列，通过粗粒度的 token 压缩和细粒度的 token 选择，实现对全局上下文和局部关键信息的有效捕捉。

粗粒度的 Token 压缩（Coarse - grained Token Compression）

NSA 将连续的词块聚合为粗粒度表示，以此快速捕捉全局信息。具体来说，通过可学习的多层感知器（MLP）将 32 个连续 token 压缩为 1 个。如图 1 所示，在处理长文本序列时，将文本划分为多个长度为 32 的块，每个块经过 MLP 压缩后得到一个聚合表示，这个表示保留了该块的语义轮廓，使得模型能够在不详细处理每个 token 的情况下，对整体文本有一个宏观的理解，大大减少了后续计算的信息量。

细粒度的 Token 选择（Fine - grained Token Selection）

在获得粗粒度表示后，NSA 从文本中精准筛选出最重要的词块进行精细处理。基于压缩注意力的中间结果计算块重要性，选择 top - 16 的关键块。这一步骤确保了模型能够聚焦于文本中的核心信息，避免在大量无关信息上浪费计算资源。例如，在一篇技术报告中，关键的技术术语、重要的数据结论等所在的块会被优先选择，而一些描述性、辅助性的块则可能被忽略，从而使模型能够更高效地处理核心内容。

滑动注意力（Sliding Attention）

为了维持文本的局部上下文连贯性，NSA 设置了一个长度为 512 的滑动窗口，专注处理上下文衔接的细节信息。在窗口内，每个 token 都能充分关注其相邻的上下文信息，避免因稀疏化丢失局部关联。例如，在处理一个复杂的句子结构时，滑动窗口能够确保模型准确理解词汇之间的语法关系和语义联系，不会因为全局的稀疏化策略而遗漏重要的局部信息。

融合机制（Gating Mechanism）

上述三种注意力的输出通过门控机制动态融合，每个分支的权重由输入特征通过 MLP 动态生成。这种动态融合方式使得模型能够根据输入文本的具体特征，自动调整对全局信息、局部关键信息和上下文细节信息的依赖程度，实现了 “该粗则粗、该细则细” 的自适应处理，从而在不同的任务和文本类型中都能达到较好的性能表现。

硬件对齐优化

NSA 在设计时充分考虑了与现代硬件（如 GPU Tensor Core）的兼容性，通过优化内存访问和计算模式，实现了硬件资源的高效利用。

内存访问优化

现代 GPU 对连续内存块访问的效率远高于随机访问，NSA 的块级处理完美契合这一特性。采用 64 token 的选择块大小，与 GPU Tensor Core 的计算粒度匹配，减少了内存访问的碎片化。同时，同一 GQA（Grouped - Query Attention）组内的注意力头共享 KV 块选择结果，避免了重复的数据读取，进一步减少了冗余内存访问。例如，在进行注意力计算时，通过合理的内存布局，使得 GPU 能够一次性连续读取多个相关的 token 块，大大提高了数据读取的速度和效率。

高效内核设计

NSA 使用 Triton 框架来实现自定义的 GPU 内核，以优化计算过程。Triton 是一个基于 Python 的开源框架，专为编写高性能的 GPU 代码而设计。通过 Triton，开发者可以轻松地实现自定义的 GPU 内核，优化内存访问和计算模式。在 NSA 中，Triton 被用于实现高效的稀疏注意力计算，特别是在数据加载和矩阵操作方面。例如，在计算注意力得分时，通过精心设计的 Triton 内核，能够充分利用 GPU 的并行计算能力，将计算任务高效地分配到各个计算单元上，极大地提高了计算速度。

端到端可训练的稀疏模式

与许多需要在预训练后进行稀疏化裁剪的方法不同，NSA 支持注意力稀疏模式的端到端训练。从预训练阶段开始，模型就学习最优的稀疏结构，使得模型能够在训练过程中逐渐适应稀疏化的计算模式，减少预训练开销且不牺牲模型性能。

在训练过程中，NSA 的稀疏模式参数与模型的其他参数一起进行优化，通过反向传播算法不断调整稀疏模式，使其能够更好地适应不同的任务和数据分布。这种端到端的训练方式，使得模型能够在训练过程中自主学习到最适合当前任务和数据的稀疏模式，避免了事后裁剪带来的性能损失，同时也提高了训练的效率和稳定性。

NSA 的性能评估与实验结果

为了全面评估 NSA 的性能，我们在多个基准测试和实际任务中进行了广泛的实验，并与传统的全注意力模型以及其他稀疏注意力方法进行了对比。

通用能力评估

在 MMLU（Massive Multitask Language Understanding）、GSM8K 等 9 项通用基准测试中，NSA 展现出了优异的性能表现。如表 1 所示，NSA 在 7 项指标上超越了全注意力模型，平均准确率从 0.443 提升至 0.456。特别是在推理任务中，NSA 的优势更为明显：

在 DROP（阅读理解推理）任务中，NSA 的得分从503 提升至 0.545，提升了 0.042，表明其在处理长文档理解中的推理问题时，能够更准确地捕捉关键信息并进行推理。
在 GSM8K（数学推理）任务中，NSA 的得分从486 提升至 0.520，提升了 0.034，显示出其在数学问题求解中的多步推理能力更强。

任务	全注意力模型准确率	NSA 准确率	提升幅度
MMLU	0.431	0.428	-0.003
BBH	0.497	0.521	0.024
GSM8K	0.486	0.520	0.034
DROP	0.503	0.545	0.042
......	......	......	......

长文本处理能力评估

在长文本处理能力的评估中，我们使用了 LongBench 长文本基准测试。在 64k 上下文的 “大海捞针” 测试中，NSA 实现了 100% 的检索准确率，完美定位隐藏在超长文本中的关键信息。在 LongBench 测试中，NSA 的平均得分达到 0.469，超越全注意力模型 0.032，具体表现如下：

在多跳问答（HPQ）任务中，NSA 的得分提升了087，表明其在处理需要跨多个段落进行推理的复杂问题时，能够更好地捕捉长程依赖关系，准确回答问题。
在代码理解（LCC）任务中，NSA 的得分提升了069，显示出其在处理复杂结构化数据（如代码）时，能够更有效地理解代码的逻辑和语义。
在段落检索（PassR - en）任务中，NSA 的得分提升了075，说明其在长文档检索方面具有更高的准确性和效率。

复杂推理能力评估

为了测试 NSA 在复杂推理任务中的能力，我们使用 DeepSeek - R1 的数学推理数据对模型进行微调，并在 AIME（美国数学邀请赛）中进行测试。实验结果令人惊叹：

在 8k 上下文下，NSA 的准确率为121，而全注意力模型仅为 0.046，NSA 大幅领先。
在 16k 上下文下，NSA 的准确率提升至146，全注意力模型为 0.092，NSA 同样表现出色。

这种优势源于 NSA 能更高效地捕捉长程逻辑依赖，在复杂推导过程中保持思路连贯性。在处理数学证明等需要严谨逻辑推理的任务时，NSA 能够通过其动态分层的稀疏策略，准确地把握问题中的关键信息和逻辑链条，避免被大量的冗余信息干扰，从而得出更准确的结论。

效率提升评估

除了性能上的优势，NSA 在效率提升方面也取得了显著成果。在 64k 序列上，NSA 在解码、前向传播和反向传播各阶段都实现了显著的加速：

前向传播加速 9 倍，这意味着在模型推理过程中，能够更快地生成结果，提高了系统的响应速度。
反向传播加速 6 倍，在模型训练过程中，大大缩短了参数更新所需的时间，提高了训练效率。
解码阶段更是达到6 倍的速度提升，使得在生成文本等应用场景中，能够更快地生成高质量的文本输出。

同时，NSA 的显存占用仅为全注意力模型的 12%，这使得在资源有限的环境下，也能够高效地运行大规模的模型，降低了部署的门槛和成本。

NSA 对未来大模型发展的潜在影响

NSA 的出现为大模型的发展带来了新的机遇和变革，其潜在影响不仅体现在当前的性能提升和效率优化上，更可能在未来重塑大模型的发展格局。

拓展模型应用边界

NSA 使模型能够直接处理整本书籍、代码仓库或多轮对话（如千轮客服场景），极大地扩展了大语言模型在文档分析、代码生成、复杂推理等领域的应用边界。在金融领域，能够快速分析长篇的金融报告，提取关键信息并进行风险评估；在法律领域，可以高效处理复杂的法律合同，进行条款解读和合规审查；在软件开发中，能够对大规模的代码库进行理解和分析，辅助代码生成和调试。

推动硬件与算法协同创新

NSA 的成功离不开硬件与算法的协同优化，这将促使硬件厂商和 AI 研究团队更加紧密地合作，共同探索适合稀疏计算的硬件架构和芯片设计。未来，针对稀疏计算的 AI 芯片（如支持可变稀疏度的 Tensor Core）有望进一步提升 NSA 的效率，形成硬件与算法相互促进、共同发展的良性循环。

促进开源生态与学术研究发展

DeepSeek 同步开源 NSA 技术细节，这将极大地促进学术界与工业界的协同创新。研究人员可以基于 NSA 开展进一步的研究，探索更优的稀疏模式和训练方法；企业也可以将 NSA 应用于实际产品中，推动 AI 技术在各行业的落地应用。已有团队基于 NSA 改进低秩注意力机制（MLA），进一步压缩 KV 缓存至原有规模的 5%，展示了开源生态下技术快速迭代的潜力。

改变全球 AI 竞争格局

作为中国 AI 公司的突破性成果，NSA 被外媒称为 “美国的斯普特尼克时刻”，凸显了中国在基础算法创新领域的崛起。NSA 的出现打破了传统扩展定律依赖模型规模与数据量线性增长的局限，以更低成本实现同等性能，为资源受限环境下的 AGI 探索提供了新路径，有望在全球 AI 竞争中重塑格局，推动 AI 技术向更加普惠、高效的方向发展。

个人反思总结

NSA 通过创新的动态分层稀疏策略、硬件对齐优化以及端到端可训练的稀疏模式，在长文本建模的效率与性能上实现了双重突破。实验结果表明，NSA 在通用任务、长文本处理以及复杂推理任务中均表现出色，且在推理速度和资源利用效率上具有显著优势。

然而，NSA 的发展仍面临一些挑战。例如，当前 NSA 的动态策略依赖任务特定数据，未来需探索跨领域通用稀疏模式，结合元学习等技术优化路由机制，提高其泛化能力。此外，进一步推动专用硬件与 NSA 的适配，实现 FP8 混合精度与稀疏计算的深度融合，将为 NSA 的性能提升带来更大的空间。

总体而言，NSA 不仅是技术层面的突破，更是 AI 发展理念的革新。它证明了在算力霸权横行的时代，以 “大道至简” 的算法设计为核心，依然能够实现性能与效率的双重飞跃。随着 NSA 的广泛应用，AI 技术或将真正迈向 “人人可用” 的普惠智能时代，为各行业的发展带来深远的影响和变革。我们期待 NSA 在未来能够不断演进和完善，引领大模型技术走向新的高度。

DeepSeek论文地址：
https://arxiv.org/abs/2502.11089

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入