- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

大模型基础--Transformer自注意力机制

剑指南天发表于 2026/04/23 22:27:21 2026/04/23

【摘要】 You shall know a word by the company it keeps.

1. Transformer注意力的哲学前提

“You shall know a word by the company it keeps.” —— J.R. Firth (1957)

“分布假设”——即一个词的含义由它周围的词决定。不需要看定义：不需要查字典知道“苹果”是什么，只需要看它经常和“吃、水果、手机、乔布斯”一起出现，就能推断它的语义范畴。数学化表达：词的语义表示就是该词上下文概率分布的统计量。

Transformer的自注意机制学习词和语句的关系。词的含义随句子不同而动态变化,句子随着词的变化也动态变化。通过建模句子中词的权重，调节词含义在句子中的贡献，准确学习句子语义。通过大规模学习句子语义的过程，掌握语言统计规律。

2. 自注意力机制

自注意力机制（Self-Attention）是 Transformer核心结构之一，它的作用是在序列内部建立各位置之间的语义关系，使模型能够为每个位置生成融合全局信息的表示。之所以被称为“自”注意力，是因为模型在计算每个位置的表示时，所参考的信息全部来自同一个输入序列本身。

1）自注意力计算过程

（1）生成Query、Key、Value向量

自注意力机制的第一步，是将输入序列中的每个位置表示映射为三个不同的向量，分别是查询（Query，绿色）、键（Key，深红色）和值（Value，黄色）。

Query：表示当前词的用于发起注意力匹配的向量；W_q是可学习的矩阵，学习的方向是词尽可能反应词自身语义。

Key：表示序列中每个位置的内容标识，用于与 Query 进行匹配；W_k是可学习的矩阵，学习的方向是词尽可能反应序列整体语义。

Value：表示该位置携带的信息，用于加权汇总得到新的表示。Wv是可学习的矩阵，学习的方向是均匀的通过词反应序列整体语义（每个词对语义的贡献相同,但是语义压缩）。

（2）计算位置间相关性

使用每个位置的 Query 向量与所有位置的 Key 向量进行相关性评分。

评分函数采用向量点积形式。由于在高维空间中，点积的数值可能过大，会影响 softmax 的稳定性，因此在实际计算中对结果进行了缩放。最终的评分函数为：

d_k是key向量的维度，用于缩放点积的幅度.这个分数越大，表示第 i 个位置越应该关注第 j 个位置的信息。

点积评分是注意力机制中最简单、最直接的一种相关性评分方法。其含义可以理解为：如果两个向量方向越一致（即越接近），它们的点积就越大，表示相关性越强，模型应当给予更多注意力。

数学理论基础来源于。

假设向量A中的A_i符合标准正态分布均值为 0、方差为 1和向量B中的B_i符合标准正态分布均值为 0、方差为 1：

第一步A_i²的分布就趋向于自由度为d_k的卡方分布，所以A_i²均值为d_{k^。B_i}²的分布就趋向于自由度为dk的卡方分布_{^，所以B_i}²_{^{均值为d_k。}}

第二步等于d_k²，d_k为常量，矩阵中的所有向量的维度必然相同。

从上面得出只要Query和Key内的各个向量里面的元素在向量内部的分布符合标准正态分布，不仅可以表示相似性，并且相似性已经量化，具有可比性。

假设Query矩阵中向量q,q中的q_i符合标准正态分布均值为 0、方差为 1和Key矩阵中向量k,向量k中的k_j符合标准正态分布均值为 0、方差为 1：

第一步得到的新向量s,s内的元素的分布服从于自由度为d_k的正态分布，所以向量s分布的特点是均值为0,方差为d_k.

第二步随着d_k的增长,就会出现比较大的值V_max。考虑到下一步模型会使用 softmax 函数进行归一化，参看下面的公式，e^Vmax值比例会接近于1，向量内的其他元素几乎贡献梯度为0。

第三步为了解决上面问题，将向量s的分布标准化，只需要将s各个元素除以（s的标准差）。新的s分布服从标准正态分布。

从上面得出只要Query和Key内的各个向量里面的元素在向量内部的分布符合标准正态分布，解决了softmax 函数的梯度问题，score也服从标准正态分布。基于“分布假设”以及中心极限定理，词和词之间相关性随着词和词之间物理距离不断递减，通过score来评定，且这种规律符合标准正态分布。这样也指明了未来在长上下文学习，score分布的稀疏性。

上面的结论都是基于Query矩阵中向量q,q中的qi服从标准正态分布和Key矩阵中向量k,向量k中的kj服从标准正态分布。所以这就是X和W数据分布,就需要特别的设计.

第一步X进行标准归一化:

第二步W的分布应该趋向正态分布，均值为0，方差未知.假设方差是1，则W服从标准正态分布。则x_i^.w_j符合正态分布，均值为0，方差为d_k。为了使x_i^.w_j服从标准正态分布，所以w_j除以。所以得出W的分布应该趋向正态分布，均值为0，标准差为（1/）。

第三步权重初始化的方法：Xavier正态分布初始化：均值为0，标准差为。He正态分布初始化：均值为0，标准差为的正态分布（Kaiming方法通过设置标准差来补偿GELU等激活函数对信号方差的减半效应）。

第四步权重更新后的分布：AdamW是绝对的业界优化器的标准。AdamW主要贡献是将权重衰减（Weight Decay）从梯度更新中解耦。权重衰减的作用是让模型参数逐渐变小，使模型更加平滑、简化，从而减少过拟合。传统上，这一作用通常通过在损失函数中加入 L2 正则项来实现。从贝叶斯视角看：L2 正则化等价于给参数施加了一个均值为零的高斯先验，这相当于在训练中融入了“参数应该集中在零附近”的信念。

可以从GPT-2的重大架构创新之一Pre-LayerNorm得到验证。

（3）计算注意力权重

在得到每个位置与所有位置之间的相关性评分后，模型会使用 softmax 函数进行归一化，确保每个位置对所有位置的关注程度之和为 1，从而形成一个有效的加权分布。

根据softmax的公式容易得知，从score到softmax的变化中，会将标准正态分布的峰型会变得更加尖锐，使注意力权重的分布更加稀疏。

（4）加权汇总生成输出

模型会根据注意力权重对所有位置的 Value 向量进行加权求和，得到每个位置融合全局信息后的新表示。

因为注意力权重具有稀疏性，所以部分权重起着绝大部分的作用，也预示着计算和内存在这块有极大优化空间。

综上所述整个自注意力机制的完整的计算公式如下：

2）多头自注意力计算过程

自然语言本身具有高度的语义复杂性，一个句子往往同时包含多种类型的语义关系。为此，Transformer 引入了多头注意力机制（Multi-Head Attention）。其核心思想是通过不同注意力头分别专注于不同的语义关系，最后将各头的输出拼接融合。

多头注意力的计算过程如下：

（1）分别计算各头注意力

每个 Self-Attention Head 独立计算一套注意力输出：

（2）多个输出矩阵按维度拼接，再乘以W_o得到最终多头注意力的输出：

3. 从模型的训练过程可以知道模型到底学习到了什么。

GPT仅使用Transformer解码器，解码器的核心就是Masked 自注意力。模型预训练任务是基于前文，预测当前位置应出现的词。

BERT仅适用Transformer编码器。模型预训练核心任务之一就是掩码语言模型（Masked Language Modeling, MLM）。

T5在完整的 Transformer 编码器-解码器结构。模型的预训练目标被称为Corrupted span prediction，具体过程如下：1）随机遮盖输入文本中的若干连续片段（span）；2）将每个被遮盖的连续片段替换为一个个特殊token；3）令模型学习生成这些遮盖片段的内容，作为输出序列。

可以得出的结论：预训练就是在践行一个词的含义由它周围的词决定。而注意力机制就是在建模一个词和其他周围词关系的过程。自注意机制从输入的语料学习语言规律，随着输入增多，就学习到丰富的语言规律。

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

大模型基础--Transformer自注意力机制

1. Transformer注意力的哲学前提

2. 自注意力机制

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

大模型基础--Transformer自注意力机制

1. Transformer注意力的哲学前提

2. 自注意力机制

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品