- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

大模型原理--残差连接与归一化

剑指南天发表于 2026/05/04 21:39:30 2026/05/04

【摘要】残差结构与归一化机制是Transformer稳定训练的基础。

1.概述

在Transformer的每个编码器层中，每个子层，包括自注意力子层和前馈神经网络子层，其输出都要经过残差连接（Residual Connection）和层归一化（Layer Normalization）处理。这两者是深层神经网络中常用的结构，用于缓解模型训练中的梯度消失、收敛困难等问题，对于Transformer能够堆叠多层至关重要。

2. LayerNorm

2.1 Transformer使用的层归一化（Layer Normalization，简称 LayerNorm）主要作用是规范输入序列中每个token的特征分布（某个token的表示可能在不同维度上有较大数值差异），提升模型训练的稳定性。该操作会将每个token的向量调整为均值为 0、方差为 1 的标准分布。如果原token的特征分布为正态分布的话，经过层归一化后，就会变成标准正态分布。而正态分布又是自然界一种很普遍的分布。

具体计算过程：

假如某个token的特征向量为x=[x¹,x²,x³,x⁴,...,x^d]，

2.2 RMSNorm

RMSNorm（Root Mean Square Normalization，均方根归一化）去除了均值标准化操作，仅基于输入特征的均方根（RMS）进行缩放。实践表明去除均值（实践观察均值本来就接近0）不会影响模型性能，反而带来更稳定、更高效的归一化形式。所以归一化后的数据趋向于标准正态分布。目前，RMSNorm 已成为主流 LLM 中最常用的归一化方式。

3. 残差连接

残差连接（Residual Connection）是用于缓解深层神经网络中的梯度消失问题。其数学形式为：y = x+SubLayer(x)。残差连接确保反向传播时，梯度至少有一条稳定通路。

4. 残差和归一化放置位置

4.1 从数据分布的角度

Transformer的注意力机制的核心打分公式如下：

4.1.1相关性评分方法的科学性

点积评分是注意力机制中最简单、最直接的一种相关性评分方法。其含义可以理解为：如果两个向量方向越一致（即越接近），它们的点积就越大，表示相关性越强，模型应当给予更多注意力。

数学理论基础来源于

假设向量A中的A_i符合标准正态分布均值为 0、方差为 1和向量B中的Bi符合标准正态分布均值为 0、方差为 1：

第一步A_i²的分布就趋向于自由度为d_k的卡方分布，所以A_i²均值为d_k^。B_i²的分布就趋向于自由度为d_k的卡方分布^，所以B_i²均值为d_k。

第二步等于d_k²，d_k为常量，矩阵中的所有向量的维度必然相同。所以A^.B=cos(θ)d_k²，量化了相关性。

_{从上面得出只要Query和Key内的各个向量里面的元素在向量内部的分布符合标准正态分布，得出的结构不仅可以表示相关性，并且相似性已经量化，量纲上具有可比性。}

_{4.1.2 评分公式中除以的科学支撑}

假设Query矩阵中向量q，q中的q_i符合标准正态分布均值为 0、方差为 1和Key矩阵中向量k,向量k中的k_j符合标准正态分布均值为 0、方差为 1：

第一步得到的新向量s，s内的元素的分布服从于自由度为d_k的正态分布，所以向量s分布的特点是均值为0,方差为d_k.

第二步随着d_k的增长，就会比较大的值V_max的概率就会增大。考虑到下一步模型会使用 softmax 函数进行归一化，参看下面的公式，e^Vmax值比例会接近于1，向量内的其他元素几乎贡献梯度为0。

第三步为了解决上面问题，将向量s的分布标准化，只需要将s各个元素除以（s的标准差）。新的s分布服从标准正态分布和d_k无关。

从上面得出只要Query和Key内的各个向量里面的元素在向量内部的分布符合标准正态分布，解决了softmax 函数的梯度问题，score也服从标准正态分布。

4.1.3 基于Query矩阵中向量q，q中的q_i服从标准正态分布和Key矩阵中向量k，向量k中的k_j服从标准正态分布。输入X经过层归一化后符合标准正态分布。W的初始化之后的分布,就需要特别的设计。假设W的初始化方式选择正态分布，均值为0，方差未知。假设方差是1，则W服从标准正态分布。则x_i^.w_j符合正态分布，均值为0，方差为d_k。为了使x_i^.w_j服从标准正态分布，所以w_j除以。所以得出W的初始化方式选择正态分布，均值为0，标准差为（1/）。而Xavier正态分布初始化：均值为0，标准差为。He正态分布初始化：均值为0，标准差为的正态分布。所以对输入X的层归一化后是让Query矩阵中向量q，q中的q_i趋向于标准正态分布和Key矩阵中向量k，向量k中的k_j趋向于标准正态分布的关键。