- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

深度神经网络--4.2　正则化

HWCloudAI 发表于 2020/12/24 14:55:19 2020/12/24

【摘要】 2.4节已经介绍了深度学习系统中的过拟合和欠拟合的概念以及它们所带来的问题，过拟合和欠拟合可以视为模型在测试数据中的不佳表现。而正则化（Regularization）正是解决这些问题的途径。正则化旨在通过对学习算法进行修改来减少模型的泛化误差。但注意，正则化往往会增加模型的训练误差。一般来说，修改学习算法的唯一方法是通过增加某些函数给原先的学习算法或者减少某些原有的学习函数来增加或者减少模型...

2.4节已经介绍了深度学习系统中的过拟合和欠拟合的概念以及它们所带来的问题，过拟合和欠拟合可以视为模型在测试数据中的不佳表现。而正则化（Regularization）正是解决这些问题的途径。正则化旨在通过对学习算法进行修改来减少模型的泛化误差。但注意，正则化往往会增加模型的训练误差。一般来说，修改学习算法的唯一方法是通过增加某些函数给原先的学习算法或者减少某些原有的学习函数来增加或者减少模型的表征能力。通过线性回归中的权重衰减（Weight Decay），下面将介绍如何修改模型中的学习函数。2.1节中已知线性回归的损失函数J（w）是均方误差。权重衰减的线性回归旨在训练中最小化均方误差和一个偏好具有较小L2范数的权重表达式，即：

式中，λ——提前定义好的参数，代表想要小权重的意愿。当λ设置为0时，表示不关心权重的L2范数大小；当λ设置为较大时，训练过程中模型会强制使得权重的L2范数变小。最小化[插图]使得权重w在拟合训练数据和选择较小L2范数之间进行权衡。这样使得最终解更注重于具有较小的斜率或者明显的特征。如图4.2所示，数据本身分布于二次函数上。从左到右，是模型在不同的权重衰减参数λ下的拟合示意图。图4.2（a）由于使用了非常大的λ，强制模型去学习了一个没有斜率的常数函数。显而易见，一个常数函数只能使模型欠拟合。图4.2（c）使用了接近于0的λ，使得模型允许有较大的斜率，导致过拟合。在设置一个良好的λ情况下，图4.2（b）模型呈现较为正确的拟合。尽管此模型能够比图4.2（a）模型表示更复杂形状的函数，但小的权重衰减系数仍迫使其输出一个较为简单的函数。

一般来说，通过表达对一个函数的偏好来加以调节和控制模型的拟合。权重衰减中，表达了对使用较小权重的线性模型的偏好。此外，还有很多方式可以表达对不同模型不同解决方案的偏好。这些调节模型的方法统称为正则化。研究人员通常通过对原有的损失函数增加一个正则项来正则化一个深度学习模型。在上述的权重衰减例子中，正则项就是Ω（w）=wTw。此外，还有众多的方式可以用于深度学习正则化。接下来将逐一介绍其中比较重要的几种方法。

4.2.1　L2范数正则化权重衰减方法其实就是L2范数正则化，又称脊回归（Ridge Regression）。根据奥卡姆剃刀原理的阐述：如果对于同一现象有两种或多种不同的假说，应该采取比较简单或可证伪的那种。这个原理被正式运用于20世纪的统计学习理论中。L2范数正则化正是采用奥卡姆剃刀原理的思想，通过降低模型的复杂度来防止过拟合。原线性回归模型以最小化经验风险为目标，公式如下：