机器学习13-训练模型的坑
【摘要】 梯度消失、梯度爆炸、ReLU单元消失、丢弃正则化
前言
很多常见情况会导致反向传播算法出错。
梯度消失
较低层(更接近输入)的梯度可能会变得非常小。在深度网络中,计算这些梯度时,可能涉及许多小项的乘积。
当较低层的梯度逐渐消失到0时,这些层的训练速度会非常缓慢,甚至不再训练。
策略:ReLU激活函数有助于防止梯度消失。
梯度爆炸
如果网络中的权重过大,则较低层的梯度会涉及许多大项的乘积。在这种情况下,梯度就会爆炸:梯度过大导致难以收敛。
策略:批标准化可以降低学习率,因而有助于防止梯度爆炸。
ReLU单元消失
一旦ReLU单元的在加权低于0,ReLU单元就可能会停滞。它会输出对网络输出没有任何贡献的0激活,而梯度在反向传播算法期间将无法再从中流过。
由于梯度的来源被切断,ReLU的输入可能无法作出足够的改变来使得甲醛和恢复到0以上。
策略:降低学习率有助于防止ReLU单元消失。
丢弃正则化
丢弃正则化(dropout regularization),正则化的一种形式,在训练神经网络方面非常有用。丢弃正则化的运作机制是,在一个梯度步长中移除从神经网络中堆积选择的固定数量的单元。丢弃的单元越多,正则化效果就越强。
这类似与训练神经网络以模拟较小网络的指数级规模集成学习。
其工作原理是,在梯度下降法的没一部中随机丢弃一些网络单元。丢弃得越多,正则化效果就越强。
- 0.0 = 无丢弃正则化
- 1.0 = 丢弃所有内容;模型学不到任何规律
- 0.0 和 1.0 之间的值更有用。
关键词
反向传播算法(backpropagation),在神经网络上执行梯度下降法的主要算法。该算法会先anqi
丢弃正则化(dropout regularization),正则化的一种形式,在训练神经网络方面非常有用。丢弃正则化的运作机制是,在一个梯度步长中移除从神经网络中堆积选择的固定数量的单元。丢弃的单元越多,正则化效果就越强。这类似与训练神经网络以模拟较小网络的指数级规模集成学习
【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
作者其他文章
评论(0)