- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

机器学习13-训练模型的坑

一颗小树x 发表于 2021/06/18 21:50:01 2021/06/18

【摘要】梯度消失、梯度爆炸、ReLU单元消失、丢弃正则化

前言

很多常见情况会导致反向传播算法出错。

梯度消失

较低层（更接近输入）的梯度可能会变得非常小。在深度网络中，计算这些梯度时，可能涉及许多小项的乘积。

当较低层的梯度逐渐消失到0时，这些层的训练速度会非常缓慢，甚至不再训练。

策略：ReLU激活函数有助于防止梯度消失。

梯度爆炸

如果网络中的权重过大，则较低层的梯度会涉及许多大项的乘积。在这种情况下，梯度就会爆炸：梯度过大导致难以收敛。

策略：批标准化可以降低学习率，因而有助于防止梯度爆炸。

ReLU单元消失

一旦ReLU单元的在加权低于0，ReLU单元就可能会停滞。它会输出对网络输出没有任何贡献的0激活，而梯度在反向传播算法期间将无法再从中流过。

由于梯度的来源被切断，ReLU的输入可能无法作出足够的改变来使得甲醛和恢复到0以上。

策略：降低学习率有助于防止ReLU单元消失。

丢弃正则化

丢弃正则化（dropout regularization），正则化的一种形式，在训练神经网络方面非常有用。丢弃正则化的运作机制是，在一个梯度步长中移除从神经网络中堆积选择的固定数量的单元。丢弃的单元越多，正则化效果就越强。

这类似与训练神经网络以模拟较小网络的指数级规模集成学习。

其工作原理是，在梯度下降法的没一部中随机丢弃一些网络单元。丢弃得越多，正则化效果就越强。

0.0 = 无丢弃正则化
1.0 = 丢弃所有内容；模型学不到任何规律
0.0 和 1.0 之间的值更有用。

关键词

反向传播算法（backpropagation），在神经网络上执行梯度下降法的主要算法。该算法会先anqi

丢弃正则化（dropout regularization），正则化的一种形式，在训练神经网络方面非常有用。丢弃正则化的运作机制是，在一个梯度步长中移除从神经网络中堆积选择的固定数量的单元。丢弃的单元越多，正则化效果就越强。这类似与训练神经网络以模拟较小网络的指数级规模集成学习

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

机器学习13-训练模型的坑

前言

梯度消失

梯度爆炸

ReLU单元消失

丢弃正则化

关键词

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

机器学习13-训练模型的坑

前言

梯度消失

梯度爆炸

ReLU单元消失

丢弃正则化

关键词

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

推荐阅读

相关产品