- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

华为云在线课堂AI技术领域课程“深度学习”学习心得体会---第三周

在云空中漫步发表于 2022/07/24 20:48:31 2022/07/24

【摘要】神经网络要优化一个非常复杂的非线性模型，而且基本没有全局最优解，初始化在其中扮演着非常重要的角色。

第六章初始化

6.1 初始化的重要性

神经网络要优化一个非常复杂的非线性模型，而且基本没有全局最优解，初始化在其中扮演着非常重要的角色。

初始点的选取，有时能够决定算法是否收敛；当收敛时，初始点可以决定学习收敛的多块，是否收敛到一个代价高或低的点；过大的初始化导致梯度爆炸，过小的初始化导致梯度消失。

好的初始化应该满足两个条件：

让神经元各层激活值不会出现饱和现象；各层激活值也不能为0。

全零初始化

参数初始化为0；缺点：同一层的神经元会学习到相同的特征，不能破坏不同神经元的对称性。

随机初始化：将参数初始化为小的随机数，一般随机值从均值为μ，标准差是σ的高斯分布中取样，最终参数的每个维度来自一个多维的高斯分布。

缺点：一旦随机分布选择不当，就会导致网络优化陷入困境。

6.2 Xavier初始化及He初始化

Xavier初始化：

如何保证输入输出方差一致？

为了使得在经过多层网络后，信号不被过分放大或过分减弱，我们尽可能每个神经元的输入和输出的方差一致。

a(l-1)为第l-1层的输入，a(l)为第l层的输出，因此n(l-1)Var[w(l i)]=1,所以var[w(l i)]=1/(n(l-1))

保持每一层的输入和输出的方差一致。将参数初始化为：

缺点：没有考虑激活函数对数据分布的影响

He初始化：

在ReLU网络中，假定每一层有一半的神经元被激活，另一半为0，所以要保持var不变，只需要在Xavier的基础上再除以2。

优点：考虑了ReLU对数据分布的影响，使得输入和输出的方差保持一致。

第7章参数调节

超参数调节：学习率，动量衰减参数，各隐藏层神经元个数，mini-batch的大小，Adam优化算法的超参数，layers神经网络层数，decay_rate学习率

梯度下降与学习率

学习率：

Minibatch选择：

寻找超参数的问题：

试错法，网络搜索，随机搜索；

贝叶斯优化

高斯过程：

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

华为云在线课堂AI技术领域课程“深度学习”学习心得体会---第三周

第六章初始化