华为云在线课堂AI技术领域课程“深度学习”学习心得体会---第三周
第六章 初始化
6.1 初始化的重要性
神经网络要优化一个非常复杂的非线性模型,而且基本没有全局最优解,初始化在其中扮演着非常重要的角色。
初始点的选取,有时能够决定算法是否收敛;当收敛时,初始点可以决定学习收敛的多块,是否收敛到一个代价高或低的点;过大的初始化导致梯度爆炸,过小的初始化导致梯度消失。
好的初始化应该满足两个条件:
让神经元各层激活值不会出现饱和现象;各层激活值也不能为0。
全零初始化
参数初始化为0;缺点:同一层的神经元会学习到相同的特征,不能破坏不同神经元的对称性。
随机初始化:将参数初始化为小的随机数,一般随机值从均值为μ,标准差是σ的高斯分布中取样,最终参数的每个维度来自一个多维的高斯分布。
缺点:一旦随机分布选择不当,就会导致网络优化陷入困境。
6.2 Xavier初始化及He初始化
Xavier初始化:
如何保证输入输出方差一致?
为了使得在经过多层网络后,信号不被过分放大或过分减弱,我们尽可能每个神经元的输入和输出的方差一致。
a(l-1)为第l-1层的输入,a(l)为第l层的输出,因此n(l-1)Var[w(l i)]=1,所以var[w(l i)]=1/(n(l-1))
保持每一层的输入和输出的方差一致。将参数初始化为:
缺点:没有考虑激活函数对数据分布的影响
He初始化:
在ReLU网络中,假定每一层有一半的神经元被激活,另一半为0,所以要保持var不变,只需要在Xavier的基础上再除以2。
优点:考虑了ReLU对数据分布的影响,使得输入和输出的方差保持一致。
第7章 参数调节
超参数调节:学习率,动量衰减参数,各隐藏层神经元个数,mini-batch的大小,Adam优化算法的超参数,layers神经网络层数,decay_rate学习率
梯度下降与学习率
学习率:
Minibatch选择:
寻找超参数的问题:
试错法,网络搜索,随机搜索;
贝叶斯优化
高斯过程:
- 点赞
- 收藏
- 关注作者
评论(0)