华为云在线课堂AI技术领域课程“深度学习”学习心得体会---第三周

举报
在云空中漫步 发表于 2022/07/24 20:48:31 2022/07/24
【摘要】 神经网络要优化一个非常复杂的非线性模型,而且基本没有全局最优解,初始化在其中扮演着非常重要的角色。

第六章  初始化

6.1 初始化的重要性

神经网络要优化一个非常复杂的非线性模型,而且基本没有全局最优解,初始化在其中扮演着非常重要的角色。

初始点的选取,有时能够决定算法是否收敛;当收敛时,初始点可以决定学习收敛的多块,是否收敛到一个代价高或低的点;过大的初始化导致梯度爆炸,过小的初始化导致梯度消失。

好的初始化应该满足两个条件:

让神经元各层激活值不会出现饱和现象;各层激活值也不能为0。

全零初始化

参数初始化为0;缺点:同一层的神经元会学习到相同的特征,不能破坏不同神经元的对称性。

随机初始化:将参数初始化为小的随机数,一般随机值从均值为μ,标准差是σ的高斯分布中取样,最终参数的每个维度来自一个多维的高斯分布。

缺点:一旦随机分布选择不当,就会导致网络优化陷入困境。

6.2 Xavier初始化及He初始化

Xavier初始化:

如何保证输入输出方差一致?

为了使得在经过多层网络后,信号不被过分放大或过分减弱,我们尽可能每个神经元的输入和输出的方差一致。

a(l-1)为第l-1层的输入,a(l)为第l层的输出,因此n(l-1)Var[w(l i)]=1,所以var[w(l i)]=1/(n(l-1))

保持每一层的输入和输出的方差一致。将参数初始化为:

缺点:没有考虑激活函数对数据分布的影响

He初始化:

在ReLU网络中,假定每一层有一半的神经元被激活,另一半为0,所以要保持var不变,只需要在Xavier的基础上再除以2。

优点:考虑了ReLU对数据分布的影响,使得输入和输出的方差保持一致。

第7章  参数调节

超参数调节:学习率,动量衰减参数,各隐藏层神经元个数,mini-batch的大小,Adam优化算法的超参数,layers神经网络层数,decay_rate学习率

梯度下降与学习率

学习率:

Minibatch选择:

寻找超参数的问题:

试错法,网络搜索,随机搜索;

贝叶斯优化

高斯过程:

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。