《Keras深度学习实战》—3.7　Adam优化算法

华章计算机发表于 2019/06/15 13:44:36 2019/06/15

【摘要】本节书摘来自华章计算机《Keras深度学习实战》一书中的第3章，第3.7.1节，作者是拉蒂普·杜瓦（Rajdeep Dua）[印] 曼普里特·辛格·古特（Manpreet Singh Ghotra）著罗　娜　祁佳康　译.

3.7　Adam优化算法

自适应矩估计（Adam）计算每个参数的自适应学习率。与AdaDelta一样，Adam存储过去平方梯度的衰减平均值和每个参数的动态变化。Adam在实践中运作良好，是当今最常用的优化方法之一。

除了每一时刻平方梯度衰减的加权平均值（如Adadelta和RMSprop）之外，Adam还存储每一时刻梯度衰减指数mt的加权平均值。使用以下公式计算mt和vt：

mt和vt分别是梯度中第一时刻（平均值）和第二时刻（未中心化方差）的估计值，在初始化时衰减率很小（即β1和β2接近1），mt和vt被初始化为零向量。

Adam算法的设计者利用偏差校正第一时刻和第二时刻的估计值来抵消这些偏差，更新公式如下：

在执行之前，需要在主代码段前添加前面的示例通用代码。

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

上滑加载中

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。