- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

机器学习5-学习率

一颗小树x 发表于 2021/06/18 21:26:56 2021/06/18

【摘要】梯度矢量具有方向和大小；梯度下降算法用梯度乘以一个称为学习率（有时也称为步长）的标量，以确定下一个点的位置。

前言

梯度矢量具有方向和大小；梯度下降算法用梯度乘以一个称为学习率（有时也称为步长）的标量，以确定下一个点的位置。

例如，如果梯度大小为2.5，学习率为0.01，则梯度下降算法会选择距离前一个点0.025的位置作为下一个点。

学习率

超参数是编程人员在机器学习算法中用于调整的旋钮。大多数机器学习编程人员会花费相当多的时间来调整学习率。

如果选择的学习率过小，就会花费太长的学习时间：

如果选择的学习率过大，下一个点将永远在U形曲线的底部随意弹跳，无法找到全局最低点：

如果选择的学习率恰恰好：

选择学习率

学习率与损失函数的平坦程度相关。如果知道损失函数的梯度较小，则可以尝试更大的学习率，以补偿较小的梯度并获得更大的步长。

一维空间中的理想学习率是 $frac{1}{f(x)^{n}}$ ，对的二阶导数的倒数。

二维或多维空间中的理想学习率是 Hessian matrix（由二阶偏导数组成的矩阵）的倒数。

广义凸函数的情况则更为复杂。

详细的Hessian matrix参考维基百科： https://en.wikipedia.org/wiki/Hessian_matrix

关键词

参数（parameter），机器学习系统自行训练的模型变量。例如，权重。它们的值是机器学习系统通过连续的训练迭代逐渐学习到的；与超参数相对。

超参数（hyperparameter），在模型训练的连续过程中，需要人工指定和调整的；例如学习率；与参数相对。

学习率（learning rate），在训练模型时用于梯度下降的一个标量。在每次迭代期间，梯度下降法都会将学习速率与梯度相乘；得出的乘积称为梯度步长。

参考：https://developers.google.cn/machine-learning/crash-course/reducing-loss/learning-rate

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

机器学习5-学习率

前言

学习率

选择学习率

关键词

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

机器学习5-学习率

前言

学习率

选择学习率

关键词

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

推荐阅读

相关产品