深度学习: 学习率 (learning rate)

举报
一颗小树x 发表于 2020/12/03 23:53:24 2020/12/03
【摘要】                                      深度学习: 学习率 (learning rate)    作者:liulina603        致敬 原文:https://blog.csdn.net/liulina603/article/details/80604385   深度学习: 学习率 (learning rate) Intro...

                                     深度学习: 学习率 (learning rate)

 

 作者:liulina603        致敬
原文:
https://blog.csdn.net/liulina603/article/details/80604385
 

深度学习: 学习率 (learning rate)

Introduction

学习率 (learning rate),控制 模型的 学习进度 : 

lr 即 stride (步长) ,即反向传播算法中的 ηη :

ωn←ωn−η∂L∂ωnωn←ωn−η∂L∂ωn

 

 学习率大小

  学习率 大 学习率 小
学习速度
使用时间点 刚开始训练时 一定轮数过后
副作用 1.易损失值爆炸;2.易振荡。 1.易过拟合;2.收敛速度慢。

 

学习率设置

在训练过程中,一般根据训练轮数设置动态变化的学习率

  • 刚开始训练时:学习率以 0.01 ~ 0.001 为宜。
  • 一定轮数过后:逐渐减缓。
  • 接近训练结束:学习速率的衰减应该在100倍以上。

 Note: 
如果是 迁移学习 ,由于模型已在原始数据上收敛,此时应设置较小学习率 (≤10−4≤10−4) 在新数据上进行 微调 。

 

把脉 目标函数损失值 曲线

理想情况下 曲线 应该是 滑梯式下降 [绿线]: 


 1. 曲线 初始时 上扬 [红线]: Solution:初始 学习率过大 导致 振荡,应减小学习率,并 从头 开始训练 。
 2. 曲线 初始时 强势下降 没多久 归于水平 [紫线]: 
Solution:后期 学习率过大 导致 无法拟合,应减小学习率,并 重新训练 后几轮 。

  3. 曲线 全程缓慢 [黄线]  Solution:初始 学习率过小 导致 收敛慢,应增大学习率,并从头 开始训练。

希望对你有帮助!

 

 

 

 

 

 

文章来源: guo-pu.blog.csdn.net,作者:一颗小树x,版权归原作者所有,如需转载,请联系作者。

原文链接:guo-pu.blog.csdn.net/article/details/83660728

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。