- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

【机器学习基础】梯度下降

Micker 发表于 2020/06/30 22:18:19 2020/06/30

【摘要】梯度下降1.梯度下降　　梯度下降法（Gradient Descent Optimization）是神经网络模型训练最常用的优化算法，是一个一阶最优化算法，通常也称为最速下降法。要使用梯度下降法找到一个函数的局部极小值，必须向函数上当前点对于梯度（或者是近似梯度）的反方向的规定步长距离点进行迭代搜索。所以梯度下降法可以帮助我们求解某个函数的极小值或者最小值。对于n维问题就最优解，梯度下降法是最...

梯度下降

1.梯度下降
　　梯度下降法（Gradient Descent Optimization）是神经网络模型训练最常用的优化算法，是一个一阶最优化算法，通常也称为最速下降法。要使用梯度下降法找到一个函数的局部极小值，必须向函数上当前点对于梯度（或者是近似梯度）的反方向的规定步长距离点进行迭代搜索。所以梯度下降法可以帮助我们求解某个函数的极小值或者最小值。对于n维问题就最优解，梯度下降法是最常用的方法之一。　　

2.梯度下降过程
　　顾名思义，梯度下降法的计算过程就是沿梯度下降的方向求解极小值（也可以沿梯度上升方向求解极大值）。
　　在此，我们可以将梯度下降法的基本思想类比为一个下山的过程。假设这样一个场景：一个人被困在山上，需要从山上下来(i.e. 找到山的最低点，也就是山谷)。但此时山上的浓雾很大，导致可视度很低。因此，下山的路径就无法确定，他必须利用自己周围的信息去找到下山的路径。这个时候，他就可以利用梯度下降算法来帮助自己下山。具体来说就是，以他当前的所处的位置为基准，寻找这个位置最陡峭的地方，然后朝着山的高度下降的地方走，同理，如果我们的目标是上山，也就是爬到山顶，那么此时应该是朝着最陡峭的方向往上走。然后每走一段距离，都反复采用同一个方法，最后就能成功的抵达山谷。

　　而梯度下降的基本过程就和下山的场景很类似。
　　首先，我们有一个可微分的函数。这个函数就代表着一座山。我们的目标就是找到这个函数的最小值，也就是山底。根据之前的场景假设，最快的下山的方式就是找到当前位置最陡峭的方向，然后沿着此方向向下走，对应到函数中，就是找到给定点的梯度，然后朝着梯度相反的方向，就能让函数值下降的最快！因为梯度的方向就是函数之变化最快的方向(具体原因可查看梯度的定义)
　　所以，我们重复利用这个方法，反复求取梯度，最后就能到达局部的最小值，这就类似于我们下山的过程。而求取梯度就确定了最陡峭的方向，也就是场景中测量方向的手段。

3.梯度下降原理
　　这里我们就不结合数学公式具体的讲解了，简单来说，梯度下降原理可以这样理解，将函数比作一座山，我们站在某个山坡上，往四周看，判断从哪个方向向下走一小步，能够下降的最快。

4.梯度下降缺点
　　（1）靠近极小值时收敛速度减慢；
　　（2）直线搜索时可能会产生一些问题；
　　（3）可能会“之字形”地下降。

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

【机器学习基础】梯度下降

梯度下降

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

【机器学习基础】梯度下降

梯度下降

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

推荐阅读

相关产品