- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

《Python数据挖掘与机器学习实战》—3.6.3 梯度下降法求解最小值

华章计算机发表于 2019/06/17 14:28:35 2019/06/17

【摘要】本节书摘来自华章计算机《Python数据挖掘与机器学习实战》一书中的第3章，第3.6.3节，作者是方巍。

3.6.3 梯度下降法求解最小值

　　1．θ更新过程

　（3-22）

　　θ更新过程可以写成：

　　（3-23）

　　2．向量化

　　约定训练数据的矩阵形式如下，x的每一行为一条训练样本，而每一列为不同的特征取值：

（3-24）

（3-25）

（3-26）

　　g（A）的参数A为一列向量，所以实现g函数时要支持列向量作为参数，并返回列向量。θ更新过程可以改为：

（3-27）

　　3．正则化

　　过拟合即是过分拟合了训练数据，使得模型的复杂度提高，泛化能力较差（对未知数据的预测能力）。

　　如图3-9左图即为欠拟合，中图为合适的拟合，右图为过拟合。

　　可以使用正则化解决过拟合问题，正则化是结构风险最小化策略的实现，是在经验风险上加一个正则化项或惩罚项。正则化项一般是模型复杂度的单调递增函数，模型越复杂，正则化项就越大。

　　正则项可以取不同的形式，在回归问题中取平方损失，就是参数的L2范数，也可以取L1范数。取平方损失时，模型的损失函数变为：

（3-28）

　　λ是正则项系数：

如果它的值很大，说明对模型的复杂度惩罚大，对拟合数据的损失惩罚小，这样它就不会过分拟合数据，在训练数据上的偏差较大，在未知数据上的方差较小，但是可能出现欠拟合的现象。

图3-9 数据拟合模型

如果它的值很小，说明比较注重对训练数据的拟合，在训练数据上的偏差会小，但是可能会导致过拟合。

　　正则化后的梯度下降算法θ的更新变为：

（3-29）

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

《Python数据挖掘与机器学习实战》—3.6.3 梯度下降法求解最小值

3.6.3 梯度下降法求解最小值

1．θ更新过程

2．向量化

3．正则化

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

《Python数据挖掘与机器学习实战》—3.6.3 梯度下降法求解最小值

3.6.3 梯度下降法求解最小值

1．θ更新过程

2．向量化

3．正则化

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

推荐阅读

相关产品

　　1．θ更新过程

　　2．向量化

　　3．正则化