机器学习进阶 第二节 第四课
概述
机器学习中的泛化. 泛化即是, 模型学习到的概念在它处于学习的过程中时的模型没有遇见过的样本时候的表现. 在机器学习领域中, 当我们讨论一个机器学习模型学习和泛化的好坏时, 我们通常使用术语: 过拟合和欠拟合. 我们知道模型训练和测试的时候有两套数据, 训练集和测试集. 在对训练数据进行拟合时, 㤇照顾到每个点. 而其中有一些噪点, 当某个模型过度的学习训练数据细节和噪音. 以至于模型在新的数据上表现很差, 这样的话模型容易复杂, 拟合程度较高, 造成过拟合. 而相反如果描绘了一部分数据, 那么模型复杂过于简单, 欠拟合指的是模型在训练和预测时表现都不好的情况, 称为拟合.
线性回归
我们来看一下线性回归中拟合的几种情况图示:
θ0 + θ1x
θ0 + θ1x + θ2x^2
θ0 + θ1x + θ2x^2 + θ3x^3 + θ4x^4
逻辑回归
我们来看一下逻辑回归中拟合的几种情况图示:
解决过拟合的方法
在线性回归中, 对于特征集过小的情况, 容易造成欠集合 (underfitting), 对于特征集过大的情况, 容易造成过拟合 (overfitting). 针对这两种情况有了解决方法.
欠拟合
欠拟合指的是模型在训练和预测时表现都不好的情况. 欠拟合通常不被讨论, 因为给定一个评估模型表现的指标的情况下, 欠拟合很容易被发现. 矫正方法是继续学习并且试着更换机器学习算法.
过拟合
对于过拟合, 特征集合数目过多, 我们需要做的是尽量不让回归系数数量变多, 对拟合 (损失函数) 加以限制.
- 当然解决过拟合的问题可以减少特征数. 显然这只是权宜之计, 因为特征意味着信息, 放弃特征也同等于丢弃信息. 要知道, 特征的获取往往也是艰苦卓绝的
- 引入正则化概念
直观上来看, 如果我们想要解决上面回归中的过拟合问题. 我们最好就要消除 x3 和 x4 的影响, 也就是想让 θ3, θ4 都等于 0. 一个简单的方法就是我们对 θ3, θ4 进行惩罚, 增加一个很大的系数, 这样在优化的过程中就会使这两个参数为 0.
文章来源: iamarookie.blog.csdn.net,作者:我是小白呀,版权归原作者所有,如需转载,请联系作者。
原文链接:iamarookie.blog.csdn.net/article/details/111307070
- 点赞
- 收藏
- 关注作者
评论(0)