机器学习进阶 第二节 第四课

举报
我是小白呀iamarookie 发表于 2021/09/10 23:26:03 2021/09/10
【摘要】 欠拟合与过拟合 概述线性回归逻辑回归解决过拟合的方法欠拟合过拟合 概述 机器学习中的泛化. 泛化即是, 模型学习到的概念在它处于学习的过程中时的模型没有遇见过的样本时候的表现. 在机器...

概述

机器学习中的泛化. 泛化即是, 模型学习到的概念在它处于学习的过程中时的模型没有遇见过的样本时候的表现. 在机器学习领域中, 当我们讨论一个机器学习模型学习和泛化的好坏时, 我们通常使用术语: 过拟合和欠拟合. 我们知道模型训练和测试的时候有两套数据, 训练集和测试集. 在对训练数据进行拟合时, 㤇照顾到每个点. 而其中有一些噪点, 当某个模型过度的学习训练数据细节和噪音. 以至于模型在新的数据上表现很差, 这样的话模型容易复杂, 拟合程度较高, 造成过拟合. 而相反如果描绘了一部分数据, 那么模型复杂过于简单, 欠拟合指的是模型在训练和预测时表现都不好的情况, 称为拟合.

线性回归

我们来看一下线性回归中拟合的几种情况图示:
在这里插入图片描述
θ0 + θ​1x
在这里插入图片描述
θ0 + θ​1x + θ​2x^2
在这里插入图片描述
θ0 + θ​1x + θ​2x^2 + θ​3x^3 + θ4x^4

逻辑回归

我们来看一下逻辑回归中拟合的几种情况图示:
在这里插入图片描述
在这里插入图片描述

解决过拟合的方法

在线性回归中, 对于特征集过小的情况, 容易造成欠集合 (underfitting), 对于特征集过大的情况, 容易造成过拟合 (overfitting). 针对这两种情况有了解决方法.

欠拟合

欠拟合指的是模型在训练和预测时表现都不好的情况. 欠拟合通常不被讨论, 因为给定一个评估模型表现的指标的情况下, 欠拟合很容易被发现. 矫正方法是继续学习并且试着更换机器学习算法.

过拟合

对于过拟合, 特征集合数目过多, 我们需要做的是尽量不让回归系数数量变多, 对拟合 (损失函数) 加以限制.

  1. 当然解决过拟合的问题可以减少特征数. 显然这只是权宜之计, 因为特征意味着信息, 放弃特征也同等于丢弃信息. 要知道, 特征的获取往往也是艰苦卓绝的
  2. 引入正则化概念

直观上来看, 如果我们想要解决上面回归中的过拟合问题. 我们最好就要消除 x3 和 x4 的影响, 也就是想让 θ​3, θ​4 都等于 0. 一个简单的方法就是我们对 θ​3, θ​4 进行惩罚, 增加一个很大的系数, 这样在优化的过程中就会使这两个参数为 0.

文章来源: iamarookie.blog.csdn.net,作者:我是小白呀,版权归原作者所有,如需转载,请联系作者。

原文链接:iamarookie.blog.csdn.net/article/details/111307070

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。