数学建模暑期集训11:逻辑回归(Logistic Regression)处理二分类问题

举报
zstar 发表于 2022/08/06 00:23:51 2022/08/06
【摘要】 在数学建模中,我们经常会遇到这样的问题:根据xx症状判断是否得病、根据xxx指标判断是否违约。对于这种只包含“是和否”两类的答案的二分类问题,逻辑回归最为适用。 1.逻辑回归是什么 逻辑回归是机器学习...

数学建模中,我们经常会遇到这样的问题:根据xx症状判断是否得病、根据xxx指标判断是否违约。对于这种只包含“是和否”两类的答案的二分类问题,逻辑回归最为适用。

1.逻辑回归是什么

逻辑回归是机器学习基本算法之一,可以看作特殊的一般回归。
通过线性回归,一般可以得到这样的表达式:
在这里插入图片描述
这个y值可以理解为“y=1”发生的概率。
然而,概率一般都是处于[0,1]之间,因此,需要一个函数将这个值映射到[0,1]这个范围内。
这个函数通常选用Sigmoid函数:
在这里插入图片描述

2.逻辑回归的求解

求解逻辑回归,可以用极大似然估计或者梯度下降法。
在这里插入图片描述
这里有些难理解,先放着,下面用SPSS来实操。

3.SPSS求解逻辑回归问题

3.1原始数据

在这里插入图片描述
二分类问题:基于长、宽等信息区分苹果和橘子。

3.2开始分析

在这里插入图片描述
按照图中步骤即可。

3.3查看结果

在这里插入图片描述
分类表即混淆矩阵,斜对角线是分对的数量,右下角76.3是平均的正确率。
可以发现,该方法的正确率并不是非常高。
方程中的具体数值可以根据下表查看:
在这里插入图片描述

3.4定性变量的处理

很多情况下,变量没有数值。比如分类的结果是apple&orange,可以通过创建虚变量来自动置0或置1。
在这里插入图片描述

3.5增加平方项提高正确率

在这里插入图片描述
通过上面的操作可以引入新的平方变量,比如 m a s s mass mass作为自变量1, m a s s 2 mass^2 mass2作为自变量2,这样可以显著提高准确率,不过本质上是过拟合。
过拟合,机器学习上的概念。(在训练集上表现好,测试集上表现差)
在这里插入图片描述
如上图所示,过拟合即绿色的线,把原本数据中的一些偏差也强制学习进去,导致效果变差。

3.6过拟合的改进

在这里插入图片描述
防止过拟合的发生,将数据分成训练集和测试集。(这就和机器学习非常类似了)
这种方法存在偶然性,并非万能之策,使用时应根据数据综合考虑。

文章来源: zstar.blog.csdn.net,作者:zstar-_,版权归原作者所有,如需转载,请联系作者。

原文链接:zstar.blog.csdn.net/article/details/118946281

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。