《Python数据挖掘与机器学习实战》—3.6 逻 辑 回 归

举报
华章计算机 发表于 2019/06/17 14:19:25 2019/06/17
【摘要】 本节书摘来自华章计算机《Python数据挖掘与机器学习实战》一书中的第3章,第3.6.1节,作者是方巍 。

3.6  逻 辑 回 归

  逻辑回归也被称为广义线性回归模型,它与线性回归模型的形式基本上相同,最大的区别就在于它们的因变量不同,如果是连续的,就是多重线性回归;如果是二项分布,就是Logistic回归。

  Logistic回归虽然名字里带“回归”,但它实际上是一种分类方法,主要用于二分类问题(即输出只有两种,分别代表两个类别)。逻辑回归就是这样的一个过程:面对一个回归或者分类问题,建立代价函数,然后通过优化方法迭代求解出最优的模型参数,然后测试验证这个求解的模型的好坏。它的优点有:速度快,适合二分类问题;简单、易于理解,可以直接看到各个特征的权重;能容易地更新模型吸收新的数据。它的缺点有:对数据和场景的适应能力有局限性,不如决策树算法适应性强。

  逻辑回归的用途主要有以下3个方面。

  •  寻找危险因素:寻找某一疾病的危险因素等;

  •  预测:根据模型,预测在不同的自变量情况下,发生某种疾病或某种情况的概率有多大;

  •  判别:实际上跟预测有些类似,也是根据模型,判断某人属于某种疾病或属于某种情况的概率有多大。

  逻辑回归的常规步骤:寻找h函数(即预测函数),构造J函数(损失函数),想办法使得J函数最小并求得回归参数(θ)。

3.6.1  构造预测函数

  二分类问题的概率与自变量之间的关系图形往往是一个S型曲线,如图3-8所示,采用sigmoid函数实现,函数形式为:

           image.png   (3-11)

 image.png

图3-8  sigmoid函数

对于线性边界的情况,边界形式如下:

            image.png  (3-12)

  最佳参数:

              image.png(3-13)

  构造预测函数为:

             image.png (3-14)

  sigmoid的函数输出是介于(0,1)之间的,中间值是0.5,公式的含义就很好理解了,因为输出是介于(0,1)之间,也就表明了数据属于某一类别的概率。例如,<0.5则说明当前数据属于A类;>0.5则说明当前数据属于B类。所以可以将sigmoid函数看成样本数据的概率密度函数。

  函数h(x)的值有特殊的含义,它表示结果取1的概率,因此对于输入x分类结果为类别1和类别0的概率分别为:

                                                                                         image.png(3-15)

        image.png      (3-16)


【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。