《Python数据挖掘与机器学习实战》—3.6 逻 辑 回 归
3.6 逻 辑 回 归
逻辑回归也被称为广义线性回归模型,它与线性回归模型的形式基本上相同,最大的区别就在于它们的因变量不同,如果是连续的,就是多重线性回归;如果是二项分布,就是Logistic回归。
Logistic回归虽然名字里带“回归”,但它实际上是一种分类方法,主要用于二分类问题(即输出只有两种,分别代表两个类别)。逻辑回归就是这样的一个过程:面对一个回归或者分类问题,建立代价函数,然后通过优化方法迭代求解出最优的模型参数,然后测试验证这个求解的模型的好坏。它的优点有:速度快,适合二分类问题;简单、易于理解,可以直接看到各个特征的权重;能容易地更新模型吸收新的数据。它的缺点有:对数据和场景的适应能力有局限性,不如决策树算法适应性强。
逻辑回归的用途主要有以下3个方面。
寻找危险因素:寻找某一疾病的危险因素等;
预测:根据模型,预测在不同的自变量情况下,发生某种疾病或某种情况的概率有多大;
判别:实际上跟预测有些类似,也是根据模型,判断某人属于某种疾病或属于某种情况的概率有多大。
逻辑回归的常规步骤:寻找h函数(即预测函数),构造J函数(损失函数),想办法使得J函数最小并求得回归参数(θ)。
3.6.1 构造预测函数
二分类问题的概率与自变量之间的关系图形往往是一个S型曲线,如图3-8所示,采用sigmoid函数实现,函数形式为:
(3-11)
图3-8 sigmoid函数
对于线性边界的情况,边界形式如下:
(3-12)
最佳参数:
(3-13)
构造预测函数为:
(3-14)
sigmoid的函数输出是介于(0,1)之间的,中间值是0.5,公式的含义就很好理解了,因为输出是介于(0,1)之间,也就表明了数据属于某一类别的概率。例如,<0.5则说明当前数据属于A类;>0.5则说明当前数据属于B类。所以可以将sigmoid函数看成样本数据的概率密度函数。
函数h(x)的值有特殊的含义,它表示结果取1的概率,因此对于输入x分类结果为类别1和类别0的概率分别为:
(3-15)
(3-16)
- 点赞
- 收藏
- 关注作者
评论(0)