学习笔记|logistic回归
logistic回归是统计学习中的经典分类方法,属于对数线性模型。
1. logisitc分布
定义(logistic分布) 设X是连续随机变量,X服从logistic分布是指X具有下列分布函数和密度函数:
其中,μ为位置参数,γ>0为形状参数。
logistic分布的密度函数f(x)和分布函数F(x)的图形如下:
曲线在中心附近增长速度较快,在两端增长速度较慢。形状参数γ的值越小,曲线在中心附近增长越快。
2. 二项logistic回归模型
二项logistic回归模型是一种分类模型,由条件概率分布P(Y|X)表示,形式为参数化的logistic分布。这里,随机变量X取值为实数,随机变量Y取值为1或0,通过监督学习的方法来估计模型参数。
定义(logistic回归模型) 二项logistic回归模型是如下的条件概率分布:
对于给定的输入实例x,可以求得P(Y=1|x)和P(Y=0|x)。logistic回归比较两个条件概率值的大小,将实例x分到概率值较大的那一类。
对logistic回归而言
这就是说,在logistic回归模型中,输出Y=1的对数几率是输入x的线性函数。或者说,输出Y=1的对数几率是由输入x的线性函数表示的模型,即logistic模型。
3. 模型参数估计
设:
似然函数为
对数似然函数为
其中,
因此,
对L(ω)求极大值,得到ω的估计值。
这样,问题就变成了以对数似然函数为目标函数的最优化问题。logistic回归学习中通常采用的方法是梯度下降及拟牛顿法。
4. 多项logistic回归
可将上述二项logistic回归推广为多项logistic回归模型,用于多分类。假设离散型随机变量Y的取值集合是{1,2,...,K},那么多项logistic回归模型是
二项logistic回归的参数估计法也可以推广到多项logistic回归。
参考文献
- 点赞
- 收藏
- 关注作者
评论(0)