学习笔记|朴素贝叶斯法
朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入输出的联合概率颁布;然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。
1. 朴素贝叶斯法的学习与分类
1.1. 基本方法
由P(X,Y)独立同分布产生。
朴素贝叶斯法通过训练数据集学习联合概率分布P(X,Y)。具体地,学习以下先验概率分布及条件概率分布。先验概率分布
条件概率分布
k=1,2,...,K
于是学习到联合概率分布P(X,Y)。
朴素贝叶斯法对条件概率分布作了条件独立性的假设。由于这是一个较强的假设,朴素贝叶斯法也由此得名。具体地,条件独立性假设是
朴素贝叶斯法实际上学习到生成数据的机制,所以属于生成模型。条件独立假设等于是说用于分类的特征在类确定的条件下都是条件独立的。这一假设使朴素贝叶斯法变得简单,但有时会牺牲一定的分类准确率。
k=1,2,...,K
这是朴素贝叶斯法分类的基本公式。于是,朴素贝叶斯分类可表示为
1.2. 后验概率最大化的含义
朴素贝叶斯法将实例分到后验概率最大的类中。这等价于期望风险最小化。假设选择0-1损失函数:
这时,期望风险函数为
期望是对联合分布P(X,Y)取的。因此,先对Y取期望,得
为了使期望风险最小化,只需对X=x逐个极小化,由此得到:
这样一来,根据期望风险最小化准则就得到了后验概率最大化准则:
即朴素贝叶斯法所采用的原理。
2. 朴素贝叶斯法的参数估计
2.1. 极大似然估计
2.2. 学习与分类算法
朴素贝叶斯算法
输出:实例x的分类。
(1)计算先验概率及条件概率
(3)确定实例x的类
2.3. 贝叶斯估计
用极大似然估计可能会出现所要估计的概率值为0的情况。这时会影响到后验概率的计算结果,使分类产生偏差。解决这一问题的方法是采用贝叶斯估计。具体地,条件概率的贝叶斯估计是
先验概率的贝叶斯估计是
参考文献
【1】统计学习方法(第2版),李航著,清华大学出版社
- 点赞
- 收藏
- 关注作者
评论(0)