【数据挖掘】数据挖掘总结 ( 贝叶斯分类器示例 ) ★

举报
韩曙亮 发表于 2022/01/11 00:04:24 2022/01/11
【摘要】 文章目录 一、 贝叶斯分类器分类的流程二、 贝叶斯分类器分类示例 1 参考博客 : 【数据挖掘】贝叶斯分类 ( 贝叶斯分类器 | 贝叶斯推断 | 逆向概率 | 贝叶斯公式 | 贝叶...



参考博客 :





一、 贝叶斯分类器分类的流程



已知条件 :

已知样本 : 已知若干个样本

未知样本 : 给定 1 1 1 个未知样本 , 其有 4 4 4 个属性组成向量 X \rm X X , 样本的分类有两种 , Y \rm Y Y N \rm N N ; ( Yes / No )


分类步骤 :

计算两个概率 , 即

① 样本取值为 X \rm X X 向量时 , 分类为 Y \rm Y Y 的概率 , 公式为 P ( Y ∣ X ) = P ( X ∣ Y ) P ( Y ) P ( X ) \rm P(Y|X) = \cfrac{P(X | Y) P(Y)}{P(X)} P(YX)=P(X)P(XY)P(Y) , 其中 P ( X ∣ Y ) P ( Y ) \rm P(X | Y) P(Y) P(XY)P(Y) 含义是 : 样本分类 Y \rm Y Y 的概率 P ( Y ) \rm P(Y) P(Y) , 乘以 样本分类为 Y \rm Y Y 前提下样本取值 X \rm X X 时的概率 P ( X ∣ Y ) \rm P(X | Y) P(XY) , 是 P ( X Y ) \rm P(XY) P(XY) 共同发生的概率 ;

② 样本取值为 X \rm X X 向量时 , 分类为 N \rm N N 的概率 , 公式为 P ( N ∣ X ) = P ( X ∣ N ) P ( N ) P ( X ) \rm P(N|X) = \cfrac{P(X | N) P(N)}{P(X)} P(NX)=P(X)P(XN)P(N) , 其中 P ( X ∣ N ) P ( N ) \rm P(X | N) P(N) P(XN)P(N) 含义是 : 样本分类为 N \rm N N 的概率 P ( N ) \rm P(N) P(N) , 乘以 样本取值 N \rm N N 时的概率 P ( X ∣ N ) \rm P(X | N) P(XN) , 是 P ( X N ) \rm P(XN) P(XN) 共同发生的概率 ;

上述两个概率 , 哪个概率高 , 就将该样本分为哪个分类 ;


先验概率 : P ( Y ) \rm P(Y) P(Y) , P ( N ) \rm P(N) P(N) ;

后验概率 : P ( X ∣ Y ) P ( Y ) \rm P(X | Y) P(Y) P(XY)P(Y) , P ( X ∣ N ) P ( N ) \rm P(X | N) P(N) P(XN)P(N) ;

公式中每个元素的含义参考 【数据挖掘】贝叶斯分类 ( 贝叶斯分类器 | 贝叶斯推断 | 逆向概率 | 贝叶斯公式 | 贝叶斯公式推导 | 使用贝叶斯公式求逆向概率 )

上述两个公式 P ( Y ∣ X ) = P ( X ∣ Y ) P ( Y ) P ( X ) \rm P(Y|X) = \cfrac{P(X | Y) P(Y)}{P(X)} P(YX)=P(X)P(XY)P(Y) P ( N ∣ X ) = P ( X ∣ N ) P ( N ) P ( X ) \rm P(N|X) = \cfrac{P(X | N) P(N)}{P(X)} P(NX)=P(X)P(XN)P(N) , 分母都是 P ( X ) \rm P(X) P(X) , 只比较分子即可 , 其中先验概率 P ( Y ) \rm P(Y) P(Y) , P ( N ) \rm P(N) P(N) 很容易求得 , 重点是求两个后验概率 P ( X ∣ Y ) P ( Y ) \rm P(X | Y) P(Y) P(XY)P(Y) , P ( X ∣ N ) P ( N ) \rm P(X | N) P(N) P(XN)P(N) ;


后验概率 P ( X ∣ Y ) \rm P(X | Y) P(XY) 求法 : 针对 X \rm X X 向量中 4 4 4 个分量属性的取值 , 当样品类型是 Y \rm Y Y , 分量 1 1 1 取值为该分量属性时的概率 , 同理计算出 4 4 4 个分量属性对应的 4 4 4 个概率 , 最后将 四个概率相乘 ;

后验概率 P ( X ∣ Y ) \rm P(X | Y) P(XY) 再乘以先验概率 P ( Y ) \rm P(Y) P(Y) , 就是最终的 未知样本分类为 Y \rm Y Y 类型的概率 ;


最终对比样本 , ① 未知样本分类为 Y \rm Y Y 类型的概率 , ② 未知样本分类为 N \rm N N 类型的概率 , 哪个概率大 , 就分类为哪个类型 ;





二、 贝叶斯分类器分类示例 1



分类需求 : 根据 年龄 , 收入水平 , 是否是学生 , 信用等级 , 预测 " 年龄小于 30 岁 , 收入中等 , 学生 , 信用等级一般 " 的用户是否会购买商品 ;


年龄 收入水平 是否是学生 信用等级 是否购买商品
小于 30 岁 高收入 不是 一般 不会 N \rm N N
小于 30 岁 高收入 不是 很好 不会 N \rm N N
31 ~ 39 岁 高收入 不是 一般 Y \rm Y Y
40 岁以上 中等收入 不是 一般 Y \rm Y Y
40 岁以上 低收入 一般 Y \rm Y Y
40 岁以上 低收入 很好 不会 N \rm N N
31 ~ 40 岁 低收入 不是 很好 Y \rm Y Y
小于 30 岁 中等收入 不是 一般 不会 N \rm N N
小于 30 岁 低收入 一般 Y \rm Y Y
40 岁以上 中等收入 一般 Y \rm Y Y
小于 30 岁 中等收入 很好 Y \rm Y Y
31 ~ 39 岁 中等收入 不是 很好 Y \rm Y Y
31 ~ 39 岁 高收入 一般 Y \rm Y Y
40 岁以上 中等收入 不是 很好 不会 N \rm N N

未知样本 取值 X \rm X X 向量" 年龄小于 30 岁 , 收入中等 , 学生 , 信用等级一般 " ;

未知样本 分类为 Y \rm Y Y 类型的概率 : P ( Y ∣ X ) = P ( X ∣ Y ) P ( Y ) P ( X ) \rm P(Y | X) = \cfrac{P(X|Y) P(Y)}{P(X)} P(YX)=P(X)P(XY)P(Y)

未知样本 分类为 N \rm N N 类型的概率 : P ( N ∣ X ) = P ( X ∣ N ) P ( N ) P ( X ) \rm P(N | X) = \cfrac{P(X|N) P(N)}{P(X)} P(NX)=P(X)P(XN)P(N)

上述两个概率的分母 P ( X ) \rm P(X) P(X) 是常数 , 对比时可以忽略 , 只需要对比分子即可 ;

先验概率 P ( Y ) = 9 14 \rm P(Y) = \cfrac{9}{14} P(Y)=149 , P ( N ) = 5 14 \rm P(N) = \cfrac{5}{14} P(N)=145 , 9 9 9 个人购买商品 , 5 5 5 个人没有购买商品 ;

后验概率

P ( X ∣ Y ) = P ( 年 龄 小 于 30 ∣ Y ) × P ( 收 入 中 等 ∣ Y ) × P ( 是 学 生 ∣ Y ) × P ( 信 用 等 级 一 般 ∣ Y ) = 2 9 × 4 9 × 6 9 × 6 9 \rm

P(X|Y)==P(30|Y)×P(|Y)×P(|Y)×P(|Y)29×49×69×69 P ( X | Y ) = P ( 30 | Y ) × P ( | Y ) × P ( | Y ) × P ( | Y ) = 2 9 × 4 9 × 6 9 × 6 9
P(XY)==P(30Y)×P(Y)×P(Y)×P(Y)92×94×96×96

P ( X ∣ N ) = P ( 年 龄 小 于 30 ∣ N ) × P ( 收 入 中 等 ∣ N ) × P ( 是 学 生 ∣ N ) × P ( 信 用 等 级 一 般 ∣ N ) = 3 5 × 2 5 × 1 5 × 2 5

P(X|N)==P(30|N)×P(|N)×P(|N)×P(|N)35×25×15×25 P ( X | N ) = P ( 30 | N ) × P ( | N ) × P ( | N ) × P ( | N ) = 3 5 × 2 5 × 1 5 × 2 5
P(XN)==P(30N)×P(N)×P(N)×P(N)53×52×51×52

未知样本 分类为 Y \rm Y Y 类型的概率 分子 : P ( X ∣ Y ) P ( Y ) = 2 9 × 4 9 × 6 9 × 6 9 × 9 14 ≈ 0.0282186948853616 P(X|Y) P(Y) = \cfrac{2}{9} \times \cfrac{4}{9} \times \cfrac{6}{9} \times \cfrac{6}{9} \times \cfrac{9}{14} \approx 0.0282186948853616 P(XY)P(Y)=92×94×96×96×1490.0282186948853616

未知样本 分类为 N \rm N N 类型的概率 分子 : P ( X ∣ N ) P ( N ) = 3 5 × 2 5 × 1 5 × 2 5 × 5 14 ≈ 0.0068571428571429 P(X|N) P(N) = \cfrac{3}{5} \times \cfrac{2}{5} \times \cfrac{1}{5} \times \frac{2}{5} \times \cfrac{5}{14} \approx 0.0068571428571429 P(XN)P(N)=53×52×51×52×1450.0068571428571429


该样本分类 为 Y \rm Y Y , 会购买商品 ;

文章来源: hanshuliang.blog.csdn.net,作者:韩曙亮,版权归原作者所有,如需转载,请联系作者。

原文链接:hanshuliang.blog.csdn.net/article/details/111770921

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。