朴素贝叶斯算法之鸢尾花特征分类【机器学习】【伯努利分布,多项式分布,高斯分布】

上进小菜猪 发表于 2022/06/21 17:03:42 2022/06/21
【摘要】 一.前言 1.1 本文原理1.熟悉机器学习之朴素贝叶斯算法2.使用朴素贝叶斯算法解决问题贝叶斯定理是关于随机事件a和B的条件概率(或边际概率)的定理。其中p(a | B)是当B发生时a发生的可能性。朴素贝叶斯算法:对于样本集:其中m表示有m个样本,N表示有N个特征。yi,i=1,2,。。,M表示样本类别,值为{c1,C2,…,ck}。朴素贝叶斯分类的基本公式:计算先验概率:计算样本类别数k...

一.前言

1.1 本文原理

1.熟悉机器学习之朴素贝叶斯算法
2.使用朴素贝叶斯算法解决问题
贝叶斯定理是关于随机事件a和B的条件概率(或边际概率)的定理。其中p(a | B)是当B发生时a发生的可能性。
朴素贝叶斯算法:
对于样本集:
在这里插入图片描述
其中m表示有m个样本,N表示有N个特征。yi,i=1,2,。。,M表示样本类别,值为{c1,C2,…,ck}。
朴素贝叶斯分类的基本公式:
在这里插入图片描述
计算先验概率:计算样本类别数k。对于每个样本y=ck,计算P(y=ck)。这是总样本集中CK类的频率。
计算条件概率:将样本集划分为k个子样本集,分别计算属于CK的子样本集,计算特征概率P(Xj=ajl|Y=Ck)。它是子集中特征值为AJL的样本数与子集中样本数的比率。
对于要预测的样本xtest,计算每个类别CK的后验概率:
在这里插入图片描述

1.2 本文目的

  1. 使用BernoulliNB(伯努利分布)给鸢尾花分类,写出代码,对运行结果截图并对分类结果进行分析; 参考代码:bayes =naive_bayes.BernoulliNB()
  2. 使用MultinomailNB(多项式分布)给鸢尾花分类,写出代码,对运行结果截图并对分类结果进行分析
  3. 使用GaussianNB(高斯分布)给鸢尾花分类,写出代码,对运行结果截图并对分类结果进行分析;

二.实验过程

2.1使用BernoulliNB(伯努利分布)给鸢尾花分类,写出代码,对运行结果截图并对分类结果进行分析;

和前几篇一样,先使用load_iris模块,里面有150组鸢尾花特征数据,我们可以拿来进行学习特征分类。
如下代码:

from sklearn.datasets import load_iris
iris = load_iris()
X = iris.data
y = iris.target

引入朴素贝叶斯算法模块:

from sklearn import naive_bayes

使用朴素贝叶斯算法机器分类器:BernoulliNB的用法如下:(伯努利分布)

nb=naive_bayes.BernoulliNB()

先采用俩个特征集,给鸢尾花分类,输出训练得分和预测,如下代码:

nb.fit(X[:,:2],y)
print("training score: ",nb.score(X[:,:2],y))
print("predict: ",nb.predict([[7,5],[7.5,4]]))

运行截图如下:
在这里插入图片描述

2.2 使用MultinomailNB(多项式分布)给鸢尾花分类,写出代码,对运行结果截图并对分类结果进行分析

首先,上面的步骤肯定已经做完了,我们接下来在之前的基础上,使用MultinomailNB给鸢尾花特征分类
先保证朴素贝叶斯算法naive_bayes成功引入:

from sklearn import naive_bayes

还有就是load_iris模块,这里省略。
我们使用多项式分布MultinomailNB分类器,如下代码:

mu=naive_bayes.MultinomialNB()

标准如下:

naive_bayes.MultinomialNB(alpha=1.0, 
										fit_prior=True, 
										class_prior=None)

alpha:浮点可选参数。默认值为1.0。实际上,它添加了拉普拉斯平滑,即λ,如果该参数设置为0,则不添加平滑;
fit_prior:布尔可选参数。
是输出为类别K的训练集样本数。
class_prio:可选参数。默认值为“无”。

这里我们选择使用第2,3特征进行鸢尾花特征分类,代码如下:

mu.fit(X[:,1:3],y)

给鸢尾花分类,输出训练得分和预测,如下代码:

print("training score: ",mu.score(X[:,1:3],y))
print("predict: ",mu.predict([[5,2],[4,7]]))

运行截图如下:
在这里插入图片描述

2.3 使用GaussianNB(高斯分布)给鸢尾花分类,写出代码,对运行结果截图并对分类结果进行分析;

我们接下来在之前的基础上,使用GaussianNB给鸢尾花特征分类
先保证朴素贝叶斯算法naive_bayes成功引入:(省略),还有就是load_iris模块,这里省略。
我们使用多项式分布GaussianNB分类器,如下代码:

bayes = naive_bayes.GaussianNB()

这里我们选择使用第全特征进行鸢尾花特征分类,代码如下:

bayes.fit(X,y)

给鸢尾花分类,输出训练得分和预测,如下代码:

print("training score: ",bayes.score(X,y))
print("predict: ",bayes.predict([[7,5,2,0.5],[7.5,4,7,2]]))

运行截图如下:在这里插入图片描述

2.4 总结

需要充分的了解了贝叶斯定理和朴素贝叶斯算法的相关内容。初步可以使用BernoulliNB(伯努利分布),MultinomailNB(多项式分布),GaussianNB(高斯分布)给鸢尾花分类。
主要:
1.熟悉机器学习之朴素贝叶斯算法
2.使用朴素贝叶斯算法解决问题
在这里插入图片描述

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区),文章链接,文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:cloudbbs@huaweicloud.com进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。