机器学习笔记(七) ---- 贝叶斯分类

举报
云上有未来 发表于 2019/08/31 14:54:12 2019/08/31
【摘要】 贝叶斯算法是一个典型的统计概率学算法,里面涉及到较多的统计学概念,贝叶斯分类器和贝叶斯网络也是以这个算法作为理论基础。先来看看几个绕不过去的统计学概念:

     贝叶斯算法是一个典型的统计概率学算法,里面涉及到较多的统计学概念,贝叶斯分类器和贝叶斯网络也是以这个算法作为理论基础。先来看看几个绕不过去的统计学概念:


      先验概率:事件发生前的预判概率,可以是基于历史数据统计,也可以由背景常识得出,一般是单独事件概率,如P(A) - 这个幼儿园男孩比例是多少、P(B)-这个幼儿园女孩比例是多少。


      后验概率:事件发生后求的反向条件概率,在给定条件C以后,A发生的概率 P(A|C)- 有一个小孩会唱歌,请问他(她)是男孩的概率有多大(幼儿园中1/2的男孩会唱歌,2/3的女孩会唱歌)。


      极大似然估计:就是利用已知的样本结果信息,反推最具可能(最大概率)导致这些样本结果出现的模型参数值。


      贝叶斯分类的原理就是通过先验概率,利用贝叶斯公式计算出后验概率,选择最大后验概率所对应的分类结果。

      经典贝叶斯公式:

                           经典贝叶斯公式:.png 

      P(w)为先验概率,表示每种类别分布的概率;

      P(x|w)为类条件概率,表示在某种类别前提下,某事发生的概率;

      P(x)是用于归一化的证据因子,对于给定样本,证据因子与类标记无关;

      P(w|x)为后验概率,表示某事已经发生了,它属于某一类别的概率,我们就是要找出后验概率最大的类别,作为分类的结果。

      我们来看一个简单的例子:已知,在幼儿园中,会唱歌的男孩占男孩总数的1/2,会唱歌的女孩占女孩总数的2/3,并且幼儿园中男女比例为2:1,试问一个会唱歌的小孩为男孩和女孩的概率各为多少?

      假设: w1=男孩,w2=女孩,x=会唱歌

      先验概率 P(w1)=2/3,P(w2)=1/3

      类条件概率 P(x|w1)=1/2, P(x|w2)=2/3

      男孩和女孩会唱歌相互独立,P(x)= P(x|w1)P(w1) +  P(x|w2)P(w2) = 5/9


      根据贝叶斯公式计算出男孩和女孩的概率分别是60%和40%。(如果只考虑分类问题,只需要比较后验概率的大小,不用计算具体的值,所以P(x)的取值不重要)


      通过上面的例子,我们就把通过贝叶斯公式进行分类的问题简化为通过训练数据来估计先验概率P(w)和类条件概率P(x|w)。


      P(w)表达的是样本空间内各类样本所占的比例,通过简单的统计就可以计算出来,关键是类条件概率P(x|w)怎么确定。但类条件概率的估计非常困难,因为这是一个涉及到w所有属性的联合概率,但我们的数据量有限,不是所有样本取值都在数据集中出现,直接根据样本出现的频率来确定类条件概率P(x|w)会产生较大的偏差。


      那怎么确定类条件概率呢,这里就要引入“极大似然估计”方法了,这是一种参数估计的方法:先假定其具有某种确定的概率分布形式(概率模型),再基于训练样本对概率分布的参数进行估计,简单来说,就是“先确定概率模型,再根据数据训练找到使得概率最大的模型参数”。


      对于P(x|a)这个函数,x表示某一个具体的数据,a表示模型的参数。


      如果a是已知的,x是变量,这个函数叫做概率函数,它描述对于不同的样本点x,其出现的概率是多少;


      如果x是已知的,a是变量,这个函数叫做似然函数,它描述对于不同的模型参数,出现x这个样本点的概率是多少。我们需要求解的是后一种情况,所以这个过程叫做“极大似然估计”


-- 朴素贝叶斯分类

      朴素贝叶斯假设所有属性相互独立,各属性独立地对分类结果发生影响,互不干扰。

      朴素贝叶斯分类的基本过程:

      1、数据集 X = {a1,a2,.....  am}为待分类项,每个a为数据集X的一个特征属性;

      2、有类别集合C = {y1,y2,... yn}

      3、计算类条件概率 P(y1|x),P(y2|x),..... P(yn|x)

      4、判断如果 P(yk|x)= max{P(y1|x),P(y2|x),..... P(yn|x)},则x属于yk

   

   整个过程的难点在于第三步,计算各个类的条件概率,根据贝叶斯定理和朴素贝叶斯的假设,贝叶斯公式可以转化为如下表示:      

      (1)离散特征值处理

      当特征属性为离散值时,P(x=xi|Y=c)= Dc,xi/Dc

      Dc,xi: 类别为c中属性xi=x的样本总数

      Dc:类别为c的样本总数


      (2)连续特征值处理

      假设连续变量服从某种概率分布(假设概率模型),然后使用训练数据估计概率模型的参数。

      假设特征变量符合高斯分布,对于每个类别yi,特征属性Xi的类条件概率为:   

      其中和分别是第i类样本在第j个属性上取值的均值和方差,极大似然估计就是估计这两个参数。   

      朴素贝叶斯常用的几个模型分别为:

      1、高斯模型(多用于连续值);

      2、多项式模型(多用于离散值);

      3、伯努利模型(也用于离散特征中,但每个特征的取值只能是0或1)


-- 朴素贝叶斯特点:

      优点:

      1、发源于古典数学理论,效率较高;

      2、对小规模数据训练效果较好,适合多分类任务,适合增量训练;

      3、算法简单,易于实现,常用于文本分类;

      缺点:

      1、朴素贝叶斯假设属性之间相互独立,但在实际情况中,属性较多或者属性相关性较大时,分类效果不好;

      2、需要先假设先验概率,假设的模型有很多种,可能会由于选择的概率模型的原因导致分类效果不佳。


-- sklearn朴素贝叶斯分类

      用20twenty news数据集为例进行文本分类的练习 ,一共20个新闻类别,20000篇新闻数据,利用朴素贝叶斯算法进行模型训练,示例代码如下:


-

Python 代码


01from sklearn import metrics
02from sklearn.datasets import load_files
03from sklearn.feature_extraction.text import CountVectorizer
04from sklearn.feature_extraction.text import TfidfTransformer
05from sklearn.naive_bayes import MultinomialNB
06import numpy as np
07
08#################### 20twenty_new ##########################
09# categories = ['alt.atheism', 'soc.religion.christian', 'comp.graphics', 'sci.med']
10twenty_train = load_files("20news-bydate-train", shuffle=True, encoding='latin1',random_state=42)
11twenty_test = load_files("20news-bydate-test", shuffle=True, encoding='latin1',random_state=42)
12count = CountVectorizer()
13tfidf_transformer = TfidfTransformer()
14
15count_vect = CountVectorizer()
16X_train_counts = count_vect.fit_transform(twenty_train.data)
17
18tfidf_transformer = TfidfTransformer()
19X_train_tfidf = tfidf_transformer.fit_transform(X_train_counts)
20
21'''
22使用朴素贝叶斯分类(多项式分布),并做出简单的预测
23'''
24clf_Multi = MultinomialNB().fit(X_train_tfidf, twenty_train.target)
25
26docs_test = twenty_test.data
27X_test_counts = count_vect.transform(docs_test)
28X_test_tfidf = tfidf_transformer.transform(X_test_counts)
29predicted = clf_Multi.predict(X_test_tfidf)
30
31print(metrics.classification_report(twenty_test.target, predicted, target_names=twenty_test.target_names))
32print("accurary\t" + str(np.mean(predicted == twenty_test.target)))
33=======================================================================
34                            precision   recall   f1-score   support
35
36             alt.atheism       0.80      0.52      0.63       319
37           comp.graphics       0.81      0.65      0.72       389
38 comp.os.ms-windows.misc       0.82      0.65      0.73       394
39comp.sys.ibm.pc.hardware       0.67      0.78      0.72       392
40   comp.sys.mac.hardware       0.86      0.77      0.81       385
41          comp.windows.x       0.89      0.75      0.82       395
42            misc.forsale       0.93      0.69      0.80       390
43               rec.autos       0.85      0.92      0.88       396
44         rec.motorcycles       0.94      0.93      0.93       398
45      rec.sport.baseball       0.92      0.90      0.91       397
46        rec.sport.hockey       0.89      0.97      0.93       399
47               sci.crypt       0.59      0.97      0.74       396
48         sci.electronics       0.84      0.60      0.70       393
49                 sci.med       0.92      0.74      0.82       396
50               sci.space       0.84      0.89      0.87       394
51  soc.religion.christian       0.44      0.98      0.61       398
52      talk.politics.guns       0.64      0.94      0.76       364
53   talk.politics.mideast       0.93      0.91      0.92       376
54      talk.politics.misc       0.96      0.42      0.58       310
55      talk.religion.misc       0.97      0.14      0.24       251
56
57             avg / total       0.82      0.77      0.77      7532
58
59accurary    0.77389803505


【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。