- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

机器学习十大经典算法之朴素贝叶斯分类

小小谢先生发表于 2022/04/16 01:33:15 2022/04/16

【摘要】贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。而朴素朴素贝叶斯分类是贝叶斯分类中最简单，也是常见的一种分类方法。分类问题从数学角度来说，分类问题可做如下定义：已...

贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。而朴素朴素贝叶斯分类是贝叶斯分类中最简单，也是常见的一种分类方法。

分类问题

从数学角度来说，分类问题可做如下定义：已知集合 $C={{y_{1},y_{2},....y_{n}} }$ 和 $I=x_{1}, x_{2}, x_{3}......x_{n}$ ，确定映射规则y = f()，使得任意 $x_{i}\epsilon I$ 有且仅有一个$y_{i}\epsilon C $, 使得$ y_{i}\epsilon f(x_{i} ) $成立。

其中C叫做类别集合，其中每一个元素是一个类别，而I叫做项集合（特征集合），其中每一个元素是一个待分类项，f叫做分类器。分类算法的任务就是构造分类器f。

下面以一个实例来讲解：

朴素贝叶斯分类

那么既然是朴素贝叶斯分类算法，它的核心算法是下面这个贝叶斯公式：

也可以换成如下表达式：

所以我们最终求的p(类别|特征)即可！

例题分析

给定数据如下：

现在给我们的问题是，如果一对男女朋友，男生想女生求婚，男生的四个特点分别是不帅，性格不好，身高矮，不上进，请你判断一下女生是嫁还是不嫁？

这是一个典型的分类问题，转为数学问题就是比较p(嫁|(不帅、性格不好、身高矮、不上进))与p(不嫁|(不帅、性格不好、身高矮、不上进))的概率，谁的概率大，我就能给出嫁或者不嫁的答案！

这里我们联系到朴素贝叶斯公式：

我们需要求p(嫁|(不帅、性格不好、身高矮、不上进),这是我们不知道的，但是通过朴素贝叶斯公式可以转化为好求的三个量，p(不帅、性格不好、身高矮、不上进|嫁)、p（不帅、性格不好、身高矮、不上进)、p(嫁)（至于为什么能求，后面会讲，那么就太好了，将待求的量转化为其它可求的值，这就相当于解决了我们的问题！）

那么这三个量是如何求得？

是根据已知训练数据统计得来，下面详细给出该例子的求解过程。

回忆一下我们要求的公式如下：

那么我只要求得p(不帅、性格不好、身高矮、不上进|嫁)、p（不帅、性格不好、身高矮、不上进)、p(嫁)即可，好的，下面我分别求出这几个概率，最后一比，就得到最终结果。

为什么这个等式成立呢？要使这个成立，需要各个特征互相独立。朴素贝叶斯分类有朴素一词的来源，就是假设各个特征之间相互独立，那么这个等式就成立了！

我们将上面公式整理一下如下：