- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

高斯混合模型--GMM（Gaussian Mixture Model）

风吹稻花香发表于 2021/06/04 22:58:09 2021/06/04

【摘要】参考：http://blog.sina.com.cn/s/blog_54d460e40101ec00.html 概率指事件随机发生的机率，对于均匀分布函数，概率密度等于一段区间(事件的取值范围)的概率除以该段区间的长度，它的值是非负的，可以很大也可以很小。对于随机变量X的分布函数F（x），如果存在非负可积函数f(x)，使得对任意实数x,有 ...

参考：http://blog.sina.com.cn/s/blog_54d460e40101ec00.html

概率指事件随机发生的机率，对于均匀分布函数，概率密度等于一段区间(事件的取值范围)的概率除以该段区间的长度，它的值是非负的，可以很大也可以很小。

对于随机变量X的分布函数F（x），如果存在非负可积函数f(x)，使得对任意实数x,有

则X为连续型随机变量，称f(x)为X的概率密度函数，简称为概率密度。

单纯的讲概率密度没有实际的意义，它必须有确定的有界区间为前提。可以把概率密度看成是纵坐标，区间看成是横坐标，概率密度对区间的积分就是面积，而这个面积就是事件在这个区间发生的概率，所有面积的和为1。所以单独分析一个点的概率密度是没有任何意义的，它必须要有区间作为参考和对比。

高斯混合模型--GMM（Gaussian Mixture Model）

统计学习的模型有两种，一种是概率模型，一种是非概率模型。

所谓概率模型，是指训练模型的形式是P(Y|X)。输入是X，输出是Y，训练后模型得到的输出不是一个具体的值，而是一系列的概率值（对应于分类问题来说，就是输入X对应于各个不同Y（类）的概率），然后我们选取概率最大的那个类作为判决对象（软分类--soft assignment）。所谓非概率模型，是指训练模型是一个决策函数Y=f(X)，输入数据X是多少就可以投影得到唯一的Y，即判决结果（硬分类--hard assignment）。

所谓混合高斯模型（GMM）就是指对样本的概率密度分布进行估计，而估计采用的模型（训练模型）是几个高斯模型的加权和（具体是几个要在模型训练前建立好）。每个高斯模型就代表了一个类（一个Cluster）。对样本中的数据分别在几个高斯模型上投影，就会分别得到在各个类上的概率。然后我们可以选取概率最大的类所为判决结果。

从中心极限定理的角度上看，把混合模型假设为高斯的是比较合理的，当然，也可以根据实际数据定义成任何分布的Mixture Model,不过定义为高斯的在计算上有一些方便之处，另外，理论上可以通过增加Model的个数，用GMM近似任何概率分布。

混合高斯模型的定义为：

其中K 为模型的个数；πk为第k个高斯的权重；p（x / k）则为第k个高斯概率密度，其均值为μk，方差为σk。对此概率密度的估计就是要求出πk、μk 和σk 各个变量。当求出p（x ）的表达式后，求和式的各项的结果就分别代表样本x 属于各个类的概率。

在做参数估计的时候，常采用的是最大似然方法。最大似然法就是使样本点在估计的概率密度函数上的概率值最大。由于概率值一般都很小，N 很大的时候, 连乘的结果非常小，容易造成浮点数下溢。所以我们通常取log，将目标改写成：

也就是最大化对数似然函数，完整形式为：

一般用来做参数估计的时候，我们都是通过对待求变量进行求导来求极值，在上式中，log函数中又有求和，你想用求导的方法算的话方程组将会非常复杂，没有闭合解。可以采用的求解方法是EM算法——将求解分为两步：第一步,假设知道各个高斯模型的参数（可以初始化一个，或者基于上一步迭代结果），去估计每个高斯模型的权值；第二步,基于估计的权值，回过头再去确定高斯模型的参数。重复这两个步骤，直到波动很小，近似达到极值（注意这里是极值不是最值，EM算法会陷入局部最优）。具体表达如下：

1、（E step）

对于第i个样本xi 来说，它由第k 个model 生成的概率为：

在这一步，假设高斯模型的参数和是已知的（由上一步迭代而来或由初始值决定）。

2、（M step）

3、重复上述两步骤直到算法收敛。

这个参考：http://www.cnblogs.com/zhangchaoyang/articles/2624882.html

本文就高斯混合模型（GMM,Gaussian Mixture Model）参数如何确立这个问题，详细讲解期望最大化（EM,Expectation Maximization）算法的实施过程。

单高斯分布模型GSM

多维变量X服从高斯分布时，它的概率密度函数PDF为：

x是维度为d的列向量，u是模型期望，Σ是模型方差。在实际应用中u通常用样本均值来代替，Σ通常用样本方差来代替。很容易判断一个样x本是否属于类别C。因为每个类别都有自己的u和Σ，把x代入（1）式，当概率大于一定阈值时我们就认为x属于C类。

从几何上讲，单高斯分布模型在二维空间应该近似于椭圆，在三维空间上近似于椭球。遗憾的是在很多分类问题中，属于同一类别的样本点并不满足“椭圆”分布的特性。这就引入了高斯混合模型。

高斯混合模型GMM

GMM认为数据是从几个GSM中生成出来的，即

K需要事先确定好，就像K-means中的K一样。是权值因子。其中的任意一个高斯分布N(x;u_k,Σ_k)叫作这个模型的一个component。这里有个问题，为什么我们要假设数据是由若干个高斯分布组合而成的，而不假设是其他分布呢？实际上不管是什么分布，只K取得足够大，这个XX Mixture Model就会变得足够复杂，就可以用来逼近任意连续的概率密度分布。只是因为高斯函数具有良好的计算性能，所GMM被广泛地应用。

GMM是一种聚类算法，每个component就是一个聚类中心。即在只有样本点，不知道样本分类（含有隐含变量）的情况下，计算出模型参数（π，u和Σ）----这显然可以用EM算法来求解。再用训练好的模型去差别样本所属的分类，方法是：step1随机选择K个component中的一个（被选中的概率是）；step2把样本代入刚选好的component，判断是否属于这个类别，如果不属于则回到step1。