学习笔记|最大熵模型
最大熵是概率模型学习的一个准则,将其推广到分类问题得到最大熵模型。它也属于对数线性模型。
1. 最大熵原理
最大熵原理认为,学习概率模型时,在所有可能的概率模型(分布)中,熵最大的模型是最好的模型。通常用约束条件来确定概率模型的集合,所以,最大熵原理也可以表述为在满足约束条件的模型集合中选取熵最大的模型。
假设离散随机变量X的概率分布是P(X),则其熵是
熵满足下列不等式:
其中,|X|是X的取值个数,当且仅当X的分布是均匀分布时右边的等号成立。这就是说,当X服从均匀分布时,熵最大。
直观地,最大熵原理认为要选择的概率模型首先必须满足已有的事实,即约束条件。在没有更多信息的情况下,那些不确定的部分都是“等可能的”。最大熵原理通过熵的最大化来表示等可能性。“等可能”不容易操作,而熵则是一个可优化数值指标。
最大熵原理可以从以下例子进行体会:
例: 假设随机变量X有5个取值{A,B,C,D,E},要估计各个值的概率P(A),P(B),P(C),P(D),P(E)。
解:
这些概率满足以下约束条件:
根据最大熵原则进行估计,即认为分布中取各个值的概率相等,那么:
等概率表示了对事实的无知。因为没有更多的信息,这种判断是合理的。
如果有一些先验知识,从而对这些概率值形成约束条件,例如:
那么在缺少其他信息的情况下,可以认为A与B的概率是相等的,C/D/E的概率是相等的。那么
2. 最大熵模型的定义
给定一个训练数据集
学习的目标是用最大熵原理选择最好的分类模型。
用特征函数f(x,y)描述输入x和输出y之间的某一个事实。其定义是

如果模型能够获取训练数据中的信息,那么就可以假设这两个期望值相等,即
或
定义(最大熵模型) 假设满足所有约束条件的模型集合为
定义在条件概率分布P(Y|X)上的条件熵为
参考文献
【1】统计学习方法(第2版),李航著,清华大学出版社
- 点赞
- 收藏
- 关注作者
评论(0)