学习笔记|最大熵模型的理解
【摘要】 定义(最大熵模型) 假设满足所有约束条件的模型集合为定义在条件概率分布P(Y|X)上的条件熵为那么结合学习笔记|最大熵模型中的例子,我们如何来理解最大熵模型?1. 掷骰子的例子为了更好地理解最大熵模型,我们先来看一个掷骰子的例子(它的原型和基本思路来源于参考文献2)。骰子y1y2y3y4y5y6x11002030400x25012340则联合分布的经验分布:X边缘分布的经验分布:如果不考虑上...
定义(最大熵模型) 假设满足所有约束条件的模型集合为

定义在条件概率分布P(Y|X)上的条件熵为


那么结合学习笔记|最大熵模型中的例子,我们如何来理解最大熵模型?
1. 掷骰子的例子
为了更好地理解最大熵模型,我们先来看一个掷骰子的例子(它的原型和基本思路来源于参考文献2)。

| 骰子 | y1 |
y2 |
y3 |
y4 |
y5 | y6 |
|---|---|---|---|---|---|---|
| x1 |
10 | 0 | 20 | 30 | 40 | 0 |
| x2 |
50 | 1 | 2 | 3 | 4 | 0 |
则联合分布的经验分布:

X边缘分布的经验分布:



如果不考虑上述约束,按照最大熵模型,即求解

由于x1和x2是相互独立的事件。因此,上述最优化问题可以拆分成:

和

求解上述最优化问题可以得到:


因此,上述最优化问题将变为:

和

因为

所以

求解最优化问题可以得到

2. 学习笔记|最大熵模型 中的例子
此时,再回过头来看学习笔记|最大熵模型 中的例子就比较好理解。
由于只有一个随机变量,条件概率即概率本身,因此当无约束时,它可以写成以下最优化问题。

很容易看出它的解就是平均分布。

最优化结果不再赘述。
参考文献
1.统计学习方法(第2版),李航著,清华大学出版社
2.https://www.zhihu.com/question/24094554
【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)