信息熵、KL散度、交叉熵、softmax函数学习小记
【摘要】 分享一下自己对信息熵、KL散度、交叉熵、softmax函数的学习
1.信息熵
简介:
描述一组样本的不确定程度。
公式:
例如一组样本:
求信息熵:
结论:
样本1中的学生选择国庆假期出游的不确定性比较大。
2.交叉熵
简介:
度量预测样本与真实样本之间的差距。NN中最常见的名词之一,但除了会用,还可以再多了解一下。
公式:
(注:交叉熵有多种变形公式)
例如一组样本:
求交叉熵:
H(P,Q) = -(1Log(0.7) + 0log(0.1) + 0*log(0.2)) = 0.1549
结论:
预测结果越准确,交叉熵越小。
3.KL散度
简介:
描述2个概率分布间的差异或者距离。也是学习GAN时需要了解的重要概念。
公式:
特性:
1.非对称性:
2.非负性:
3.通过公式变形可知:
KL散度 = 交叉熵-信息熵
我们知道Log(1)=0,分类问题结果往往是one hot形式的,那么上面公式就变成了:
KL散度 = 交叉熵 - 0
所以有时候直接求交叉熵就行了。
4.交叉熵二分类公式
简介:
又名BCE、BinaryCrossEntropy。
二分类即是或者不是两种结果,同时也会得到返回是或者不是的概率,概率值带入该公式求得损失,同时也是GAN运用中用来求得损失函数的公式。
公式:
(注:为什么xi可以替换成x1和x2,是因为二分类只有2个分类)
导数(这是chatgpt给的):
(Q - P) / (Q * (1 - Q))
5.Softmax
简介:
将数字结果转换为概率,所以对于非分类问题的神经网络,要去掉Softmax操作。
公式:
这个比较常见,推导就不做了。
【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)