信息熵、KL散度、交叉熵、softmax函数学习小记

举报
UE5技术哥 发表于 2024/04/11 22:40:00 2024/04/11
【摘要】 分享一下自己对信息熵、KL散度、交叉熵、softmax函数的学习

1.信息熵


简介:
描述一组样本的不确定程度。

公式:

W1.png

例如一组样本:

W2.png


求信息熵:

W3.png


结论:

样本1中的学生选择国庆假期出游的不确定性比较大。

2.交叉熵


简介:
度量预测样本与真实样本之间的差距。NN中最常见的名词之一,但除了会用,还可以再多了解一下。

公式:

W4.png

(注:交叉熵有多种变形公式)

例如一组样本:

W5.png


求交叉熵:

H(P,Q) = -(1Log(0.7) + 0log(0.1) + 0*log(0.2)) = 0.1549

结论:

预测结果越准确,交叉熵越小。

3.KL散度


简介:
描述2个概率分布间的差异或者距离。也是学习GAN时需要了解的重要概念。

公式:

W6.png

特性:

1.非对称性:

W7.png

2.非负性:

W8.png

3.通过公式变形可知:
KL散度 = 交叉熵-信息熵

我们知道Log(1)=0,分类问题结果往往是one hot形式的,那么上面公式就变成了:
KL散度 = 交叉熵 - 0

所以有时候直接求交叉熵就行了。

4.交叉熵二分类公式


简介:
又名BCE、BinaryCrossEntropy。
二分类即是或者不是两种结果,同时也会得到返回是或者不是的概率,概率值带入该公式求得损失,同时也是GAN运用中用来求得损失函数的公式。

公式:

W9.png

(注:为什么xi可以替换成x1和x2,是因为二分类只有2个分类)

导数(这是chatgpt给的):
(Q - P) / (Q * (1 - Q))

5.Softmax


简介:
将数字结果转换为概率,所以对于非分类问题的神经网络,要去掉Softmax操作。

公式:

W10.png

这个比较常见,推导就不做了。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。