联合熵和条件熵

举报
timerring 发表于 2023/02/22 10:28:59 2023/02/22
【摘要】 本专栏包含信息论与编码的核心知识,按知识点组织,可作为教学或学习的参考。markdown版本已归档至【Github仓库:information-theory】,需要的朋友们自取。或者公众号【AIShareLab】回复 信息论 也可获取。 联合熵联合集 XY 上, 对联合自信息 I(xy)I(x y)I(xy) 的平均值称为联合熵:H(XY)=Ep(xy)[I(x⇌y)]=−∑x∑yp(...

本专栏包含信息论与编码的核心知识,按知识点组织,可作为教学或学习的参考。markdown版本已归档至【Github仓库:information-theory】,需要的朋友们自取。或者公众号【AIShareLab】回复 信息论 也可获取。

联合熵

联合集 XY 上, 对联合自信息 I ( x y ) I(x y) 的平均值称为联合熵:

H ( X Y ) = E p ( x y ) [ I ( x y ) ] = x y p ( x y ) log p ( x y ) \begin{array}{l} H(X Y)=\underset{p(x y)}{E}[I(x \rightleftharpoons y)] \\ =-\sum_{x} \sum_{y} p(x y) \log p(x y) \end{array}

当有n个随机变量 X = ( X 1 , X 2 , , X n ) X=\left(X_{1}, X_{2}, \ldots, X_{n}\right) , 有

H ( X ) = X 1 , X 2 , , X n p ( x 1 , x 2 , , x n ) log p ( x 1 , x 2 , , x n ) H(\mathbf{X})=-\sum_{X_{1}, X_{2}, \ldots, X_{n}} p\left(x_{1}, x_{2}, \ldots, x_{n}\right) \log p\left(x_{1}, x_{2}, \ldots, x_{n}\right)

信息熵与热熵的关系

信息熵的概念是借助于热熵的概念而产生的。

  1. 信息熵与热熵含义相似

  2. 信息熵与热熵的区别:

    • 信息熵的不增原理
    • 热熵不减原理
  3. 热熵的减少等于信息熵的增加。

条件熵

联合集 X Y \mathbf{X Y} 上, 条件自信息 I ( y / x ) I(y / x) 的平均值定义为条件熵:

H ( Y / X ) = E p ( x y ) [ I ( y / x ) ] = x y p ( x y ) log p ( y / x ) = x p ( x ) [ y p ( y / x ) log p ( y / x ) ] = x p ( x ) H ( Y / x ) \begin{array}{l} H(Y / X)=\underset{p(x y)}{E}[I(y / x)]=-\sum_{x} \sum_{y} p(x y) \log p(y / x) \\ =\sum_{x} p(x)\left[-\sum_{y} p(y / x) \log p(y / x)\right]=\sum_{x} p(x) H(Y / x) \end{array}

推广:

H ( X n X 1 , , X n 1 ) = X 1 , X 2 , , X n p ( x 1 , x 2 , , x n ) log p ( x n x 1 , , x n 1 ) \begin{array}{l} H\left(X_{n} \mid X_{1}, \ldots, X_{n-1}\right) =-\sum_{X_{1}, X_{2}, \ldots, X_{n}} p\left(x_{1}, x_{2}, \ldots, x_{n}\right) \log p\left(x_{n} \mid x_{1}, \ldots, x_{n-1}\right) \end{array}

注意:当有n个随机变量 X = ( X 1 , X 2 , , X n ) X=\left(X_{1}, X_{2}, \ldots, X_{n}\right)

H ( X , Y ) = H ( Y ) + H ( X Y ) = H ( X ) + H ( Y X ) H ( X ) = H ( X 1 ) + H ( X 2 X 1 ) + + H ( X n X 1 , X 2 , , X n 1 ) \begin{array}{l} H(X, Y)=H(Y)+H(X \mid Y)=H(X)+H(Y \mid X) \\ H(\mathbf{X}) =H\left(X_{1}\right)+H\left(X_{2} \mid X_{1}\right)+\ldots+H\left(X_{n} \mid X_{1}, X_{2}, \ldots, X_{n-1}\right) \end{array}

注意: H ( X Y ) \mathbf{H}(\mathbf{X} \mid \mathbf{Y}) 表示已知变量 Y \mathbf{Y} 后, 对变量 X \mathbf{X} 尚存在的平均不确定性(存在疑义)。

已知信源 X = [ A B C 1 / 3 1 / 3 1 / 3 ] X=\left[\begin{array}{ccc}A & B & C \\ 1 / 3 & 1 / 3 & 1 / 3\end{array}\right] Y = [ D E F 1 / 10 3 / 5 3 / 10 ] Y=\left[\begin{array}{ccc}D & E & F \\ 1 / 10 & 3 / 5 & 3 / 10\end{array}\right] ,请快速两个信源的信息熵的关系。

答:H(X) > H(Y)。其实不用计算,由上面可知一个简单的结论,等概率时信息熵最大。

参考文献:

  1. Proakis, John G., et al. Communication systems engineering. Vol. 2. New Jersey: Prentice Hall, 1994.
  2. Proakis, John G., et al. SOLUTIONS MANUAL Communication Systems Engineering. Vol. 2. New Jersey: Prentice Hall, 1994.
  3. 周炯槃. 通信原理(第3版)[M]. 北京:北京邮电大学出版社, 2008.
  4. 樊昌信, 曹丽娜. 通信原理(第7版) [M]. 北京:国防工业出版社, 2012.
【版权声明】本文为华为云社区用户原创内容,未经允许不得转载,如需转载请自行联系原作者进行授权。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。