信息论与编码(三)| 联合熵和条件熵

举报
timerring 发表于 2022/09/30 16:08:25 2022/09/30
【摘要】 联合熵和条件熵 联合熵联合集 X Y 上, 对联合自信息 I(xy)I(x y)I(xy) 的平均值称为联合熵:H(XY)=Ep(xy)[I(x⇌y)]=−∑x∑yp(xy)log⁡p(xy)\begin{array}{l}H(X Y)=\underset{p(x y)}{E}[I(x \rightleftharpoons y)] \\=-\sum_{x} \sum_{y} p(x ...

联合熵和条件熵

联合熵

联合集 X Y 上, 对联合自信息 I ( x y ) I(x y) 的平均值称为联合熵:

H ( X Y ) = E p ( x y ) [ I ( x y ) ] = x y p ( x y ) log p ( x y ) \begin{array}{l} H(X Y)=\underset{p(x y)}{E}[I(x \rightleftharpoons y)] \\ =-\sum_{x} \sum_{y} p(x y) \log p(x y) \end{array}

当有 n 个随机变量 X = ( X 1 , X 2 , , X n ) X=\left(X_{1}, X_{2}, \ldots, X_{n}\right) , 有

H ( X ) = X 1 , X 2 , , X n p ( x 1 , x 2 , , x n ) log p ( x 1 , x 2 , , x n ) H(\mathbf{X})=-\sum_{X_{1}, X_{2}, \ldots, X_{n}} p\left(x_{1}, x_{2}, \ldots, x_{n}\right) \log p\left(x_{1}, x_{2}, \ldots, x_{n}\right)

信息熵与热熵的关系

信息熵的概念是借助于热熵的概念而产生的。

1.信息熵与热熵含义相似
2.信息熵与热熵的区别:
1)信息熵的不增原理;2)热熵不减原理。

3.热熵的减少等于信息熵的增加。

条件熵

联合集 X Y \mathbf{X Y} 上, 条件自信息 I ( y / x ) I(y / x) 的平均值定义为条件 熵:

H ( Y / X ) = E p ( x y ) [ I ( y / x ) ] = x y p ( x y ) log p ( y / x ) = x p ( x ) [ y p ( y / x ) log p ( y / x ) ] = x p ( x ) H ( Y / x ) \begin{array}{l} H(Y / X)=\underset{p(x y)}{E}[I(y / x)]=-\sum_{x} \sum_{y} p(x y) \log p(y / x) \\ =\sum_{x} p(x)\left[-\sum_{y} p(y / x) \log p(y / x)\right]=\sum_{x} p(x) H(Y / x) \end{array}

推广:

H ( X n X 1 , , X n 1 ) = X 1 , X 2 , , X n p ( x 1 , x 2 , , x n ) log p ( x n x 1 , , x n 1 ) \begin{array}{l} H\left(X_{n} \mid X_{1}, \ldots, X_{n-1}\right) \\ =-\sum_{X_{1}, X_{2}, \ldots, X_{n}} p\left(x_{1}, x_{2}, \ldots, x_{n}\right) \log p\left(x_{n} \mid x_{1}, \ldots, x_{n-1}\right) \end{array}

注意:

H ( X , Y ) = H ( Y ) + H ( X Y ) = H ( X ) + H ( Y X ) H ( X ) = H ( X 1 ) + H ( X 2 X 1 ) + + H ( X n X 1 , X 2 , , X n 1 ) \begin{array}{l} H(X, Y)=H(Y)+H(X \mid Y)=H(X)+H(Y \mid X) \\ H(\mathbf{X}) \\ =H\left(X_{1}\right)+H\left(X_{2} \mid X_{1}\right)+\ldots+H\left(X_{n} \mid X_{1}, X_{2}, \ldots, X_{n-1}\right) \end{array}

注意: H ( X Y ) \mathbf{H}(\mathbf{X} \mid \mathbf{Y}) 表示已知变量 Y \mathbf{Y} 后, 对变量 X \mathbf{X} 尚存在的平均不确定性(存在疑义)。

定义:一个平稳的时域离散随机过程的熵速率 (entropy rate) 定义为

H = lim n H ( X n X 1 , X 2 , , X n 1 ) H=\lim _{n \rightarrow \infty} H\left(X_{n} \mid X_{1}, X_{2}, \ldots, X_{n-1}\right)

具有记忆性的信源的熵速率定义为

H = lim n 1 n H ( X 1 , X 2 , , X n ) H=\lim _{n \rightarrow \infty} \frac{1}{n} H\left(X_{1}, X_{2}, \ldots, X_{n}\right)

Example 6. 两个二进制随机变量 X \mathbf{X} Y \mathbf{Y} , 其联合分布为 p(X=Y=0)=p(X= 0, Y=1)=p(X=Y=1)=1 / 3 . 计算 H(X), H(Y), H ( X Y ) H(X \mid Y) , H ( Y X ) H(Y \mid X) , and H(X, Y) .
Solution:

p ( X = 0 ) = p ( X = 0 , Y = 0 ) + p ( X = 0 , Y = 1 ) = 2 3 p ( X = 1 ) = p ( X = 1 , Y = 0 ) + p ( X = 1 , Y = 1 ) = 1 3 p ( Y = 0 ) = p ( X = 0 , Y = 0 ) + p ( X = 1 , Y = 0 ) = 1 3 p ( Y = 1 ) = p ( X = 0 , Y = 1 ) + p ( X = 1 , Y = 1 ) = 2 3 H ( X ) = 1 3 log 3 + 2 3 log 3 2 = 0.9183 H ( Y ) = 1 3 log 3 + 2 3 log 3 2 = 0.9183 H ( X , Y ) = i = 1 n p ( X , Y ) log ( X , Y ) = log 3 = 1.585 H ( X Y ) = H ( X , Y ) H ( Y ) = 0.6667 H ( Y X ) = H ( X , Y ) H ( X ) = 0.6667 \begin{array}{l} p(X=0)=p(X=0, Y=0)+p(X=0, Y=1)=\frac{2}{3} \\ p(X=1)=p(X=1, Y=0)+p(X=1, Y=1)=\frac{1}{3} \\ p(Y=0)=p(X=0, Y=0)+p(X=1, Y=0)=\frac{1}{3} \\ p(Y=1)=p(X=0, Y=1)+p(X=1, Y=1)=\frac{2}{3} \\ H(X)=\frac{1}{3} \log 3+\frac{2}{3} \log \frac{3}{2}=0.9183 \quad H(Y)=\frac{1}{3} \log 3+\frac{2}{3} \log \frac{3}{2}=0.9183 \\ H(X, Y)=\sum_{i=1}^{n} p(X, Y) \log (X, Y)=\log 3=1.585 \\ H(X \mid Y)=H(X, Y)-H(Y)=0.6667 \quad H(Y \mid X)=H(X, Y)-H(X)=0.6667 \end{array}

各类熵的关系

  1. 条件熵不大于信息熵

熵的不增原理: H ( Y / X ) H ( Y ) H(Y / X) \leq H(Y)

  1. 联合熵不大于个信息熵的和,即

    H ( X 1 X 2 X N ) i = 1 N H ( X i ) H\left(X_{1} X_{2} \ldots X N\right) \leq \sum_{i=1}^{N} H\left(X_{i}\right)

    仅当各 X i X_{i} 相互独立时, 等号成立。

  2. H ( X Y ) = H ( X ) + H ( Y X ) = H ( Y ) + H ( X Y ) H(X Y)=H(X)+H(Y \mid X)=H(Y)+H(X \mid Y)

  3. H ( X ) H ( X Y ) ; H ( Y ) H ( Y X ) H(X) \geq H(X \mid Y) ; H(Y) \geq H(Y \mid X)

四、离散无记忆信源的序列熵

image-20220923102438487

马尔可夫信源的特点:无后效性。

发出单个符号的信源

  • 指信源每次只发出一个符号代表一个消息;

发出符号序列的信源

  • 指信源每次发出一组含二个以上符号的符号序列代表一个消息。

  • 当信源无记忆

p ( X ˉ = x i ) = p ( x i 1 , x i 2 , , x i L ) = p ( x i 1 ) p ( x i 2 ) p ( x i 3 ) p ( x i L ) = l = 1 L p ( x i l ) \begin{aligned} p(\bar{X}&\left.=x_{i}\right)=p\left(x_{i_{1}}, x_{i_{2}}, \cdots, x_{i_{L}}\right) \\ &=p\left(x_{i_{1}}\right) p\left(x_{i_{2}}\right) p\left(x_{i_{3}}\right) \cdots p\left(x_{i_{L}}\right)=\prod_{l=1}^{L} p\left(x_{i_{l}}\right) \end{aligned}

信源的序列熵

H ( X ˉ ) = i = 1 n L p ( x i ) log p ( x i ) = i l = 1 L p ( x i i ) log p ( x i i ) = l = 1 L H ( X l ) \begin{aligned} H(\bar{X}) &=-\sum_{i=1}^{n^{L}} p\left(x_{i}\right) \log p\left(x_{i}\right) \\ &=-\sum_{i} \prod_{l=1}^{L} p\left(x_{i_{i}}\right) \log p\left(x_{i_{i}}\right)=\sum_{l=1}^{L} H\left(X_{l}\right) \end{aligned}

  • 若又满足平稳特性, 即与序号 l 无关时:

    p ( X ) = l = 1 L p ( x i i ) = p L p(\overline{\mathrm{X}})=\prod_{l=1}^{L} p\left(x_{i_{\mathrm{i}}}\right)=p^{L}

  • 信源的序列熵

    H ( X ) = LH ( X ) H(\overline{\mathrm{X}})=\operatorname{LH}(X)

  • 平均每个符号(消息)熵(符号熵) 为

    H L ( X ˉ ) = 1 L H ( X ˉ ) = H ( X ) H_{L}(\bar{X})=\frac{1}{L} H(\bar{X})=H(X)

例: 有一个无记忆信源随机变量 X ( 0 , 1 ) \mathrm{X} \in(0,1) , 等概率分布,若以 单个符号出现为一事件, 则此时的信源熵:

H ( X ) = log 2 2 = 1 b i t /  符号  H(X)=\log _{2} 2=1 \mathrm{bit} / \text { 符号 }

即用 1 比特就可表示该事件。

  • 如果以两个符号出现 ( L = 2 \mathrm{L}=2 的序列)为一事件, 则随机序 列 X ( 00 , 01 , 10 , 11 ) \mathrm{X} \in(00,01,10,11) , 信源的序列熵

    H ( X ˉ ) = log 2 4 = 2 b i t /  序列  H(\bar{X})=\log _{2} 4=2 b i t / \text { 序列 }

即用2比特才能表示该事件。

  • 信源的符号熵

    H 2 ( X ) = 1 2 H ( X ) = 1 b i t /  符号  H_{2}(\overline{\mathrm{X}})=\frac{1}{2} H(\overline{\mathrm{X}})=1 b i t / \text { 符号 }

image-20220923104715215

离散有记忆信源的序列熵

  • 对于有记忆信源,就不像无记忆信源那样简单, 它必须 引入条件熵的概念, 而且只能在某些特殊情况下才能 得到一些有价值的结论。
  • 对于由两个符号组成的联合信源, 有下列结论:

H ( X 1 X 2 ) = H ( X 1 ) + H ( X 2 X 1 ) = H ( X 2 ) + H ( X 1 X 2 ) H\left(X_{1} X_{2}\right)=H\left(X_{1}\right)+H\left(X_{2} \mid X_{1}\right)=H\left(X_{2}\right)+H\left(X_{1} \mid X_{2}\right)

H ( X 1 ) H ( X 1 X 2 ) , H ( X 2 ) H ( X 2 X 1 ) H\left(X_{1}\right) \geq H\left(X_{1} \mid X_{2}\right), H\left(X_{2}\right) \geq H\left(X_{2} \mid X_{1}\right)

  • 当前后符号无依存关系时,有下列推论:

H ( X 1 X 2 ) = H ( X 1 ) + H ( X 2 ) H ( X 1 X 2 ) = H ( X 1 ) , H ( X 2 X 1 ) = H ( X 2 ) \begin{array}{l} H\left(X_{1} X_{2}\right)=H\left(X_{1}\right)+H\left(X_{2}\right) \\ H\left(X_{1} \mid X_{2}\right)=H\left(X_{1}\right), H\left(X_{2} \mid X_{1}\right)=H\left(X_{2}\right) \end{array}

  • 若信源输出一个L长序列,则信源的序列熵

    H ( X ) = H ( X 1 X 2 X L ) = H ( X 1 ) + H ( X 2 X 1 ) + + H ( X L X L 1 X 1 ) = l L H ( X l X l 1 ) = H ( X L ) \begin{aligned} H(\overline{\mathrm{X}}) &=H\left(X_{1} X_{2} \cdots X_{L}\right) \\ &=H\left(X_{1}\right)+H\left(X_{2} \mid X_{1}\right)+\cdots+H\left(X_{L} \mid X_{L-1} \cdots X_{1}\right) \\ &=\sum_{l}^{L} H\left(X_{l} \mid X^{l-1}\right)=H\left(X^{L}\right) \end{aligned}

  • 平均每个符号的熵为:

    H L ( X ˉ ) = 1 L H ( X L ) H_{L}(\bar{X})=\frac{1}{L} H\left(X^{L}\right)

  • 若当信源退化为无记忆时:若进一步又满足平稳性时

    H ( X ˉ ) = l L H ( X l ) H ( X ˉ ) = L H ( X ) H(\bar{X})=\sum_{l}^{L} H\left(X_{l}\right) \quad H(\bar{X})=L H(X)

平稳有记忆N次扩展源的熵

X \mathbf{X} 为离散平稳有记忆信源, X \mathbf{X} N \mathbf{N} 次扩展源记为 X N X^{N} ,

X N = [ X 1 X 2 X N ] X^{N}=\left[X_{1} X_{2} \cdots X_{N}\right]

根据熵的可加性,得
H ( X N ) = H ( X 1 X 2 X N ) = H ( X 1 ) + H ( X 2 / X 1 ) + H ( X N / X 1 X N 1 ) H\left(X^{N}\right)=H\left(X_{1} X_{2} \cdots X_{N}\right)=H\left(X_{1}\right)+H\left(X_{2} / X_{1}\right)+\cdots H\left(X_{N} / X_{1} \cdots X_{N-1}\right)
根据平稳性和熵的不增原理,得 H ( X N ) N H ( X 1 ) H\left(X^{N}\right) \leq N H\left(X_{1}\right) ,
仅当无记忆信源时等式成立。

对于 X \mathrm{X} N \mathrm{N} 次扩展源, 定义平均符号熵为:

H N ( X ) = 1 N H ( X N ) = 1 N H ( X 1 X N ) H_{N}(X)=\frac{1}{N} H\left(X^{N}\right)=\frac{1}{N} H\left(X_{1} \cdots X_{N}\right)

信源 X \mathrm{X} 的极限符号熵定义为:

H ( X ) = lim N 1 N H ( X N ) = lim N 1 N H ( X 1 X N ) H_{\infty}(X)=\lim _{N \rightarrow \infty} \frac{1}{N} H\left(X^{N}\right)=\lim _{N \rightarrow \infty} \frac{1}{N} H\left(X_{1} \cdots X_{N}\right)

极限符号熵简称符号熵, 也称熵率。

定理: 对任意离散平稳信源, 若 H 1 ( X ) < H_{1}(X)<\infty , 有:

(1) H ( X N / X 1 X N 1 ) H\left(X_{N} / X_{1} \cdots X_{N-1}\right) 不随 N \mathbf{N} 而增加;
(2) H N ( X ) H ( X N / X 1 X N 1 ) ; H_{N}(X) \geq H\left(X_{N} / X_{1} \cdots X_{N-1}\right) ;
(3) H N ( X ) H_{N}(X) 不随 N 而增加;
(4) H ( X ) H_{\infty}(X) 存在,且 H ( X ) = lim N H ( X N / X 1 X N 1 ) H_{\infty}(X)=\lim _{N \rightarrow \infty} H\left(X_{N} / X_{1} \cdots X_{N-1}\right)

该式表明, 有记忆信源的符号熵也可通过计算极限条件熵得到。

【版权声明】本文为华为云社区用户原创内容,未经允许不得转载,如需转载请自行联系原作者进行授权。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。