信息论与编码(四)| 极限熵和冗余度

举报
timerring 发表于 2022/09/30 16:14:02 2022/09/30
【摘要】 极限熵和冗余度 信息冗余度(多余度、剩余度)在信息论中,信息冗余是传输消息所用数据位的数目与消息中所包含的实际信息的数据位的数目的差值。数据压缩是一种用来消除不需要的冗余的方法,校验和是在经过有限信道容量的噪声信道中通信,为了进行错误校正而增加冗余的方法。信息冗余度一译"信息剩余度"。是指一定数量的信号单元可能有的最大信息量与其包含的实际信息量之差。通常用R表示。为信号的实际信息量,Ima...

极限熵和冗余度

信息冗余度(多余度、剩余度)

在信息论中,信息冗余是传输消息所用数据位的数目与消息中所包含的实际信息的数据位的数目的差值。数据压缩是一种用来消除不需要的冗余的方法,校验和是在经过有限信道容量的噪声信道中通信,为了进行错误校正而增加冗余的方法。信息冗余度一译"信息剩余度"。是指一定数量的信号单元可能有的最大信息量与其包含的实际信息量之差。通常用R表示。为信号的实际信息量,Imax为同样数量的信号单元可能有的最大信息量。会使传信绩效降低,但能提高通讯的抗干扰能力。

  • 表示信源在实际发出消息时所包含的多余信息。

  • 冗余度:

    • 信源符号间的相关性。

      • 相关程度越大,信源的实际熵越小
    • 信源符号分布的不均匀性。

      • 等概率分布时信源熵最大。
    • log 2 N = H 0 ( X ) H 1 ( X ) H 2 ( X ) H ( X ) \log _{2} N=H_{0}(X) \geq H_{1}(X) \geq H_{2}(X) \geq \cdots \geq H_{\infty}(X)

      N = H 0 ( X ) N=H_{0}(X) :等概率分布时信源熵

      N = H 1 ( X ) N=H_{1}(X) :相互独立

      N = H 1 ( X ) N=H_{1}(X) :两者有关系

对于有记忆信源, 极限熵

H ( X ) = lim N H ( X N / X 1 X N 1 ) = lim N 1 N H ( X 1 X N ) H_{\infty}(X)=\lim _{N \rightarrow \infty} H\left(X_{N} / X_{1} \cdots X_{N-1}\right)=\lim _{N \rightarrow \infty} \frac{1}{N} H\left(X_{1} \cdots X_{N}\right)

这就是说需要传送某一信源的信息, 理论上只需要传送 H ( X ) H_{\infty}(X) 即可。但这必须掌握信源全部概率统计特性, 这显然是不现实的。实际上,只能算出 H m ( X ) H_{m}(X) 。那么与理论极限值相比,就要多传送 H m ( X ) H ( X ) H_{m}(X)-H_{\infty}(X)

为了定量地描述信源的有效性, 定义: 信息效率

η = H ( X ) H m ( X ) \eta=\frac{H_{\infty}(X)}{H_{m}(X)}

冗余度

γ = 1 η = 1 H ( X ) H m ( X ) \gamma=1-\eta=1-\frac{H_{\infty}(X)}{H_{m}(X)}

冗余度

由于信源存在冗余度,即存在一些不必要传送的信息,因此信源也就存在进一步压缩其信息率的可能性。

信源冗余度越大,其进一步压缩的潜力越大。这是信源编码与数据压缩的前提与理论基础

例:英文字母:

英文字母出现的概率如下表(含空格)

英文字母出现概率

image-20220923111235935

若各个字母独立等概, 则信息熵

H 0 = log 2 27 = 4.76 b i t / s y m H_{0}=\log _{2} 27=4.76 \mathrm{bit} / \mathrm{sym}

按照表计算独立不等概的信息熵

H 1 = i = 1 27 p i log p i = 4.03 b i t / s y m H_{1}=-\sum_{i=1}^{27} p_{i} \log p_{i}=4.03 \mathrm{bit} / \mathrm{sym}

若只考虑一维相关性, 有 H 2 = 3.32 b i t / s y m H_{2}=3.32 \mathrm{bit} / \mathrm{sym} , 进一步考虑二维相关性
, 有 H 3 = 3.01 b i t / s y m H_{3}=3.01 bit/sym
香农推断: H 1.4 b i t / s y m H_{\infty} \cong 1.4 \mathrm{bit} / \mathrm{sym}

  • 从而: η = 29 % , γ = 71 % \eta=29 \%, \quad \gamma=71 \%

image-20220923111909930

总结

信源模型:记忆离散无记忆信源的数学模型。

自信息:会计算。

信息熵、联合熵、条件熵:会计算,能够分析并计算离散信源的信息速率。

列举信息熵、联合熵、条件熵直接的关系。

【版权声明】本文为华为云社区用户原创内容,未经允许不得转载,如需转载请自行联系原作者进行授权。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。