信息论讲义第三讲PPT讲稿.ppt
信息论讲义第三讲1第1页,共68页,编辑于2022年,星期四第二章第二章 信息的统计度量信息的统计度量内容提要内容提要 2.1 自信息量自信息量和和条件自信息量条件自信息量 2.2 互信息量互信息量和和条件互信息量条件互信息量 2.3 离散集的离散集的平均平均自信息量自信息量 2.4 离散集的离散集的平均平均互信息量互信息量 2第2页,共68页,编辑于2022年,星期四2.3 2.3 离散集的平均自信息量离散集的平均自信息量2.3.1平均自信息量(熵平均自信息量(熵,Entropy)熵的定义熵的定义 熵的性质熵的性质2.3.2 条件熵和联合熵条件熵和联合熵2.3.3 各种熵的关系各种熵的关系2.3.4 加权熵加权熵 加权熵定义加权熵定义 加权熵性质加权熵性质3第3页,共68页,编辑于2022年,星期四2.3.1 平均自信息量(熵平均自信息量(熵,Entropy)一、平均自信息量定义一、平均自信息量定义 在离散集在离散集X上,上,随机变量随机变量I(xi)的的数学期望数学期望定义为定义为平平均自信息量均自信息量 又称作集又称作集X的的信息熵信息熵,简称,简称熵熵。信息熵信息熵H(X)表示表示信源输出前信源输出前,信源的信源的平均不确定性平均不确定性。信息熵信息熵H(X)表示表示信源输出后信源输出后,每个离散消息所提供的每个离散消息所提供的平均信息量平均信息量。信息熵信息熵H(X)反映了变量反映了变量X的的随机性随机性 4第4页,共68页,编辑于2022年,星期四香农熵与热力学中热熵的关系相似相似 热熵,热熵,是表示分子混乱程度的一个物理量,描述一个系描述一个系统在某时刻可能出现的有关统在某时刻可能出现的有关状态状态的的不确定程度不确定程度。香农引用它来描述信源的平均不确定性,含义是类似的。区别区别 在热力学中已知任何孤立系统的演化,热熵只能增加不能减少;而在信息论中,信息熵正相反,只会减少,不会增加。所以有人称信息熵为负热熵负热熵。释:释:(1)信息熵借鉴了)信息熵借鉴了统计力学统计力学中中热熵热熵的概念。的概念。5第5页,共68页,编辑于2022年,星期四2.3.1 平均自信息量(续)平均自信息量(续)(2)信息熵信息熵H(X)是信源输出消息是信源输出消息xi的自信息量的自信息量I(xi)的的概率概率加权平均值加权平均值,即统计平均值。,即统计平均值。信息熵信息熵H(X)是从平均意义上表征信源总体的一个量,是从平均意义上表征信源总体的一个量,是信源的是信源的统计平均不确定性统计平均不确定性的描述的描述。6第6页,共68页,编辑于2022年,星期四有两个信源,其概率空间分别为有两个信源,其概率空间分别为有两个信源,其概率空间分别为有两个信源,其概率空间分别为信息熵分别为信息熵分别为信息熵分别为信息熵分别为H(X)=-0.99log0.99-0.01log0.01=0.08 H(X)=-0.99log0.99-0.01log0.01=0.08 H(X)=-0.99log0.99-0.01log0.01=0.08 H(X)=-0.99log0.99-0.01log0.01=0.08 比特比特比特比特/符号符号符号符号H(Y)=-0.5log0.5-0.5log0.5=1 H(Y)=-0.5log0.5-0.5log0.5=1 H(Y)=-0.5log0.5-0.5log0.5=1 H(Y)=-0.5log0.5-0.5log0.5=1 比特比特比特比特/符号符号符号符号可见可见可见可见 H(Y)H(X)H(Y)H(X)H(Y)H(X)H(Y)H(X)结论:结论:结论:结论:信源信源信源信源Y Y Y Y的二个输出消息是等可能性的,所以事先猜测哪一个消息出现的不确的二个输出消息是等可能性的,所以事先猜测哪一个消息出现的不确的二个输出消息是等可能性的,所以事先猜测哪一个消息出现的不确的二个输出消息是等可能性的,所以事先猜测哪一个消息出现的不确定性要大;定性要大;定性要大;定性要大;信源信源信源信源X X X X的二个输出消息不是等概率的,事先猜测的二个输出消息不是等概率的,事先猜测的二个输出消息不是等概率的,事先猜测的二个输出消息不是等概率的,事先猜测x x x x1和和和和x x x x2哪一个出现,虽然具哪一个出现,虽然具哪一个出现,虽然具哪一个出现,虽然具有不确定性,但大致可以猜出有不确定性,但大致可以猜出有不确定性,但大致可以猜出有不确定性,但大致可以猜出x x x x1会出现,所以信源会出现,所以信源会出现,所以信源会出现,所以信源X X X X的不确定性要小;的不确定性要小;的不确定性要小;的不确定性要小;信息熵反映的就是信源输出前平均不确定程度的大小。信息熵反映的就是信源输出前平均不确定程度的大小。信息熵反映的就是信源输出前平均不确定程度的大小。信息熵反映的就是信源输出前平均不确定程度的大小。2.3.1 平均自信息量(续)平均自信息量(续)7第7页,共68页,编辑于2022年,星期四2.3.1 平均自信息量(续)平均自信息量(续)(3)信息熵是概率矢量信息熵是概率矢量P=(p1,p2,pq)的函数的函数(4)单位:由自信息量单位确定。单位:由自信息量单位确定。以以2为底时,记为为底时,记为 H(x)以以r为底时,记为为底时,记为 Hr(x)例:例:中、英、俄、法、西五国文字的信息熵中、英、俄、法、西五国文字的信息熵 法文法文 3.98 bit 西班牙文西班牙文 4.01 bit 英文英文 4.03 bit 俄文俄文 4.35 bit 中文中文 9.65 bit8第8页,共68页,编辑于2022年,星期四例:例:设甲地的天气预报为:晴设甲地的天气预报为:晴(占占48)、阴、阴(占占28)、大雨、大雨(占占18)、小雨小雨(占占18)。又设乙地的天气预报为:晴。又设乙地的天气预报为:晴(占占78),小雨,小雨(占占18)。试求两地天气预报各自提供的平均信息量。若甲地天气预报为两试求两地天气预报各自提供的平均信息量。若甲地天气预报为两极端情况,一种是晴出现概率为极端情况,一种是晴出现概率为1而其余为而其余为0。另一种是晴、阴、。另一种是晴、阴、小雨、大雨出现的概率都相等为小雨、大雨出现的概率都相等为14。试求这两极端情况所提供的平。试求这两极端情况所提供的平均信息量。又试求乙地出现这两极端情况所提供的平均信息量。均信息量。又试求乙地出现这两极端情况所提供的平均信息量。2.3.1 平均自信息量(续)平均自信息量(续)9第9页,共68页,编辑于2022年,星期四解:甲地天气预报构成的信源空间为解:甲地天气预报构成的信源空间为则其提供的平均信息量即信源的信息熵则其提供的平均信息量即信源的信息熵则其提供的平均信息量即信源的信息熵则其提供的平均信息量即信源的信息熵:乙地天气预报的信源空间为乙地天气预报的信源空间为:结论结论结论结论:甲地:甲地:甲地:甲地天气预报天气预报提供的平均信息量大于乙地,因为乙地比甲地的提供的平均信息量大于乙地,因为乙地比甲地的提供的平均信息量大于乙地,因为乙地比甲地的提供的平均信息量大于乙地,因为乙地比甲地的平均不确定性小。平均不确定性小。平均不确定性小。平均不确定性小。10第10页,共68页,编辑于2022年,星期四甲地极端情况极端情况极端情况1:晴天概率:晴天概率1n 结论结论:等概率分布等概率分布时信源的不确定性最大,所以时信源的不确定性最大,所以信息熵信息熵(平均信息量)(平均信息量)最大最大。极端情况极端情况2:各种天气等概率分布:各种天气等概率分布11第11页,共68页,编辑于2022年,星期四乙地极端情况极端情况极端情况1:晴天概率:晴天概率1n 结论结论:在极端情况:在极端情况2下,甲地比乙地提供更多的信息量。下,甲地比乙地提供更多的信息量。因为,甲地可能出现的消息数比乙地可能出现的消息数多。因为,甲地可能出现的消息数比乙地可能出现的消息数多。极端情况极端情况2:各种天气等概率分布:各种天气等概率分布12第12页,共68页,编辑于2022年,星期四例:电视屏上约有例:电视屏上约有 500 600=3 105个格点,按每个格点,按每 点点有有 10个不同的灰度等级考虑,则共能组成个不同的灰度等级考虑,则共能组成n=103x10个个不同的画面。按等概率不同的画面。按等概率1/103x10计算,平均每个画面计算,平均每个画面可提供的信息量为可提供的信息量为 =3 105 3.32 比特比特/画面画面 2.3.1 平均自信息量(续)平均自信息量(续)13第13页,共68页,编辑于2022年,星期四例例:有有一一篇篇千千字字文文章章,假假定定每每字字可可从从万万字字表表中中任任选选,则则共共有有不不同的千字文同的千字文 N=100001000=104000 篇篇 仍按等概率仍按等概率1/100001000计算,平均每篇千字文可提供的信息计算,平均每篇千字文可提供的信息量为量为 H(X)log2N 4 103 332 13 104 比特千字文比特千字文 比较:比较:“一个电视画面一个电视画面”平均提供的信息量远远超过平均提供的信息量远远超过“一篇千字文一篇千字文”提供的信息量。提供的信息量。2.3.1 平均自信息量(续)平均自信息量(续)14第14页,共68页,编辑于2022年,星期四例:该信源例:该信源X输出符号只有两个,设为输出符号只有两个,设为0和和1。输。输出符号发生的概率分别为出符号发生的概率分别为p和和q,pq=l。即信。即信源的概率空间为源的概率空间为 则二元信源熵为则二元信源熵为 H(X)=-plogp-qlogq =-plogp-(1-p)log(1-p)=H(p)2.3.1 平均自信息量(续)平均自信息量(续)15第15页,共68页,编辑于2022年,星期四2.3.1 平均自信息量(续)平均自信息量(续)信源信息熵信源信息熵H(X)是概率是概率p的函的函数,通常用数,通常用H(p)表示。表示。p取值取值于于0,1区间。区间。H(p)函数曲线函数曲线如图所示。从图中看出,如果如图所示。从图中看出,如果二元信源的输出符号是确定的,二元信源的输出符号是确定的,即即p=1或或q=1,则该信源不提,则该信源不提供任何信息。反之,当二元信供任何信息。反之,当二元信源符号源符号0和和1以等概率发生时,以等概率发生时,信源熵达到极大值,等于信源熵达到极大值,等于1比比特信息量。特信息量。16第16页,共68页,编辑于2022年,星期四2.3.1 平均自信息量(续)平均自信息量(续)一、熵函数的数学性质一、熵函数的数学性质(1)对称性)对称性 当概率矢量当概率矢量P=(p1,p2,pq)中的中的q个分量的次序任个分量的次序任意变更时,熵值不变。意变更时,熵值不变。物理意义物理意义:熵仅与信源总体的统计特性有关熵仅与信源总体的统计特性有关(总体性总体性)。如果某些信源总体的统计特性相同,不管其内部结构如果某些信源总体的统计特性相同,不管其内部结构如何,这些信源的熵值相同。如何,这些信源的熵值相同。17第17页,共68页,编辑于2022年,星期四2.3.1 平均自信息量(续)平均自信息量(续)-性质性质例例:H(X)=H(Y)=H(Z)意义:意义:信息熵相同,表信息熵相同,表示三个信源总体示三个信源总体特性相同特性相同说明熵定义具有说明熵定义具有局限性局限性18第18页,共68页,编辑于2022年,星期四2.3.1 平均自信息量(续)平均自信息量(续)-性质性质例例:设设A、B两地的天气情况分别为两地的天气情况分别为 求得求得H(A)=H(B)=1.75 bits,显然冰雹将导致严重灾,显然冰雹将导致严重灾害,人们应更加重视,但未能从熵中反映出来,从而害,人们应更加重视,但未能从熵中反映出来,从而有了有了加权熵加权熵的概念。的概念。晴多云雨冰雹A地B地1/21/21/41/81/81/81/81/419第19页,共68页,编辑于2022年,星期四2.3.1 平均自信息量(续)平均自信息量(续)-性质性质(2)非负性)非负性等号成立等号成立的的充要条件:充要条件:当且仅当集合当且仅当集合X中某元素中某元素xi 的发生概率的发生概率pi=1,其余,其余pk=0(ki),即,即确定概率场的熵值最小确定概率场的熵值最小。物理意义:物理意义:从总体来看,若某信源虽然有不同的输出符号,但从总体来看,若某信源虽然有不同的输出符号,但它只有一个符号几乎必然出现,而其他符号几乎都不可它只有一个符号几乎必然出现,而其他符号几乎都不可能出现,则这个信源是一个能出现,则这个信源是一个确知信源确知信源,其,其信源熵等于零信源熵等于零。20第20页,共68页,编辑于2022年,星期四2.3.1 平均自信息量(续)平均自信息量(续)-性质性质(3)扩展性)扩展性 表明表明:若集合若集合X有有q个事件,另一集合个事件,另一集合X有有q+1个事件,个事件,但但X和集和集X的差别只是多了一个的差别只是多了一个概率近于零的事概率近于零的事件件,则两个集的熵值一样,则两个集的熵值一样,即:若某事件的概率同集合中其他事件相比很即:若某事件的概率同集合中其他事件相比很小时,则它对于集合的熵值的贡献可以忽略。小时,则它对于集合的熵值的贡献可以忽略。21第21页,共68页,编辑于2022年,星期四本性质说明,信源的取值增多时,若这些取值对本性质说明,信源的取值增多时,若这些取值对应的概率很小(接近于零),则信源的熵不变。应的概率很小(接近于零),则信源的熵不变。虽然概率很小的事件出现后,给予收信者较多的信虽然概率很小的事件出现后,给予收信者较多的信息。但从总体来考虑时,因为这种概率很小的事件息。但从总体来考虑时,因为这种概率很小的事件几乎不会出现,所以它在熵的计算中占的比重很小。几乎不会出现,所以它在熵的计算中占的比重很小。这也是熵的总体平均性的一种体现。这也是熵的总体平均性的一种体现。2.3.1 平均自信息量(续)平均自信息量(续)-性质性质22第22页,共68页,编辑于2022年,星期四2.3.1 平均自信息量(续)平均自信息量(续)-性质性质(4)可加性)可加性 如果有两个随机变量如果有两个随机变量X,Y,他们不是相互独立的,则,他们不是相互独立的,则二维随机变量二维随机变量(X,Y)的熵的熵等于等于X的无条件熵的无条件熵加上加上当当X已给定时已给定时Y的条件概率定义的熵的条件概率定义的熵的的统计平均值统计平均值,即,即23第23页,共68页,编辑于2022年,星期四2.3.1 平均自信息量(续)平均自信息量(续)-性质性质(5)极值性极值性 式中,式中,n是集合的元素数目。是集合的元素数目。证明:对于任意实数,有证明:对于任意实数,有 x0,有有则可等价为则可等价为24第24页,共68页,编辑于2022年,星期四2.3.1 平均自信息量(续)平均自信息量(续)-性质性质即即因此因此即即 集合集合X的任意概率分布的任意概率分布pi对其他概率分布对其他概率分布qi自信自信息的数学期望必不小于本身定义的熵息的数学期望必不小于本身定义的熵H(p1,p2,pq)25第25页,共68页,编辑于2022年,星期四2.3.1 平均自信息量(续)平均自信息量(续)-性质性质证明极值性证明极值性 最大熵定理最大熵定理:离散集合中各事件等概分布时,信离散集合中各事件等概分布时,信息熵达到最大。息熵达到最大。应用应用:(1)图像均衡处理,对比度强,层次丰富图像均衡处理,对比度强,层次丰富(2)PCB、FPGA自动布线,获得最稳定的工程拓扑结构自动布线,获得最稳定的工程拓扑结构设计。设计。(3)统计推断、频谱分析、最佳编码、故障诊断等统计推断、频谱分析、最佳编码、故障诊断等26第26页,共68页,编辑于2022年,星期四2.3.1 平均自信息量(续)平均自信息量(续)-性质性质(6)确定性确定性物理意义:物理意义:(1)集合集合X中只要有一个事件为必然事件,则其余事件中只要有一个事件为必然事件,则其余事件为不可能事件。为不可能事件。(2)此时,集合此时,集合X中每个事件对熵的贡献都为零,因而中每个事件对熵的贡献都为零,因而熵必为零。熵必为零。(3)此时信源此时信源X为为确定信源确定信源,不能从中获得任何信息,不能从中获得任何信息27第27页,共68页,编辑于2022年,星期四2.3.1 平均自信息量(续)平均自信息量(续)-性质性质(7)上凸性)上凸性 是概率分布是概率分布 的严格的严格上凸函数。上凸函数。28第28页,共68页,编辑于2022年,星期四x1x2x1+(1-)x2f(x)f(x1)+(1-)f(x2)f x1+(1-)x2xY02.3.1 平均自信息量(续)平均自信息量(续)-性质性质29第29页,共68页,编辑于2022年,星期四2.3.1 平均自信息量(续)平均自信息量(续)-性质性质30第30页,共68页,编辑于2022年,星期四即给定集合即给定集合 和和取取 构造构造则有则有证明:将证明:将按定义展开,易得小于按定义展开,易得小于02.3.1 平均自信息量(续)平均自信息量(续)-性质性质31第31页,共68页,编辑于2022年,星期四(8)递增性)递增性 若原信源若原信源 X 中中有一个符号分割成了有一个符号分割成了m个元素个元素(符号符号),这,这m个元素的概率之和等于原元素的概率,而其他符号的概个元素的概率之和等于原元素的概率,而其他符号的概率不变,则率不变,则新信源的熵增加新信源的熵增加。熵的增加量等于由分割而产生的不确定性量。熵的增加量等于由分割而产生的不确定性量。2.3.1 平均自信息量(续)平均自信息量(续)-性质性质32第32页,共68页,编辑于2022年,星期四2.3.1 平均自信息量(续)平均自信息量(续)-性质性质33第33页,共68页,编辑于2022年,星期四它表示它表示n个元素的信源熵可以递推成个元素的信源熵可以递推成(n-1)个二元信源的个二元信源的熵函数的加权和。这样,可使熵函数的加权和。这样,可使多元信源的熵函数的计算简多元信源的熵函数的计算简化成计算若干个二元信源的熵函数化成计算若干个二元信源的熵函数。因此,熵函数的递增。因此,熵函数的递增性又可称为递推性。性又可称为递推性。2.3.1 平均自信息量(续)平均自信息量(续)-性质性质34第34页,共68页,编辑于2022年,星期四例例:运用熵函数的递增性,计算熵函数:运用熵函数的递增性,计算熵函数H(1/3,1/3,1/6,1/6)的数值。的数值。2.3.1 平均自信息量(续)平均自信息量(续)-性质性质35第35页,共68页,编辑于2022年,星期四2.3.2 条件熵、联合熵条件熵、联合熵条件熵(条件熵(Conditional Entropy)联合集联合集XY上,条件自信息量上,条件自信息量I(y|x)的概率加权平均值定义为条的概率加权平均值定义为条件熵。件熵。定义式为定义式为H(Y|X)在集合在集合X中给定事件中给定事件xi发生条件下集合发生条件下集合Y的熵为的熵为36第36页,共68页,编辑于2022年,星期四物理含义物理含义:已知一随机变量的情况下,对另一随机变量不确定性的量度 观测Y以后,仍保留的关于X的不确定量。2.3.2 条件熵、联合熵条件熵、联合熵37第37页,共68页,编辑于2022年,星期四疑义度疑义度?信道上的干扰和噪声所造成的对信源符号信道上的干扰和噪声所造成的对信源符号X X的平均不确定度的平均不确定度H H(X|YX|Y),故称为,故称为疑义度疑义度。释释:1)1)H H(X X)是符号集合)是符号集合X X的熵或不确定度的熵或不确定度.2)2)H H(X|YX|Y)是当)是当Y Y已知时已知时X X的不确定度的不确定度.3)“Y Y已知已知”这件事使这件事使X X的不确定度减少了的不确定度减少了I I(X X;Y Y).4)4)信宿收到的平均信息量等于信宿对信源符号不确定度的平均信宿收到的平均信息量等于信宿对信源符号不确定度的平均减少量。减少量。5)5)I I(X X;Y Y)是有扰离散信道上能传输的平均信息量,而)是有扰离散信道上能传输的平均信息量,而H H(X|YX|Y)是)是在在Y Y条件下要唯一地确定信源发出符号所需要的平均信息量。条件下要唯一地确定信源发出符号所需要的平均信息量。2.3.2 条件熵、联合熵条件熵、联合熵38第38页,共68页,编辑于2022年,星期四噪声熵噪声熵或或散布度散布度?条件熵条件熵H H(Y|XY|X)唯一地确定信道噪声所需要的平均信息量,)唯一地确定信道噪声所需要的平均信息量,故又称故又称噪声熵噪声熵或或散布度散布度。释释:平均互信息量可看作在有扰离散信道上传递消息时,唯一地确平均互信息量可看作在有扰离散信道上传递消息时,唯一地确定接收符号定接收符号y y所需要的平均信息量所需要的平均信息量H H(Y Y),减去当信源发出符号为),减去当信源发出符号为已知时需要确定接收符号已知时需要确定接收符号 y y所需要的平均信息量所需要的平均信息量H H(Y|XY|X)。)。2.3.2 条件熵、联合熵条件熵、联合熵39第39页,共68页,编辑于2022年,星期四 信源发出的信息量在信道上全部损失掉了,故称信源发出的信息量在信道上全部损失掉了,故称为为全损离散信道全损离散信道。分析分析:I(X;Y)H(X)-H(XY)如果如果X与与Y是相互独立的,那么是相互独立的,那么Y已知时已知时X的条件概率等的条件概率等于于X的无条件概率,由于熵就是这概率的对数的数学期的无条件概率,由于熵就是这概率的对数的数学期望,望,X的条件熵就等于的条件熵就等于X的无条件熵,此时的无条件熵,此时I(X;Y)=0。2.3.2 条件熵、联合熵条件熵、联合熵40第40页,共68页,编辑于2022年,星期四2.3.2 条件熵、联合熵条件熵、联合熵联合熵联合熵(Joint Entropy)联合集上,每对元素的自信息量联合集上,每对元素的自信息量I(xiyj)的概率加的概率加权平均值定义为联合熵,也称共熵。权平均值定义为联合熵,也称共熵。定义式为定义式为H(Y,X)41第41页,共68页,编辑于2022年,星期四解:信源解:信源X的熵为:的熵为:例:有两个同时输出的信源例:有两个同时输出的信源X和和Y,其中,其中X的信源符号为的信源符号为A,B,C,Y的信源符号为的信源符号为D,E,F,G,已知,已知 P(X)和和P(Y|X),求联合信),求联合信源的联合熵和条件熵。源的联合熵和条件熵。XABCP(x)1/21/31/6P(y/x)D1/43/101/6E1/41/51/2F1/41/51/6G1/43/101/642第42页,共68页,编辑于2022年,星期四信源信源XY输出每一对消息的联合概率为:输出每一对消息的联合概率为:P(XY)=P(Y/X)P(X),结果,结果如下表:如下表:P(xy)XABCYD1/81/101/36E1/81/151/12F1/81/151/36G1/81/101/36联合信源的联合信源的联合信源的联合信源的联合熵:联合熵:联合熵:联合熵:2.3.2 条件熵、联合熵条件熵、联合熵43第43页,共68页,编辑于2022年,星期四 信源信源Y的条件熵:的条件熵:信道散布度信道散布度 (噪声熵噪声熵)2.3.2 条件熵、联合熵条件熵、联合熵从上述结果可得:从上述结果可得:H(XY)=H(X)+H(Y/X)=1.461+1.956=3.417(bit/每对符号每对符号)44第44页,共68页,编辑于2022年,星期四对第二个信源对第二个信源Y,其熵,其熵H(Y)的计算。由全概率公式:的计算。由全概率公式:因此:因此:2.3.2 条件熵、联合熵条件熵、联合熵45第45页,共68页,编辑于2022年,星期四例:二进制通信系统用符号“0”和“1”,由于存在失真,传输时会产生误码,用符号表示下列事件:u0:一个“0”发出:u1:一个“1”发出 v0:一个“0”收到;v1:一个“1”收到。给定下列概率:p(u0)1/2,p(v0|u0)3/4,p(v0|u1)=1/2求:已知发出一个“0”,求收到符号后得到的信息量;已知发出的符号,求收到符号后得到的信息量 知道发出的和收到的符号,求能得到的信息量;已知收到的符号,求被告知发出的符号得到的信息量。2.3.2 条件熵、联合熵条件熵、联合熵46第46页,共68页,编辑于2022年,星期四解:p(v1|u0)=1p(v0|u0)=1/4 联合概率:p(u0v0)=p(v0|u0)p(u0)=3/41/2=3/8 p(u0v1)=p(v1|u0)p(u0)=1/41/2=1/8 p(u1v0)=p(v0|u1)p(u1)=1/21/2=1/4 p(u1v1)=p(v1|u1)p(u1)=1p(v0|u1)=1/21/2=1/42.3.2 条件熵、联合熵条件熵、联合熵47第47页,共68页,编辑于2022年,星期四解法1:解法2 H(UV)=H(U)+H(V|U)=1+0.91=1.91比特/符号2.3.2 条件熵、联合熵条件熵、联合熵48第48页,共68页,编辑于2022年,星期四解法1:解法2:利用贝叶斯公式:同理:p(u1|v0)=2/5,p(u0|v1)=1/3,p(u1|v1)=2/32.3.2 条件熵、联合熵条件熵、联合熵49第49页,共68页,编辑于2022年,星期四例:一个二进信源X发出符号集0,1,经过离散无记忆信道传输,信道输出用Y表示.由于信道中存在噪声,接收端除收到0和1的符号外,还有不确定符号“2”已知X的先验概率:p(x0)=2/3,p(x1)=1/3,符号转移概率:p(y0|x0)=3/4,p(y2|x0)=1/4 p(y1|x1)=1/2,p(y2|x1)=1/2,XY0101 23/41/21/21/4信源熵2.3.2 条件熵、联合熵条件熵、联合熵50第50页,共68页,编辑于2022年,星期四联合概率:p(x0y0)=p(x0)p(y0|x0)=2/33/4=1/2 p(x0y1)=p(x0)p(y1|x0)=0 p(x0y2)=p(x0)p(y2|x0)=2/31/4=1/6 p(x1y0)=p(x1)p(y0|x1)=0 p(x1y1)=p(x1)p(y1|x1)=1/31/2=1/6 p(x1y2)=p(x1)p(y2|x1)=1/31/2=1/6条件熵2.3.2 条件熵、联合熵条件熵、联合熵51第51页,共68页,编辑于2022年,星期四2.3.3 各种熵的关系各种熵的关系(1 1)联合熵与信息熵、条件熵的关系)联合熵与信息熵、条件熵的关系 如果集如果集X和集和集Y相互统计独立相互统计独立,则有,则有 此外,由上面两个结论式,可得此外,由上面两个结论式,可得52第52页,共68页,编辑于2022年,星期四2.3.3 各种熵的关系各种熵的关系证明:证明:53第53页,共68页,编辑于2022年,星期四2.3.3 各种熵的关系各种熵的关系推广到多维,有推广到多维,有称为链式关系称为链式关系(Chain Rules for Entropy)54第54页,共68页,编辑于2022年,星期四2.3.3 各种熵的关系各种熵的关系(2)共熵与信息熵的关系)共熵与信息熵的关系 等式成立的条件是集等式成立的条件是集X和集和集Y相互统计独立,即当相互统计独立,即当 时取等号。时取等号。推广到多维,有推广到多维,有 等号成立的充要条件是等号成立的充要条件是 相互统计独立。相互统计独立。55第55页,共68页,编辑于2022年,星期四2.3.3 各种熵的关系各种熵的关系证明:证明:56第56页,共68页,编辑于2022年,星期四2.3.3 各种熵的关系各种熵的关系(3 3)条件熵与通信熵的关系)条件熵与通信熵的关系证明:证明:应用詹森不等式(应用詹森不等式(Jensen InequalityJensen Inequality)57第57页,共68页,编辑于2022年,星期四2.3.4 加权熵加权熵离散无记忆信源离散无记忆信源X P W 的加权熵定义为的加权熵定义为加权熵的性质加权熵的性质(1)非负性)非负性(2)若权中若权中 ,则,则58第58页,共68页,编辑于2022年,星期四2.3.4 加权熵加权熵(3 3)确定性)确定性 若若 ,而,而 ,则加权熵为零,即,则加权熵为零,即(4 4)若若 ,I,J为样本空间,并且为样本空间,并且 ,则加权熵为零,即,则加权熵为零,即59第59页,共68页,编辑于2022年,星期四作业作业2.19 2.24 2.2560第60页,共68页,编辑于2022年,星期四2.4 2.4 离散集的平均互信息量离散集的平均互信息量2.4.1 平均条件互信息量平均条件互信息量2.4.2 平均互信息量平均互信息量2.4.3 平均互信息量的性质平均互信息量的性质61第61页,共68页,编辑于2022年,星期四2.4.1 平均条件互信息量平均条件互信息量平均条件互信息量的定义平均条件互信息量的定义 在联合集在联合集XY上,由上,由yj提供的关于集提供的关于集X的平均条件互信的平均条件互信息等于由息等于由yj所提供的互信息量所提供的互信息量I(xi;yj)在整个在整个X中以后验中以后验概率加权的平均值,其定义式为概率加权的平均值,其定义式为 式中,式中,p(xi|yj)为后验概率。它又可以表示为为后验概率。它又可以表示为62第62页,共68页,编辑于2022年,星期四2.4.1 平均条件互信息量平均条件互信息量平均条件互信息量的性质平均条件互信息量的性质 联合集联合集XY上的平均条件互信息量有上的平均条件互信息量有等号成立条件:等号成立条件:当且仅当集当且仅当集X中的各个中的各个xi都与事件都与事件yj相互相互独立。独立。63第63页,共68页,编辑于2022年,星期四2.4.1 平均条件互信息量(续)平均条件互信息量(续)证明:证明:64第64页,共68页,编辑于2022年,星期四 假设一条电线上串联了8个灯泡x1,x2,x8如图,这8个灯泡损坏的概率相等p(xi)=1/8,现假设只有一个灯泡已损坏,致使串联灯泡都不能点亮。2.4.2 平均互信息量平均互信息量65第65页,共68页,编辑于2022年,星期四信源消息 x1 x2x3x4x5x6x7x8先验概率 1/81/81/81/81/81/81/81/8后验概率第1次测量y1/41/41/41/4第2次测量z1/21/2第3次测量w1要从8个等可能损坏的串联灯泡中确定哪个灯泡是坏的,至少要获得3个bit的信息量 2.4.2 平均互信息量(续)平均互信息量(续)66第66页,共68页,编辑于2022年,星期四方法2:逐个检查第1次:x1坏,获得信息量=3bit,可能性较小1/8;x1通,其余7只中1只坏,坏灯泡的不确定性:log27=2.8073bit获得信息量=3-2.8073=0.1927bit,可能性较大7/8第1次所获得的平均信息量:“对半开”第1次所获得的平均信息量:2.4.2 平均互信息量(续)平均互信息量(续)67第67页,共68页,编辑于2022年,星期四2.4.2 平均互信息量平均互信息量平均互信息量平均互信息量 定义定义 互信息量互信息量 I(X;yj)在整个集在整个集Y上的概率加权平均上的概率加权平均值。其定义式为值。其定义式为平均互信息量的性质平均互信息量的性质(1)非负性)非负性 当且仅当当且仅当X与与Y相互独立时,等号成立。相互独立时,等号成立。68第68页,共68页,编辑于2022年,星期四