信息论讲义第四讲精选PPT.ppt
信息论讲义第四讲1第1页,此课件共52页哦第二章第二章 信息的统计度量信息的统计度量内容提要内容提要 2.1 自信息量自信息量和和条件自信息量条件自信息量 2.2 互信息量互信息量和和条件互信息量条件互信息量 2.3 离散集的离散集的平均平均自信息量自信息量 2.4 离散集的离散集的平均平均互信息量互信息量 2.5 连续随机变量的连续随机变量的互信息和相对熵互信息和相对熵 2第2页,此课件共52页哦2.4 2.4 离散集的平均互信息量离散集的平均互信息量2.4.1 平均条件互信息量平均条件互信息量2.4.2 平均互信息量平均互信息量2.4.3 平均互信息量的性质平均互信息量的性质3第3页,此课件共52页哦2.4.1 平均条件互信息量平均条件互信息量平均条件互信息量的定义平均条件互信息量的定义 在联合集在联合集XY上,由上,由yj提供的关于集提供的关于集X的平均条件互信的平均条件互信息等于由息等于由yj所提供的互信息量所提供的互信息量I(xi;yj)在整个在整个X中以后验中以后验概率加权的平均值,其定义式为概率加权的平均值,其定义式为 式中,式中,p(xi|yj)为后验概率。它又可以表示为为后验概率。它又可以表示为4第4页,此课件共52页哦2.4.1 平均条件互信息量平均条件互信息量平均条件互信息量的性质平均条件互信息量的性质 联合集联合集XY上的平均条件互信息量有上的平均条件互信息量有等号成立条件:等号成立条件:当且仅当集当且仅当集X中的各个中的各个xi都与事件都与事件yj相相互独立。互独立。5第5页,此课件共52页哦2.4.1 平均条件互信息量(续)平均条件互信息量(续)证明:证明:6第6页,此课件共52页哦 假设一条电线上串联了8个灯泡x1,x2,x8如图,这8个灯泡损坏的概率相等p(xi)=1/8,现假设只有一个灯泡已损坏,致使串联灯泡都不能点亮。2.4.2 平均互信息量平均互信息量-引入引入7第7页,此课件共52页哦信源消息 x1 x2x3x4x5x6x7x8先验概率 1/81/81/81/81/81/81/81/8后验概率第1次测量y1/41/41/41/4第2次测量z1/21/2第3次测量w1要从8个等可能损坏的串联灯泡中确定哪个灯泡是坏的,至少要获得3个bit的信息量 2.4.2 平均互信息量平均互信息量-引入(续)引入(续)8第8页,此课件共52页哦方法2:逐个检查第1次:x1坏,获得信息量=3bit,可能性较小1/8;x1通,其余7只中1只坏,坏灯泡的不确定性:log27=2.8073bit获得信息量=3-2.8073=0.1927bit,可能性较大7/8第1次所获得的平均信息量:“对半开”第1次所获得的平均信息量:2.4.2 平均互信息量平均互信息量-引入(续)引入(续)9第9页,此课件共52页哦如果将信道的发送和接收端分别看成是两个如果将信道的发送和接收端分别看成是两个“信源信源”,则两者之间的统计依赖关系,即信道输入和输出之,则两者之间的统计依赖关系,即信道输入和输出之间的统计依赖关系描述了信道的特性。间的统计依赖关系描述了信道的特性。互信息量互信息量I(xi;yj)、I(X;yj)是是一个随机变量,不能从整是是一个随机变量,不能从整体上作为信道中信息流通的测度。体上作为信道中信息流通的测度。2.4.2 平均互信息量平均互信息量10第10页,此课件共52页哦2.4.2 平均互信息量(续)平均互信息量(续)平均互信息量平均互信息量 互信息量互信息量 I(X;yj)在整个集在整个集Y上的概率加权平均值。其定义式上的概率加权平均值。其定义式为为 I(X;Y)=H(X)H(X|Y)根据各种熵的定义,从该式可以清楚看出平均互信息量根据各种熵的定义,从该式可以清楚看出平均互信息量是一是一个表征信息流通的量个表征信息流通的量.其物理意义就是其物理意义就是信源端的信息通过信道后传输到信宿端的信源端的信息通过信道后传输到信宿端的平均平均信息量信息量.11第11页,此课件共52页哦2.4.2 平均互信息量平均互信息量-性质性质(1)非负性)非负性 当且仅当当且仅当X与与Y相互独立时,等号成立。相互独立时,等号成立。证明:证明:12第12页,此课件共52页哦2.4.2 平均互信息量平均互信息量-性质(续)性质(续)(2)互易性)互易性(对称性对称性)表示从集表示从集Y中获得的关于中获得的关于X的信息量等于从集的信息量等于从集X中获得中获得的关于的关于Y的信息量。的信息量。当集当集X和集和集Y统计独立时,统计独立时,物理意义物理意义:当集当集X和集和集Y统计独立时,不能从一个集统计独立时,不能从一个集获得关于另一个集的任何信息。获得关于另一个集的任何信息。13第13页,此课件共52页哦证明:证明:2.4.2 平均互信息量平均互信息量-性质(续)性质(续)14第14页,此课件共52页哦(3 3)平均互信息和各类熵的关系)平均互信息和各类熵的关系 平均互信息和熵、条件熵的关系为平均互信息和熵、条件熵的关系为 平均互信息和熵、联合熵的关系为平均互信息和熵、联合熵的关系为2.4.2 平均互信息量平均互信息量-性质(续)性质(续)H(X,Y)H(Y)H(X)H(X|Y)H(Y|X)I(X;Y)15第15页,此课件共52页哦 观察者站在输出端观察者站在输出端 观察者站在输入端观察者站在输入端 观察者站在通信系统总体立场上观察者站在通信系统总体立场上2.4.2 平均互信息量平均互信息量-性质(续)性质(续)16第16页,此课件共52页哦 观察者站在输出端I(X;Y)收到收到Y前、后关于前、后关于X的不确定度减少的量。的不确定度减少的量。从从Y获得的关于获得的关于X的平均信息量的平均信息量。2.4.2 平均互信息量平均互信息量-性质(续)性质(续)17第17页,此课件共52页哦 观察者站在输入端I(Y;X)发出发出X前、后关于前、后关于Y的先验不确定度减少的量。的先验不确定度减少的量。2.4.2 平均互信息量平均互信息量-性质(续)性质(续)18第18页,此课件共52页哦 观察者站在通信系统总体立场上I(X;Y)通通信信前前、后后整整个个系系统统不不确确定定度度减减少少量量。在在通通信信前前把把X和和Y看看成成两两个个相相互互独独立立的的随随机机变变量量,整整个个系系统统的的先先验验不不确确定定度度为为X和和Y的的联联合合熵熵H(X)+H(Y);通通信信后后把把信信道道两两端端出出现现X和和Y看看成成是是由由信信道道的的传传递递统统计计特特性性联联系系起起来来的的、具具有有一一定定统统计计关关联联关关系系的的两两个个随随机机变变量,这时整个系统的后验不确定度由量,这时整个系统的后验不确定度由H(XY)描述。描述。2.4.2 平均互信息量平均互信息量-性质(续)性质(续)19第19页,此课件共52页哦维拉图维拉图 H(X|Y)H(X)H(Y)H(XY)H(Y|X)I(X;Y)2.4.2 平均互信息量平均互信息量-性质(续)性质(续)20第20页,此课件共52页哦若信道是无噪一一对应信道,信道传递概率:计算得:2.4.2 平均互信息量平均互信息量-性质(续)性质(续)21第21页,此课件共52页哦若信道输入端X与输出端Y完全统计独立 则:2.4.2 平均互信息量平均互信息量-性质(续)性质(续)22第22页,此课件共52页哦例例:已知信源空间已知信源空间 信道特性如图信道特性如图2.4所示,求在该信道上传输的平均互所示,求在该信道上传输的平均互信息量信息量I(X;Y),疑义度,疑义度H(X|Y),噪声熵,噪声熵H(Y|X)和共和共熵熵H(XY)。2.4.2 平均互信息量平均互信息量-性质(续)性质(续)23第23页,此课件共52页哦解解(1)根据根据P(xiyj)=P(xi)P(yj|xi),求各联合概率,得,求各联合概率,得 P(x1y1)=P(x1)P(y1|x1)=0.50.98=0.49 P(x1y2)=P(x1)P(y2|x1)=0.50.02=0.01 P(x2y1)=P(x2)P(y1|x2)=0.50.20=0.10 P(x2y2)=P(x2)P(y2|x2)=0.50.80=0.40 (2)根据根据 ,求,求Y集合中各符号的概率,得集合中各符号的概率,得P(y1)=P(x1)P(y1|x1)+P(x2)P(y1|x2)=0.50.980.50.2=0.59P(y2)=1 0.59=0.412.4.2 平均互信息量平均互信息量-性质(续)性质(续)24第24页,此课件共52页哦(3)求各种熵,有)求各种熵,有 I(X;Y)=H(X)+H(Y)H(XY)=1+0.98-1.43=0.55 比特比特/信符信符 H(X|Y)=H(X)I(X;Y)=1 0.55=0.45 比特比特/信符信符 H(Y|X)=H(Y)I(X;Y)=0.98 0.55=0.43 比特比特/信符信符2.4.2 平均互信息量平均互信息量-性质(续)性质(续)25第25页,此课件共52页哦2.4.2 平均互信息量平均互信息量-性质(续)性质(续)(4)极值性)极值性 释:释:I(X;Y)取值在取值在0和和H(X)之间。之间。接收端所能获得的最大信息量等于信源的自信接收端所能获得的最大信息量等于信源的自信息量息量26第26页,此课件共52页哦2.4.2 平均互信息量平均互信息量-性质(续)性质(续)(5)凸函数性)凸函数性 平均互信息量是信源概率分布平均互信息量是信源概率分布p(x)和信道传递概率和信道传递概率p(x|y)的凸函数。的凸函数。27第27页,此课件共52页哦例例:设二进制对称信道的信源输出概率空间为设二进制对称信道的信源输出概率空间为 信道转移概率信道转移概率p(yj|xi)如图所示。如图所示。2.4.2 平均互信息量平均互信息量-性质(续)性质(续)28第28页,此课件共52页哦当当q不变不变/固定信道特性固定信道特性时,可得时,可得I(X;Y)随输入概率分布随输入概率分布p变化的曲线;变化的曲线;I(X;Y)是 p(xi)的上凸函数上凸函数二进制对称信道特性固定后,输入呈等概率分布二进制对称信道特性固定后,输入呈等概率分布p=1/2时,时,平均而言在接收端可获得最大信息量。平均而言在接收端可获得最大信息量。2.4.2 平均互信息量平均互信息量-性质(续)性质(续)29第29页,此课件共52页哦当当固定信源特性固定信源特性p时,时,I(X;Y)就是信道特性就是信道特性q的函数;的函数;I(X;Y)是 p(yj/xi)的下凸函数下凸函数当二进制对称信道特性当二进制对称信道特性q=1/2时,信道输出端获得信息量时,信道输出端获得信息量最小,即等于最小,即等于0。说明信源的全部信息都损失在信道中了。说明信源的全部信息都损失在信道中了。这是一种最差的信道。这是一种最差的信道。2.4.2 平均互信息量平均互信息量-性质(续)性质(续)30第30页,此课件共52页哦数据处理定理数据处理定理当消息经过多级处理后,随着处理器数目的增多,输入消息当消息经过多级处理后,随着处理器数目的增多,输入消息与输出消息之间的平均与输出消息之间的平均互信息量趋于变小。即互信息量趋于变小。即I(X;Z)I(X;Y)H(X)当对信号进行多级处理时,每处理一次,就有可能损失一部分当对信号进行多级处理时,每处理一次,就有可能损失一部分信息,也就是说数据处理会把信号变成信息,也就是说数据处理会把信号变成更有用的形式更有用的形式,但是,但是绝不会创造出新的信息绝不会创造出新的信息。这就是。这就是信息不增原理信息不增原理。2.4.2 平均互信息量平均互信息量-性质(续)性质(续)31第31页,此课件共52页哦例:例:I(X;YZ)I(X;Y)I(X;Z|Y)证明证明:2.4.2 平均互信息量平均互信息量-性质(续)性质(续)I(X;Y)I(X;Z|Y)I(X;YZ)I(X;Z)I(X;Y|Z)32第32页,此课件共52页哦例:例:有两个离散随机变量有两个离散随机变量X和和Y,其和为,其和为Z=X+Y,且,且X与与Y相互独立。相互独立。求证:求证:证明证明:即联合事件即联合事件XY和和XZ的概率空间构成的概率空间构成一一映射一一映射 又又X与与Y相互独立相互独立2.4.2 平均互信息量(续)平均互信息量(续)33第33页,此课件共52页哦同理同理因为因为X与与Y相互独立相互独立2.4.2 平均互信息量(续)平均互信息量(续)34第34页,此课件共52页哦相对熵相对熵定义定义 若对应于若对应于X有两种分布有两种分布p(x)和和q(x),则,则 称为这两种分布的相对熵、称为这两种分布的相对熵、熵差,也称为两种分布的熵差,也称为两种分布的“距离(距离(Distance)”。2.4.2 平均互信息量(续)平均互信息量(续)平均互信息量的另一种定义平均互信息量的另一种定义35第35页,此课件共52页哦 The relative entropy is always non-negative and is zero if and only if p=q.However,it is not a true distance between distributions since it is not symmetric and does not satisfy the triangle inequality.Nonetheless,it is often useful to think of relative entropy as a“distance”between distributions.Annotation:2.4.2 平均互信息量(续)平均互信息量(续)36第36页,此课件共52页哦Theorem(Information inequality):with equality if and only if Proof:2.4.2 平均互信息量(续)平均互信息量(续)37第37页,此课件共52页哦例:例:x=0,1;p(0)=1r,p(1)=r;q(0)=1s,q(1)=s。求D(p|q)和D(q|p)。解解 若r=s,则D(p|q)=D(q|p)=0r s,则D(p|q)D(q|p)2.4.2 平均互信息量(续)平均互信息量(续)r=1/2,s=1/438第38页,此课件共52页哦上述定义并不是严格意义下的熵差或上述定义并不是严格意义下的熵差或“距离距离”,仅有,仅有一种相互的关系。利用这一关系引入平均互信息量的一种相互的关系。利用这一关系引入平均互信息量的另一种定义。另一种定义。定义:定义:平均互信息量用相对熵定义如下:平均互信息量用相对熵定义如下:2.4.2 平均互信息量(续)平均互信息量(续)39第39页,此课件共52页哦2.5 连续随机变量的互信息和相对熵连续随机变量的互信息和相对熵2.5.1 连续随机变量的熵连续随机变量的熵2.5.2 连续随机变量的互信息连续随机变量的互信息研究思想:连续随机变量可以看作是离散随机变量的极限,故可采用离散随机变量来逼近逼近。将采用这一观点讨论连续随机变量的信息熵与信息量。40第40页,此课件共52页哦2.5.1 连续随机变量的熵连续随机变量的熵令 ua,b,将它均匀的划分为n份,每份宽度为 ,则u处于第i个区间的概率为 ,即 =41第41页,此课件共52页哦考虑离散随机变量熵的定义为:H(X)则有:2.5.1 连续随机变量的熵(续)连续随机变量的熵(续)42第42页,此课件共52页哦2.5.1 连续随机变量的熵(续)连续随机变量的熵(续)按照离散熵的概念,连续随机变量的熵应为无穷大,失去意义。1948年,香农直接定义:即定义取有限值的项为连续信源的信息熵,也称微分熵微分熵。43第43页,此课件共52页哦连续分布随机变量的微分熵VS 离散随机变量的熵微分熵可以作为连续随机变量不确定程度的相对度量相对度量。Hc(u)是连续随机变量的熵,而不是连续随机变量输出的信息量;而连续随机变量输出的信息量是Hn(U).在离散随机变量中随机变量输出信息量就是信源熵,两者是一个概念;但是在连续随机变量中则是两个概念,且不相等。连续随机变量输出信息量Hn(U)是一个绝对值,取值于,连续随机变量的熵Hc(U)则是一个相对值,取值是有限的。连续随机变量的熵Hc(U)是一个过渡性的概念,不一定满足非负性,不具有信息的全部特征。44第44页,此课件共52页哦均匀分布连续随机变量的熵例:对一个均匀分布的随机变量,按照定义,有显然,时,Hc(U)0,这说明它不具备非负性。但是连续随机变量输出的信息量由于有一个无限大量的存在,Hn(U)仍大于。2.5.1 连续随机变量的熵(续)连续随机变量的熵(续)45第45页,此课件共52页哦高斯分布连续随机变量的熵例:高斯分布的连续随机变量的微分熵,按照定义,有高斯分布的连续随机变量的熵与数学期望(均值)高斯分布的连续随机变量的熵与数学期望(均值)m无关,只与方差无关,只与方差 有关。有关。2.5.1 连续随机变量的熵(续)连续随机变量的熵(续)46第46页,此课件共52页哦2.5.1 连续随机变量的熵(续)连续随机变量的熵(续)47第47页,此课件共52页哦 类似于离散随机变量,也可以引入连续随机变量的互信息:可见,由于它是决定于熵的差值,所以连续随机变量的互信息与离散随机变量的互信息一样,它仍具有信息的一切特征。2.5.2 连续随机变量的互信息连续随机变量的互信息48第48页,此课件共52页哦2.5.2 连续随机变量的互信息(续)连续随机变量的互信息(续)49第49页,此课件共52页哦2.5.2 连续随机变量的互信息(续)连续随机变量的互信息(续)高斯分布连续随机变量的互信息50第50页,此课件共52页哦 2.5.2 连续随机变量的互信息(续)连续随机变量的互信息(续)高斯分布连续随机变量的互信息51第51页,此课件共52页哦作业作业2.18 52第52页,此课件共52页哦