第二章信息的度量精选PPT.ppt
第二章信息的度量第1页,本讲稿共90页2.1 自信息和互信息自信息和互信息2.1.1 自信息自信息定义定义一个事件(消息)本身所包含的信息,它是由事件的一个事件(消息)本身所包含的信息,它是由事件的不确定不确定性性决定的。决定的。自信息量自信息量一个事件(消息)本身所包含的信息量,记为一个事件(消息)本身所包含的信息量,记为 。自信息量为概率自信息量为概率 的函数。的函数。第2页,本讲稿共90页2.1.1 自信息自信息根据客观事实和人们的习惯概念,自信息量应满足以下条件(根据客观事实和人们的习惯概念,自信息量应满足以下条件(公理公理化条件化条件):):1.是是 的严格递减函数。当的严格递减函数。当 时,时,概概率越小,事件发生的不确定性越大,事件发生以后所包含的自信息率越小,事件发生的不确定性越大,事件发生以后所包含的自信息量越大。量越大。2极限情况下当极限情况下当 =0=0时,时,;当;当 =1=1时,时,=0=0。3另另外外,从从直直观观概概念念上上讲讲,由由两两个个相相对对独独立立的的不不同同的的消消息息所所提提供供的的信息量应等于它们分别提供的信息量之和。信息量应等于它们分别提供的信息量之和。可以证明,满足以上可以证明,满足以上公理化公理化条件的函数形式是条件的函数形式是对数形式对数形式。第3页,本讲稿共90页定定义义:随随机机事事件件的的自自信信息息量量定定义义为为该该事事件件发发生生概概率率的的对对数数的的负负值值。设事件设事件 的概率为的概率为 ,则它的自信息定义为,则它的自信息定义为 由图可见:上述信息量的定义正由图可见:上述信息量的定义正 是满足上述公理性条件的函数形式。是满足上述公理性条件的函数形式。含义:含义:1 1)当事件发生以前,等于事件发生的不确定性的大小;)当事件发生以前,等于事件发生的不确定性的大小;2 2)当事件发生以后,表示事件所含有或所能提供的信息量。)当事件发生以后,表示事件所含有或所能提供的信息量。2.1.1 自信息自信息第4页,本讲稿共90页自信息量的单位:自信息量的单位:与所用与所用对数的底对数的底a有关。有关。单位换算关系:单位换算关系:1 1奈特奈特=比特比特=1.443=1.443比特比特1哈特莱哈特莱=比特比特=3.322比特比特1r进制单位进制单位=比特比特2.1.1 自信息自信息 a=2 I=-log2P 单位为比特(单位为比特(bit)I=-logP a=e I=-ln P 单位为奈特(单位为奈特(nat)a=10 I=-lg P 单位为哈特莱(单位为哈特莱(hartley)a=r I=-logrP 单位为单位为r进制信息单位进制信息单位第5页,本讲稿共90页例例1(1)英文字母中)英文字母中“a”出现的概率为出现的概率为0.064,“c”出现的概率为出现的概率为0.022,分别计算他们的自信息量。,分别计算他们的自信息量。(2)假定前后两字母出现是互相独立的,求)假定前后两字母出现是互相独立的,求“ac”的自信息量。的自信息量。(3)假定前后字母出现不是独立的,当)假定前后字母出现不是独立的,当“a”出现后,出现后,“c“出出现的概率为现的概率为0.04,计算,计算”a“出现后,出现后,”c”出现的自信息量。出现的自信息量。(4)比较()比较(3)中计算出的信息量,并与)中计算出的信息量,并与“c“的信息量进行比的信息量进行比较和分析。较和分析。2.1.1 自信息自信息第6页,本讲稿共90页解解:字母出现相互独立,字母出现相互独立,例例1(1)英文字母中)英文字母中“a”出现的概率为出现的概率为0.064,“c”出现的概率为出现的概率为0.022,分别计算他们的自信息量。,分别计算他们的自信息量。(2)假定前后两字母出现是互相独立的,求)假定前后两字母出现是互相独立的,求“ac”的自信息量。的自信息量。相互独立事件积事件的信息量为各事件信息量的和。相互独立事件积事件的信息量为各事件信息量的和。2.1.1 自信息自信息解解:第7页,本讲稿共90页(3)假定前后字母出现不是独立的,当)假定前后字母出现不是独立的,当“a”出现后,出现后,“c“出现的出现的概率为概率为0.04,计算,计算“a”出现后,出现后,“c”出现的自信息量。出现的自信息量。(4)比较()比较(3)中计算出的信息量,并与)中计算出的信息量,并与“c“的信息量进行比较和的信息量进行比较和分析。分析。可见,可见,“a”出现后,出现后,“c”出现的概率增大,其不确定性则变小。出现的概率增大,其不确定性则变小。(前后字母出现(前后字母出现不是独立的不是独立的,“a”出现给出了出现给出了“c”的部分信息,的部分信息,故故“a”出现后,出现后,“c”的不确定性则变小。的不确定性则变小。)2.1.1 自信息自信息解解:解解:第8页,本讲稿共90页结论:结论:设有两事件a和b:(1)若相互独立,则I(ab)=I(a)+I(b);(2)若不为相互独立,则I(ab)I(a)+I(b).2.1.1 自信息自信息证明?证明?第9页,本讲稿共90页 例例22 8 8个串联的灯泡个串联的灯泡x x1 1,x x2 2,x x8 8,其损坏的可能性是等概率的,其损坏的可能性是等概率的,现假设其中有一个灯泡已损坏,问总共需要多少次测量才能获知和确现假设其中有一个灯泡已损坏,问总共需要多少次测量才能获知和确定哪个灯泡已损坏。定哪个灯泡已损坏。2.1.1 自信息自信息第10页,本讲稿共90页 例例22 8 8个串联的灯泡个串联的灯泡x x1 1,x x2 2,x x8 8,其损坏的可能性是等概率的,其损坏的可能性是等概率的,现假设其中有一个灯泡已损坏,问每进行一次测量可获得多少信息量现假设其中有一个灯泡已损坏,问每进行一次测量可获得多少信息量?总共需要多少次测量才能获知和确定哪个灯泡已损坏。?总共需要多少次测量才能获知和确定哪个灯泡已损坏。解解:收到某消息获得的信息量收到某消息获得的信息量(即收到某消息后获得关于某事件发生的信息量即收到某消息后获得关于某事件发生的信息量)不确定性减少的量不确定性减少的量(收到此消息前关于某事件发生的不确定性收到此消息前关于某事件发生的不确定性)-(-(收到此消息后关于某事件发生的不确定性收到此消息后关于某事件发生的不确定性)第11页,本讲稿共90页已知已知8个灯泡等概率损坏,所以先验概率个灯泡等概率损坏,所以先验概率P(x1)1/8,即,即第二次测量第二次测量获得的信息量获得的信息量=I P(x2)-I P(x3)=1(bit)第三次测量第三次测量获得的信息量获得的信息量=I P(x3)=1(bit)故:至少要获得故:至少要获得故:至少要获得故:至少要获得3 3个比特的信息量就可确切知道哪个灯泡已坏了。个比特的信息量就可确切知道哪个灯泡已坏了。个比特的信息量就可确切知道哪个灯泡已坏了。个比特的信息量就可确切知道哪个灯泡已坏了。第一次测量第一次测量获得的信息量获得的信息量=I P(x1)-I P(x2)=1(bit)经过二次测量后,剩经过二次测量后,剩2个灯泡,等概率损坏,个灯泡,等概率损坏,P(x3)1/2一次测量后,剩一次测量后,剩4个灯泡,等概率损坏,个灯泡,等概率损坏,P(x2)1/4第12页,本讲稿共90页2.1.1 自信息自信息联合自信息量联合自信息量:二维联合集二维联合集XY上元素上元素(xi yj)的自信息量定义为的自信息量定义为其中,其中,xiyj 是积事件;是积事件;p(xiyj)是二维联合概率。是二维联合概率。条件自信息量条件自信息量:若若事件事件xi在在事件事件yj给定条件下的概率为给定条件下的概率为p(xi|yj),则其,则其条件自信息量定义为条件自信息量定义为对于联合事件(多维随机变量):对于联合事件(多维随机变量):第13页,本讲稿共90页定义定义:一个事件一个事件 所给出关于另一个事件所给出关于另一个事件 的信息定义为的信息定义为互信息互信息,用用 表示。表示。含含义义:互互信信息息 是是已已知知事事件件 后后所所消消除除的的关关于于事事件件 的的不不确确定性,它等于事件定性,它等于事件 本身的不确定性本身的不确定性 减去已知事件减去已知事件 后对后对 仍然存在的不确定性仍然存在的不确定性 。2.1.2 互信息互信息 第14页,本讲稿共90页理解理解:因此,已知事件因此,已知事件 后所消除的关于事件后所消除的关于事件 的不确定性为:的不确定性为:即:即:2.1.2 互信息互信息 信道信道信宿信宿信源信源干扰或噪声干扰或噪声消息消息第15页,本讲稿共90页特例(无干扰信道)特例(无干扰信道):因此,已知事件因此,已知事件 后所消除的关于事件后所消除的关于事件 的不确定性为:的不确定性为:即:即:2.1.2 互信息互信息 信道信道信宿信宿信源信源消息消息=1=0第16页,本讲稿共90页2.1.2 互信息互信息例例3 某地二月份天气出现的概率分别为:晴某地二月份天气出现的概率分别为:晴1/21/2,阴,阴1/41/4,雨,雨1/81/8,雪,雪1/81/8。某一天有人告诉你:今天不是晴天,把这句话作为接收的消息。某一天有人告诉你:今天不是晴天,把这句话作为接收的消息y y1 1,求收到求收到y y1 1后,后,y y1 1与各种天气的互信息量。与各种天气的互信息量。解解:记记:x x1 1(晴),晴),x x2 2(阴),阴),x x3 3(雨),雨),x x4 4(雪)雪)1)求收到)求收到y y1 1后,各种天气的后验概率。后,各种天气的后验概率。则:则:第17页,本讲稿共90页2.1.2 互信息互信息同理:同理:2)根据互信息量定义,计算收到)根据互信息量定义,计算收到y y1 1与各种天气的互信息。与各种天气的互信息。则:则:第18页,本讲稿共90页设某班学生在一次考试中获优(设某班学生在一次考试中获优(A)、)、良(良(B)、)、中(中(C)、)、及格及格(D)和不及格(和不及格(E)的人数相等。当教师通知某甲:的人数相等。当教师通知某甲:“你没有不及格你没有不及格”,甲获得了多少比特信息?为确定自己的成绩,甲还需要多少信息?,甲获得了多少比特信息?为确定自己的成绩,甲还需要多少信息?例例4 解:解:令令P(a)表示表示“得到老师通知前甲的成绩的不确定性(概率)得到老师通知前甲的成绩的不确定性(概率)”P(a|b)表示表示“得到老师通知后甲的成绩的不确定性(概率)得到老师通知后甲的成绩的不确定性(概率)”则则 P(a)=1/5,P(a|b)=1/4总的需要总的需要信息信息剩余信息剩余信息获得信息获得信息第19页,本讲稿共90页2.1.2 互信息互信息条件互信息量条件互信息量:在在联合集联合集XYZ中,在给定中,在给定zk的条件下,的条件下,xi与与yj之间的之间的互信息量定义为互信息量定义为条件互信息量条件互信息量。其定义式为。其定义式为:联合互信息联合互信息:联合事件联合事件 Yyj,Zzk与事件与事件Xxi之间的之间的联合互信联合互信息息为为:对于联合事件(多维随机变量):对于联合事件(多维随机变量):第20页,本讲稿共90页回顾自信息自信息自信息量自信息量条件自信息量条件自信息量联合自信息量联合自信息量互信息互信息第21页,本讲稿共90页自信息量与互信息量的联系第22页,本讲稿共90页2.2 平均平均自信息(信源熵,信息熵,熵)自信息(信源熵,信息熵,熵)2.2.1 平均自平均自信息的概念信息的概念引出:引出:信源不确定性的度量(信源信息的度量)信源不确定性的度量(信源信息的度量)1)自信息量)自信息量2)平均自信息量)平均自信息量信源中每个消息信息量的统计平均值。信源中每个消息信息量的统计平均值。平均自信息量又称为:信源熵、信息熵或熵。平均自信息量又称为:信源熵、信息熵或熵。不可行第23页,本讲稿共90页2.2.1 平均平均自信息的概念自信息的概念信源及其分布的表示形式(概率空间)信源及其分布的表示形式(概率空间)信源具有不确定性,所以我们把信源具有不确定性,所以我们把信源信源用用随机变量随机变量来表示。来表示。相应地,其可能取值和这些取值的概率就可以用相应地,其可能取值和这些取值的概率就可以用概率空间概率空间 来表示。来表示。其中,其中,X代表信源,代表信源,代表其可能的各种取值,代表其可能的各种取值,为各种取值的概为各种取值的概率。率。第24页,本讲稿共90页平均自信息量的定义平均自信息量的定义随机变量随机变量X的每一个可能取值的自信息的每一个可能取值的自信息 的统计平均值的统计平均值 这里这里q为所有为所有X可能取值的个数。可能取值的个数。信息熵信息熵 是随机变量是随机变量X X的概率分布的函数,所以又称为的概率分布的函数,所以又称为熵熵函数,函数,且为且为(q-1q-1)元)元函数。函数。把概率分布把概率分布 ,记为,记为 ,则熵,则熵函数又可以写成概率矢量函数又可以写成概率矢量 的函数的形式,记的函数的形式,记为为 。2.2.1 平均平均自信息的概念自信息的概念第25页,本讲稿共90页平均自信息量(熵)的含义平均自信息量(熵)的含义1 1)熵是从整个集合的统计特性来考虑的,它从)熵是从整个集合的统计特性来考虑的,它从平均意义平均意义上来表征上来表征信源信源的的总体特征总体特征。2 2)信息熵表征了信源的)信息熵表征了信源的随机性随机性。3 3)在信源)在信源输出前输出前,信息熵,信息熵H(X)H(X)表示信源的平均不确定性;表示信源的平均不确定性;4 4)在信源)在信源输出后输出后,信息熵,信息熵H(X)H(X)表示每个消息提供的平均信息量。表示每个消息提供的平均信息量。2.2.1 平均平均自信息的概念自信息的概念第26页,本讲稿共90页几点说明几点说明1 1)熵的单位与所取对数的底数有关。)熵的单位与所取对数的底数有关。根据所取的对数底不同,可以是比特根据所取的对数底不同,可以是比特/符号、奈特符号、奈特/符号、哈符号、哈特莱特莱/符号或者是符号或者是r r进制单位进制单位/符号。通常用符号。通常用比特比特/符号符号为单位。为单位。2 2)信息熵也成为)信息熵也成为负热熵负热熵。3 3)信源熵给出了对信源输出的消息进行)信源熵给出了对信源输出的消息进行无失真编码无失真编码时,平均每个时,平均每个信源符号信源符号至少要用的符号数至少要用的符号数。4 4)信息熵并不等于收信者平均获得的信息量。)信息熵并不等于收信者平均获得的信息量。传输系统往往有噪声和干扰,因此收信者不能全部消除信源的传输系统往往有噪声和干扰,因此收信者不能全部消除信源的平均不确定性,平均不确定性,获得的信息量往往小于信息熵获得的信息量往往小于信息熵。2.2.1 平均平均自信息的概念自信息的概念第27页,本讲稿共90页熵的计算熵的计算例例:有一布袋内放有一布袋内放l00个球,其中个球,其中80个球是红色的,个球是红色的,20个球是白色的。随便摸出一个球,求平均摸取一次个球是白色的。随便摸出一个球,求平均摸取一次所能获得的信息量。所能获得的信息量。如果被告知摸出的是红球,那么获得的信息量是:如果被告知摸出的是红球,那么获得的信息量是:如果被告知摸出的是红球,那么获得的信息量是:如果被告知摸出的是红球,那么获得的信息量是:I(a1)log p(a1)log0.8=0.32 (比特)(比特)(比特)(比特)如被告知摸出来的是白球,所获得的信息量应为:如被告知摸出来的是白球,所获得的信息量应为:如被告知摸出来的是白球,所获得的信息量应为:如被告知摸出来的是白球,所获得的信息量应为:I(a2)log p(a2)log0.2=2.32 (比特)(比特)(比特)(比特)平均摸取一次所能获得的信息量为平均摸取一次所能获得的信息量为平均摸取一次所能获得的信息量为平均摸取一次所能获得的信息量为 :H(X)=p(a1)I(a1)+p(a2)I(a2)=0.72(比特(比特(比特(比特/符号)符号)符号)符号)解:概率空间为:解:概率空间为:第28页,本讲稿共90页例例1 电视屏上约有电视屏上约有500600500600个栅格点,且每点可取个栅格点,且每点可取1010个不同的灰个不同的灰度等级,同时各电视画面的出现概率为相等的,求平均每个电视度等级,同时各电视画面的出现概率为相等的,求平均每个电视画面画面可提供的信息量。可提供的信息量。解解:由题得:电视画面的个数为由题得:电视画面的个数为2.2.1 平均平均自信息的概念自信息的概念第29页,本讲稿共90页例例2 设甲地的天气预报为:晴设甲地的天气预报为:晴(占占48)、阴、阴(占占28)、大雨、大雨(占占18)、小雨、小雨(占占18)。又设乙地的天气预报为:晴。又设乙地的天气预报为:晴(占占78),小雨,小雨(占占18)。试求两地天气预报各自提供的平均信息量。试求两地天气预报各自提供的平均信息量。若甲地天气预报为两极端情况,一种是晴出现概率为若甲地天气预报为两极端情况,一种是晴出现概率为1而其余为而其余为0。另一种是晴、阴、小雨、大雨出现的概率都相等为另一种是晴、阴、小雨、大雨出现的概率都相等为14。试求这。试求这两极端情况所提供的平均信息量。又试求乙地出现这两极端情况两极端情况所提供的平均信息量。又试求乙地出现这两极端情况所提供的平均信息量。所提供的平均信息量。两个信源两个信源第30页,本讲稿共90页解:甲地天气预报构成的信源空间为解:甲地天气预报构成的信源空间为:则其提供的平均信息量即信源的信息熵则其提供的平均信息量即信源的信息熵则其提供的平均信息量即信源的信息熵则其提供的平均信息量即信源的信息熵:乙地天气预报的信源空间为乙地天气预报的信源空间为:n n结论结论结论结论:甲地:甲地:甲地:甲地天气预报天气预报提供的平均信息量大于乙地,因为乙地比甲地的提供的平均信息量大于乙地,因为乙地比甲地的提供的平均信息量大于乙地,因为乙地比甲地的提供的平均信息量大于乙地,因为乙地比甲地的平均不确定性小。平均不确定性小。平均不确定性小。平均不确定性小。第31页,本讲稿共90页甲地极端情况n极端情况极端情况1:晴天概率:晴天概率1n 结论结论:等概率分布等概率分布时信源的不确定性最大,所以时信源的不确定性最大,所以信息熵信息熵(平均信(平均信息量)息量)最大最大。存在某消息的概率为。存在某消息的概率为1,则信息熵一定为,则信息熵一定为0。n极端情况极端情况2:各种天气等概率分布:各种天气等概率分布第32页,本讲稿共90页乙地极端情况n极端情况极端情况1:晴天概率:晴天概率1n 结论结论:在极端情况:在极端情况2下,甲地比乙地提供更多的信息量。下,甲地比乙地提供更多的信息量。因为,甲地可能出现的消息数比乙地可能出现的消息数多。因为,甲地可能出现的消息数比乙地可能出现的消息数多。n极端情况极端情况2:各种天气等概率分布:各种天气等概率分布对等概分布情况,消息数多的信息量大。第33页,本讲稿共90页信息熵信息熵 是随机变量是随机变量X X的概率分布的函数,所以又称为的概率分布的函数,所以又称为熵熵函数,函数,且为且为(q-1q-1)元)元函数。函数。把概率分布把概率分布 ,记为,记为 ,则熵,则熵函数又可以写成概率矢量函数又可以写成概率矢量 的函数的形式,记的函数的形式,记为为 。熵函数具有如下性质:熵函数具有如下性质:2.2.2 熵函数的性质熵函数的性质第34页,本讲稿共90页1、对称性、对称性 H(p)的取值与的取值与 概率矢量概率矢量 中各分量的顺序无关。中各分量的顺序无关。理解:理解:从数学角度:从数学角度:H(P)=pi log pi 中的和式满足交换率;中的和式满足交换率;含义:含义:熵函数只与熵函数只与信源信源的的总体统计特性总体统计特性有关。有关。2.2.2 熵函数的性质熵函数的性质对称性对称性第35页,本讲稿共90页2.2.2 熵函数的性质熵函数的性质对称性对称性举例:举例:香农信息只考虑了信源输出的统计特性,而没有考虑信息的含义和香农信息只考虑了信源输出的统计特性,而没有考虑信息的含义和效用。效用。第36页,本讲稿共90页2、确定性、确定性 在概率矢量中,只要有一个分量为在概率矢量中,只要有一个分量为1,其它分量必为,其它分量必为0,它们对熵的贡,它们对熵的贡献均为献均为0,因此熵等于,因此熵等于0。也就是说。也就是说确定信源的不确定度为确定信源的不确定度为0。理解:理解:从数学角度:从数学角度:H(P)=pi log pi 计算;计算;含义:含义:信源中虽然有多种输出符号,但只要一个符号是必然出现的,而其它信源中虽然有多种输出符号,但只要一个符号是必然出现的,而其它符号都是不可能出现的,则相当于信源为符号都是不可能出现的,则相当于信源为确知信源确知信源。2.2.2 熵函数的性质熵函数的性质确定性确定性第37页,本讲稿共90页3、非负性、非负性 对确定信源,等式成立。对确定信源,等式成立。理解:理解:随机变量随机变量X的概率分布满足的概率分布满足0pi1,当取对数的底大于,当取对数的底大于1时,时,log(pi)0,-pilog(pi)0,即得到的熵为正值。只有当随机变量是,即得到的熵为正值。只有当随机变量是一确知量时熵才等于零。一确知量时熵才等于零。说明:说明:这种非负性只适合于这种非负性只适合于离散信源离散信源的熵,对连续信源来说这一性质并不存的熵,对连续信源来说这一性质并不存在。以后可看到在相对熵的概念下,可能出现负值。在。以后可看到在相对熵的概念下,可能出现负值。2.2.2 熵函数的性质熵函数的性质非负性非负性第38页,本讲稿共90页4、扩展性、扩展性理解:理解:含义:含义:信源输出的消息数目增多时,若这些消息均为小概率事件信源输出的消息数目增多时,若这些消息均为小概率事件(接近于接近于零零),则信源的熵不变。,则信源的熵不变。2.2.2 熵函数的性质熵函数的性质扩展性扩展性体现了熵的总体平均性性质。体现了熵的总体平均性性质。第39页,本讲稿共90页5、连续性、连续性理解:理解:含义:含义:信源概率空间中概率分量的微小波动,不会引起熵的变化。信源概率空间中概率分量的微小波动,不会引起熵的变化。2.2.2 熵函数的性质熵函数的性质连续性连续性第40页,本讲稿共90页6、递推性(递归性,可分解性)、递推性(递归性,可分解性)含义:含义:若原信源中若原信源中有一个符号分割成了有一个符号分割成了m m个元素个元素(符号符号),这,这m m个元素的概率之个元素的概率之和等于原元素的概率,而其他符号的概率不变,则和等于原元素的概率,而其他符号的概率不变,则新信源的熵新信源的熵增加增加。熵的增加量等于由分割而产生的不确定性量。熵的增加量等于由分割而产生的不确定性量。应用:应用:用于熵的计算。(便于编程实现。)用于熵的计算。(便于编程实现。)2.2.2 熵函数的性质熵函数的性质递推性递推性第41页,本讲稿共90页解解:例例:运用熵函数的递推性,计算熵函数运用熵函数的递推性,计算熵函数H(1/2H(1/2,1/81/8,1/81/8,1/8 1/8,1/8)1/8)的数值。的数值。2.2.2 熵函数的性质熵函数的性质递推性递推性第42页,本讲稿共90页递推性的推广递推性的推广含义:含义:它表示它表示n n个元素的信源熵可以递推成个元素的信源熵可以递推成(n-1)(n-1)个二元信源的熵函数的加权和。个二元信源的熵函数的加权和。这样,可使这样,可使多元信源的熵函数的计算简化成计算若干个二元信源的熵函多元信源的熵函数的计算简化成计算若干个二元信源的熵函数数。2.2.2 熵函数的性质熵函数的性质递推性递推性第43页,本讲稿共90页例例:运用熵函数的递增性(的推广),计算熵函数运用熵函数的递增性(的推广),计算熵函数H(1/3H(1/3,1/31/3,1/61/6,1/6)1/6)的数值。的数值。第44页,本讲稿共90页7、极值性极值性 式中式中n是随机变量是随机变量X的可能取值的个数(信源发出的符号个数)。的可能取值的个数(信源发出的符号个数)。含义:含义:离散信源中各消息等概率出现时熵最大,这就是离散信源中各消息等概率出现时熵最大,这就是最大离散熵定理最大离散熵定理。连续信源的最大熵则与约束条件有关。连续信源的最大熵则与约束条件有关。2.2.2 熵函数的性质熵函数的性质极值性极值性证明证明:(先给出补充内容。):(先给出补充内容。)第45页,本讲稿共90页补充:补充:1 1凸集合凸集合定义定义:是是n n维实矢量空间集合维实矢量空间集合R R中任意两个中任意两个n n维矢量,维矢量,对实数对实数,0 0 1 1,有,有 +(1 1-)R R,则称则称R R为为凸集合凸集合。2.2.2 熵函数的性质熵函数的性质极值性极值性第46页,本讲稿共90页一维和二维凸集合的例子凸集合非凸集合 从从几几何何上上来来看看,若若,是是集集合合R中中的的任任意意两两点点,+(1-)表表示示这这两两点点间间的的连连线线,若若该该连连线线也也在在集集合合R中中,则则称称为为R凸凸集。集。下面给出了几个凸集和非凸集合的例子。下面给出了几个凸集和非凸集合的例子。第47页,本讲稿共90页2.2.凸函数凸函数定义:定义:设f(x)=f(x1,x2,xn)为一个n元函数,若对任意f(x1),f(x2)f(x),任意正数,0 1,有:f x1 +(1-)x2 f(x1)+(1-)f(x2)则称f(x)为定义域上的型凸函数(上凸函数)。2.2.2 熵函数的性质熵函数的性质极值性极值性若若:f x1 +(1-)x2 f(x1)+(1-)f(x2)则称f(x)为定义域上的型凸函数(下凸函数)。第48页,本讲稿共90页x0 x1 x1+(1-)x2 x2 图 一元型凸函数f(x1)f(x1)+(1-)f(x2)f x1+(1-)x2 f(x)f(x2)一元型凸函数可用右图所示的几何图形表示。2.2.2 熵函数的性质熵函数的性质极值性极值性第49页,本讲稿共90页3.3.Jensen不等式不等式定定义义:设f(x)是定义在a,b上的实值连续上凸函数,则对任意x1,x2,xq a,b和任意一组非负实数1,2,q,满足 ,则有:2.2.2 熵函数的性质熵函数的性质极值性极值性说明:说明:将1,2,q看作概率,则Jensen不等式变换为:不等式变换为:第50页,本讲稿共90页证明证明极值性极值性:式中式中n是随机变量是随机变量X的可能取值的个数(信源发出的符号个数)。的可能取值的个数(信源发出的符号个数)。证明:证明:法法I I:因为对数是上凸函数,满足因为对数是上凸函数,满足JensenJensen不等式不等式,则有:,则有:2.2.2 熵函数的性质熵函数的性质极值性极值性第51页,本讲稿共90页证明:证明:法法IIII:利用不等式利用不等式log x x 1,等号在x=1时成立。2.2.2 熵函数的性质熵函数的性质极值性极值性logx x1关系曲线x-1 log x 10 x上面两种证明方法是信息论中上面两种证明方法是信息论中经常用到的证明方法经常用到的证明方法 第52页,本讲稿共90页 该信源符号只有二个,设为该信源符号只有二个,设为“0”和和“1”,符号输出的概率分别为,符号输出的概率分别为“p”和和“1-p”,即信源的概率空间为:即信源的概率空间为:则:二进制信源的信息熵为:则:二进制信源的信息熵为:特别地:特别地:二进制信源是离散信源的一个特例。二进制信源是离散信源的一个特例。2.2.2 熵函数的性质熵函数的性质极值性极值性 当当p=1/2时,时,即为等概二进制信源时,信源即为等概二进制信源时,信源熵达到最大熵达到最大1比特。比特。计算机中的比特计算机中的比特第53页,本讲稿共90页8、上凸性、上凸性 是严格的上凸函数。是严格的上凸函数。设设:则对于任意小于则对于任意小于1 1的正数的正数 有以下不等式成立:有以下不等式成立:凸函数在定义域内的极值必为极大值,可以利用熵函数的这个性质凸函数在定义域内的极值必为极大值,可以利用熵函数的这个性质可以证明熵函数的极值性。可以证明熵函数的极值性。2.2.2 熵函数的性质熵函数的性质上凸性上凸性第54页,本讲稿共90页作业1P24 2.1P24 2.1,2.32.3,2.5-2.72.5-2.7第55页,本讲稿共90页2.2.3 联合熵与条件熵联合熵与条件熵提出:提出:多维随机变量不确定性的确定。多维随机变量不确定性的确定。多维随机变量描述方法:多维随机变量描述方法:二维随机变量二维随机变量 的概率空间表示为的概率空间表示为 其中其中 满足概率空间的非负性和完备性:满足概率空间的非负性和完备性:第56页,本讲稿共90页2.2.3 联合熵与条件熵联合熵与条件熵定义(联合熵,共熵):定义(联合熵,共熵):二维随机变量二维随机变量 的联合熵定义为联合自信息的数学期望,它是二的联合熵定义为联合自信息的数学期望,它是二维随机变量维随机变量 的不确定性的度量。的不确定性的度量。定义(条件熵):定义(条件熵):给定给定 时,时,的条件熵:的条件熵:其中,其中,表示已知表示已知 时,时,的平均不确定性。的平均不确定性。一维信源中的符号对一维信源中的符号对第57页,本讲稿共90页2.2.3 联合熵与条件熵联合熵与条件熵定义(条件熵):定义(条件熵):给定给定 时,时,的条件熵:的条件熵:其中,其中,表示已知表示已知 时,时,的平均不确定性。的平均不确定性。同理:同理:第58页,本讲稿共90页2.2.3 联合熵与条件熵联合熵与条件熵各类熵之间的关系:各类熵之间的关系:1 1)联合熵与信息熵、条件熵的关系)联合熵与信息熵、条件熵的关系含义:含义:联合熵等于前一个集合联合熵等于前一个集合X出现的熵加上前一个集合出现的熵加上前一个集合X出现的出现的条件下,后一个集合条件下,后一个集合Y出现的条件熵。出现的条件熵。推广:推广:对对N N个随机变量的情况:个随机变量的情况:称为称为熵函数的链规则熵函数的链规则。第59页,本讲稿共90页2.2.3 联合熵与条件熵联合熵与条件熵证明:证明:第60页,本讲稿共90页2.2.3 联合熵与条件熵联合熵与条件熵推论:推论:当二维随机变量当二维随机变量X、Y相互独立时,联合熵等于相互独立时,联合熵等于X和和Y各自熵之和。各自熵之和。证明:证明:第61页,本讲稿共90页2.2.3 联合熵与条件熵联合熵与条件熵推论:推论:当二维随机变量当二维随机变量X、Y相互独立时,联合熵等于相互独立时,联合熵等于X和和Y各自熵之和。各自熵之和。同理,对同理,对N个独立的随机变量个独立的随机变量X1,X2,XN,则则有:有:第62页,本讲稿共90页2.2.3 联合熵与条件熵联合熵与条件熵2 2)条件熵与信息熵的关系)条件熵与信息熵的关系当且仅当当且仅当X X、Y Y相互独立时,等式成立。相互独立时,等式成立。证明:证明:备用式:备用式:JensenJensen不等式不等式:第63页,本讲稿共90页2.2.3 联合熵与条件熵联合熵与条件熵证明:证明:第64页,本讲稿共90页2.2.3 联合熵与条件熵联合熵与条件熵证明:证明:第65页,本讲稿共90页2.2.3 联合熵与条件熵联合熵与条件熵3 3)联合熵和信息熵的关系)联合熵和信息熵的关系当且仅当当且仅当X X、Y Y相互独立时,等式成立。相互独立时,等式成立。证明:证明:推广:推广:对对N N个随机变量的情况:个随机变量的情况:当当X1,X2,XN相互独立相互独立时时,等式成立。,等式成立。第66页,本讲稿共90页例例 某一离散二维平稳信源某一离散二维平稳信源某一离散二维平稳信源某一离散二维平稳信源其其其其发发发发出出出出的的的的符符符符号号号号只只只只与与与与前前前前一一一一个个个个符符符符号号号号有有有有关关关关,由由由由其其其其联联联联合合合合概概概概率率率率P(aP(ai ia aj j)给给给给出它们的关联程度,如下表所示出它们的关联程度,如下表所示出它们的关联程度,如下表所示出它们的关联程度,如下表所示 求信源的熵求信源的熵求信源的熵求信源的熵H(X)H(X)、条件熵、条件熵、条件熵、条件熵H(XH(X2 2/X/X1 1)和联合熵和联合熵和联合熵和联合熵H(XH(X1 1X X2 2)。P(aP(ai ia aj j)a aj ja ai i0 01 12 20 01/41/41/181/180 01 11/181/181/31/31/181/182 20 01/181/187/367/36第67页,本讲稿共90页 解解解解:根根根根据据据据概概概概率率率率关关关关系系系系可可可可计计计计算算算算得得得得条条条条件件件件概概概概率率率率P P(a aj j/a/ai i),计计计计算算算算结结结结果果果果列列列列表表表表如如如如下:下:下:下:a aj ja ai i0 01 12 20 09/119/111/81/80 01 12/112/113/43/42/92/92 20 01/81/87/97/9P(aP(ai ia aj j)a aj ja ai i0 01 12 20 01/41/41/181/180 01 11/181/181/31/31/181/182 20 01/181/187/367/36第68页,本讲稿共90页 得:得:得:得:第69页,本讲稿共90页2.3 平均平均互信息互信息2.3.1 平均互平均互信息的概念信息的概念引出:引出:互信息互信息 :一个事件一个事件 所给出关于另一个事件所给出关于另一个事件 的信息。的信息。平均互平均互信息:信息:从整体上表示从一个随机变量从整体上表示从一个随机变量Y所给出关于另一个随机所给出关于另一个随机变量变量 X 的信息量。的信息量。定义:定义:互信息互信息 在在XY的联合概率空间中的统计平均值即为随机变量的联合概率空间中的统计平均值即为随机变量X和和Y间的平均互信息间的平均互信息 。第70页,本讲稿共90页2.3.1 平均互平均互信息的概念信息的概念推导:推导:给定随机变量给定随机变量Y Y后,对随机变量后,对随机变量X X仍然存在的仍然存在的不确定度。不确定度。随机变量随机变量X X的不确定度。的不确定度。第71页,本讲稿共90页2.3.1 平均互平均互信息的概念信息的概念推导:推导:含义:含义:收到收到Y前后关于前后关于X的不确定度减少的量,即从的不确定度减少的量,即从Y所获得的关于所获得的关于X的平的平均信息量。均信息量。第72页,本讲稿共90页例例 掷骰子,若结果是掷骰子,若结果是1、2、3或或4,则抛一次硬币;如果结果是,则抛一次硬币;如果结果是5或或6,则抛两次硬币,试计算从抛硬币出现正反面的情况可以得到多少,则抛两次硬币,试计算从抛硬币出现正反面的情况可以得到多少掷骰子的信息量。掷骰子的信息量。解:解:1、假设变量,则所求为、假设变量,则所求为2、分析已知:、分析已知:1)X:2)关于)关于Y:2.3.1 平均互平均互信息的概念信息的概念YX第73页,本讲稿共90页3、求所需量:、求所需量:1)求)求H(X):2)求)求H(X|Y):a)求求b)求求2.3.1 平均互平均互信息的概念信息的概念H(X)=0.918第74页,本讲稿共90页则:则:4、求、求I(X;Y)答:答:从抛硬币的结果可以得到多少掷骰子的信息量为从抛硬币的结果可以得到多少掷骰子的信息量为0.159bit/符号。符号。2.3.1 平均互平均互信息的概念信息的概念第75页,本讲稿共90页1、非负性、非负性证明:证明:2.3.2 平均互信息的性质平均互信息的性质JensenJensen不等式不等式:第76页,本讲稿共90页1、非负性、非负性证明:证明:2.3.2 平均互信息的性质平均互信息的性质第77页,本讲稿共90页1、非负性、非负性含义:含义:说明给定随机变量说明给定随机变量Y后,一般来说总能消除一部分关于后,一般来说总能消除一部分关于X的不确定的不确定性。性。特例(等式成立情况):特例(等式成立情况):随机变量随机变量X 和和Y相互独立。相互独立。2.3.2 平均互信息的