第二章信息论的基本概念精选文档.ppt
第二章信息论的基本概念本讲稿第一页,共一百一十二页2.1 离散随机变量的熵离散随机变量的熵2.1.1 熵的引入熵的引入2.1.2 香农熵与热力学熵的关系香农熵与热力学熵的关系2.1.3 熵可以作为信息的度量熵可以作为信息的度量(熵的物理意义)(熵的物理意义)2.1.4 熵函数的性质熵函数的性质2.1.5 联合熵和条件熵联合熵和条件熵本讲稿第二页,共一百一十二页信息无处不在,但:信息无处不在,但:信息用什么表示信息用什么表示?如何表示如何表示?不确定性携载的信息不确定性携载的信息可用随机变量的不确定性或随机性作为信息的表示可用随机变量的不确定性或随机性作为信息的表示“信息是事物运动状态或存在方式的信息是事物运动状态或存在方式的不确定性的描述不确定性的描述”香农香农问题问题1:信息是随机的信息是随机的2.1.1 熵的引入熵的引入-1本讲稿第三页,共一百一十二页 如何度量信息?如何计算消息的信息量?如何度量信息?如何计算消息的信息量?某些消息比另外一些消息传递了更多的信息。某些消息比另外一些消息传递了更多的信息。类似于火车运输货物多少用类似于火车运输货物多少用“货运量货运量”衡量衡量 消息信号传输信息多少用消息信号传输信息多少用消息信号传输信息多少用消息信号传输信息多少用“信息量信息量信息量信息量”衡量衡量衡量衡量 概率论知识:概率论知识:事件出现的可能性愈小,概率愈小;事件出现的可能性愈小,概率愈小;事件出现的可能性愈小,概率愈小;事件出现的可能性愈小,概率愈小;该事件是否会出现的不确定性就愈大该事件是否会出现的不确定性就愈大该事件是否会出现的不确定性就愈大该事件是否会出现的不确定性就愈大 事件出现的可能性愈大,概率愈大事件出现的可能性愈大,概率愈大事件出现的可能性愈大,概率愈大事件出现的可能性愈大,概率愈大 该事件是否会出现的不确定性就愈小该事件是否会出现的不确定性就愈小该事件是否会出现的不确定性就愈小该事件是否会出现的不确定性就愈小 信息量与消息出现的概率有关。信息量与消息出现的概率有关。问题问题2:2.1.1 熵的引入熵的引入-2本讲稿第四页,共一百一十二页研究思路一:自信息概率空间的平均自信息熵自信息概率空间的平均自信息熵研究思路二:直接定义直接定义2.1.1 熵的引入熵的引入-3本讲稿第五页,共一百一十二页分析信息的特征,信息量(消息)关系式应反映如下规律:(1)信息量是概率的非负函数,即 I=fP(x)(2)P(x)越小,I越大;反之,I越小,且 P(x)1时,I0 P(x)0时,I(3)若干个互相独立事件构成的消息,所含信息量等于各独立事件信息量之和,也就是说,信息具有相加性,即 IP(x1)P(x2)=IP(x1)+IP(x2)+自信息:自信息:研究思路一研究思路一本讲稿第六页,共一百一十二页信息量的直观定义:信息量的直观定义:信息量的直观定义:信息量的直观定义:l l收到某消息获得的收到某消息获得的收到某消息获得的收到某消息获得的信息量信息量信息量信息量不确定性减少的量不确定性减少的量不确定性减少的量不确定性减少的量 (收到此消息收到此消息收到此消息收到此消息前前前前关于某事件发生的不确定性关于某事件发生的不确定性关于某事件发生的不确定性关于某事件发生的不确定性)(收到此消息收到此消息收到此消息收到此消息后后后后关于某事件发生的不确定性关于某事件发生的不确定性关于某事件发生的不确定性关于某事件发生的不确定性)l l在无噪声时,通过信道的传输,可以完全不失真地收到所发的消息,在无噪声时,通过信道的传输,可以完全不失真地收到所发的消息,在无噪声时,通过信道的传输,可以完全不失真地收到所发的消息,在无噪声时,通过信道的传输,可以完全不失真地收到所发的消息,收到此消息后关于某事件发生的不确定性完全消除,此项为零。因此收到此消息后关于某事件发生的不确定性完全消除,此项为零。因此收到此消息后关于某事件发生的不确定性完全消除,此项为零。因此收到此消息后关于某事件发生的不确定性完全消除,此项为零。因此得得得得 收到某消息获得的收到某消息获得的收到某消息获得的收到某消息获得的信息量信息量信息量信息量 收到此消息收到此消息收到此消息收到此消息前前前前关于某事件发生的不确定性关于某事件发生的不确定性关于某事件发生的不确定性关于某事件发生的不确定性 信源输出的此消息中所含有的信源输出的此消息中所含有的信源输出的此消息中所含有的信源输出的此消息中所含有的信息量信息量信息量信息量自信息:自信息:本讲稿第七页,共一百一十二页可以用可以用可以用可以用泛函分析泛函分析泛函分析泛函分析方法解得满足条件的函数形式为方法解得满足条件的函数形式为方法解得满足条件的函数形式为方法解得满足条件的函数形式为用概率测度定义信息量:用概率测度定义信息量:用概率测度定义信息量:用概率测度定义信息量:设离散信源设离散信源设离散信源设离散信源X X,其概率空间为,其概率空间为,其概率空间为,其概率空间为如果知道事件如果知道事件如果知道事件如果知道事件x xi i已发生,则该事件所含有的已发生,则该事件所含有的已发生,则该事件所含有的已发生,则该事件所含有的自信息定义自信息定义自信息定义自信息定义为为为为自信息:自信息:本讲稿第八页,共一百一十二页 自信息含义当事件当事件当事件当事件x xi发生以前:发生以前:表示事件表示事件表示事件表示事件x xi i发生的不确定性发生的不确定性发生的不确定性发生的不确定性。当事件当事件当事件当事件xi i发生以后:发生以后:发生以后:发生以后:表示事件表示事件表示事件表示事件x xi i所含有(或所提供)的信息量。所含有(或所提供)的信息量。所含有(或所提供)的信息量。所含有(或所提供)的信息量。在在在在无噪信道中,事件无噪信道中,事件无噪信道中,事件无噪信道中,事件x xi i发生后,能正确无误地传输到收信者,所以发生后,能正确无误地传输到收信者,所以发生后,能正确无误地传输到收信者,所以发生后,能正确无误地传输到收信者,所以I I(x xi i)可代表接收到消息可代表接收到消息可代表接收到消息可代表接收到消息x xi i后所获得的信息量。这是因为消除了后所获得的信息量。这是因为消除了后所获得的信息量。这是因为消除了后所获得的信息量。这是因为消除了I I(x xi i)大大大大小的不确定性,才获得这么大小的信息量。小的不确定性,才获得这么大小的信息量。小的不确定性,才获得这么大小的信息量。小的不确定性,才获得这么大小的信息量。本讲稿第九页,共一百一十二页 自信息的测度单位及其换算关系l l如果取以如果取以2 2为底,则信息量单位称为为底,则信息量单位称为比特比特(binary unitbinary unit)l l如果取以如果取以e为底,则信息量单位称为为底,则信息量单位称为奈特奈特(nature unitnature unit)l l如果取以如果取以1010为底,则信息量单位称为为底,则信息量单位称为哈特哈特(Hart unitHart unit)1 1 1 1奈特奈特奈特奈特1.441.441.441.44比特比特比特比特 1 1 1 1哈特哈特哈特哈特3.323.323.323.32比特比特比特比特一般都采用以一般都采用以“2”2”为底的对数,为了书写简洁,有时把底数为底的对数,为了书写简洁,有时把底数2 2略去不写。略去不写。本讲稿第十页,共一百一十二页 信息论中“比特”与 计算机术语中“比特”区别l l如果如果如果如果p p(x xi i)=1/2=1/2,则,则,则,则I I(x xi i)=1=1比特。所以比特。所以比特。所以比特。所以1 1比特信息量就是两个互不比特信息量就是两个互不比特信息量就是两个互不比特信息量就是两个互不相容的等可能事件之一发生时所提供的信息量。相容的等可能事件之一发生时所提供的信息量。相容的等可能事件之一发生时所提供的信息量。相容的等可能事件之一发生时所提供的信息量。l l信息论中信息论中信息论中信息论中“比特比特比特比特”是指抽象的信息量单位;是指抽象的信息量单位;是指抽象的信息量单位;是指抽象的信息量单位;l l计算机术语中计算机术语中计算机术语中计算机术语中“比特比特比特比特”是代表二元符号(数字);是代表二元符号(数字);是代表二元符号(数字);是代表二元符号(数字);l l这两种定义之间的关系是:这两种定义之间的关系是:这两种定义之间的关系是:这两种定义之间的关系是:每个二元符号所能提供的每个二元符号所能提供的每个二元符号所能提供的每个二元符号所能提供的最大平均最大平均最大平均最大平均信息量信息量信息量信息量为为为为1 1比特。比特。比特。比特。本讲稿第十一页,共一百一十二页 信源熵平均信息量自信息是一个随机变量:自信息是一个随机变量:自信息是一个随机变量:自信息是一个随机变量:自信息是指某一信源发出某一消息所含有自信息是指某一信源发出某一消息所含有自信息是指某一信源发出某一消息所含有自信息是指某一信源发出某一消息所含有的信息量。所发出的消息不同,它们所含有的信息量也就不同。的信息量。所发出的消息不同,它们所含有的信息量也就不同。的信息量。所发出的消息不同,它们所含有的信息量也就不同。的信息量。所发出的消息不同,它们所含有的信息量也就不同。平均信息量平均信息量平均信息量平均信息量信源熵:信源熵:信源熵:信源熵:自信息的数学期望。也称为信源的信息熵自信息的数学期望。也称为信源的信息熵自信息的数学期望。也称为信源的信息熵自信息的数学期望。也称为信源的信息熵/信源熵信源熵信源熵信源熵/香农熵香农熵香农熵香农熵/无条件熵无条件熵无条件熵无条件熵/熵函数熵函数熵函数熵函数/熵。熵。熵。熵。信息熵的单位:信息熵的单位:信息熵的单位:信息熵的单位:取决于对数选取的底。一般选用以取决于对数选取的底。一般选用以取决于对数选取的底。一般选用以取决于对数选取的底。一般选用以2 2为底,其为底,其为底,其为底,其单位为比特单位为比特单位为比特单位为比特/符号。符号。符号。符号。信息熵的意义:信息熵的意义:信息熵的意义:信息熵的意义:信源的信息熵信源的信息熵信源的信息熵信源的信息熵HH是从是从是从是从整个整个整个整个信源的统计特性来考虑的。信源的统计特性来考虑的。信源的统计特性来考虑的。信源的统计特性来考虑的。它是从它是从它是从它是从平均平均平均平均意义上来表征信源的总体特性的。对于某特定的信源,意义上来表征信源的总体特性的。对于某特定的信源,意义上来表征信源的总体特性的。对于某特定的信源,意义上来表征信源的总体特性的。对于某特定的信源,其信息熵只有一个。不同的信源因统计特性不同,其熵也不同。其信息熵只有一个。不同的信源因统计特性不同,其熵也不同。其信息熵只有一个。不同的信源因统计特性不同,其熵也不同。其信息熵只有一个。不同的信源因统计特性不同,其熵也不同。本讲稿第十二页,共一百一十二页熵(熵(Entropy)的直接引入的直接引入 一个离散随机变量一个离散随机变量一个离散随机变量一个离散随机变量X X,以不同的取值概率有,以不同的取值概率有,以不同的取值概率有,以不同的取值概率有N N个可能取值个可能取值个可能取值个可能取值,XP(x)a1a2aNp1p2pN信息论关心信息论关心:X的的不确定性不确定性不确定性大,获取的信息量多不确定性大,获取的信息量多研究思路二研究思路二本讲稿第十三页,共一百一十二页熵的引入熵的引入不确定性分析:不确定性分析:随机变量随机变量X、Y、ZXP(X)a1 1 a2 2 0.01 0.99ZP(Z)a1 a2 a3 a4 a50.2 0.2 0.2 0.2 0.2YP(Y)a1 1 a2 2 0.5 0.5问题:问题:1、能否度量?、能否度量?小小大大2、如何度量?、如何度量?本讲稿第十四页,共一百一十二页香农指出:存在存在熵熵函数满足满足先验条件1、连续性条件:、连续性条件:是是 的连续函数的连续函数2、等概时为单调增函数:、等概时为单调增函数:是是N的增函数的增函数3、可加性条件:当随机变量的取值不是通过一次试验而是若干次试验确定取、可加性条件:当随机变量的取值不是通过一次试验而是若干次试验确定取值时,值时,X在各次试验中的不确定性可加。在各次试验中的不确定性可加。结论结论:唯一唯一的形式:C=常数0,即:本讲稿第十五页,共一百一十二页可加性条件进一步说明:可加性条件进一步说明:当随机变量的取值不是通过一次试验而是若干次试验确定取值时,随机变量在各次试验中的不确定性可加,且其和始终与通过一次试验取得结果的不确定程度相同。本讲稿第十六页,共一百一十二页熵的定义熵的定义X为一随机变量样本空间Xx1 1,x2 2,.xn npi i或p(x xi i)是输出为xi的概率定义定义为随机变量的熵函数熵函数含义:含义:(1)通过观测随机)通过观测随机 变量变量X所获得的所获得的 平均信息量平均信息量(2)对随机变量)对随机变量X的的 “不确定性不确定性”、“随机性随机性”的度量的度量本讲稿第十七页,共一百一十二页熵的单位熵的单位 与前面介绍自信息的单位时相同,与前面介绍自信息的单位时相同,信息熵信息熵的单位也与公式中的单位也与公式中的对数取的对数取底底有关。有关。通信与信息中最常用的是以通信与信息中最常用的是以2 2为底,这时单位为为底,这时单位为比特(比特(bitbit););理论推导中用以理论推导中用以e e为底较方便,这时单位为为底较方便,这时单位为奈特奈特(NatNat););工程上用以工程上用以1010为底较方便,这时单位为为底较方便,这时单位为哈特利哈特利(HartleyHartley)。)。它们之间可以引用对数换底公式进行互换。比如:它们之间可以引用对数换底公式进行互换。比如:1 bit=0.693 Nat=0.301 Hartley 1 bit=0.693 Nat=0.301 Hartley本讲稿第十八页,共一百一十二页熵熵H(X)-通过观测随机变量通过观测随机变量X所获得的所获得的平均平均信息量信息量 进一步理解:进一步理解:进一步理解:进一步理解:平均统计平均(平均统计平均(平均统计平均(平均统计平均(区别与算术平均区别与算术平均区别与算术平均区别与算术平均)单位抽象的信息单位,无量纲(单位抽象的信息单位,无量纲(单位抽象的信息单位,无量纲(单位抽象的信息单位,无量纲(量纲量纲量纲量纲 单位单位单位单位)比特不同于计算机中的比特不同于计算机中的比特不同于计算机中的比特不同于计算机中的“比特比特比特比特”计算机:代表一个二元数字计算机:代表一个二元数字计算机:代表一个二元数字计算机:代表一个二元数字(bibinary diginary digit t)信息:对数取信息:对数取信息:对数取信息:对数取2 2为底时信息量的单位为底时信息量的单位为底时信息量的单位为底时信息量的单位 关系:每一个二元数字所能提供的最大平均信息量为关系:每一个二元数字所能提供的最大平均信息量为关系:每一个二元数字所能提供的最大平均信息量为关系:每一个二元数字所能提供的最大平均信息量为1 1比特比特比特比特 认为:当认为:当认为:当认为:当x x0 0时时时时 xlog(1/x)=0 xlog(1/x)=0 通信:信息速率通信:信息速率通信:信息速率通信:信息速率单位时间内信息的数量单位时间内信息的数量单位时间内信息的数量单位时间内信息的数量本讲稿第十九页,共一百一十二页2.1.2 香农熵与热力学中热熵的关系香农熵与热力学中热熵的关系熵熵 这个名词是香农从物理学中的统计热力学借用过来的,在物理这个名词是香农从物理学中的统计热力学借用过来的,在物理这个名词是香农从物理学中的统计热力学借用过来的,在物理这个名词是香农从物理学中的统计热力学借用过来的,在物理学中称它为学中称它为学中称它为学中称它为热熵,热熵,热熵,热熵,是表示分子混乱程度的一个物理量,这是表示分子混乱程度的一个物理量,这是表示分子混乱程度的一个物理量,这是表示分子混乱程度的一个物理量,这里,香农引用它来描述随机变量的平均不确定性,含义是里,香农引用它来描述随机变量的平均不确定性,含义是里,香农引用它来描述随机变量的平均不确定性,含义是里,香农引用它来描述随机变量的平均不确定性,含义是类似的。但是在热力学中,任何孤立系统的演化,热熵只类似的。但是在热力学中,任何孤立系统的演化,热熵只类似的。但是在热力学中,任何孤立系统的演化,热熵只类似的。但是在热力学中,任何孤立系统的演化,热熵只能增加不能减少;而在信息论中,信息熵正相反,只会减能增加不能减少;而在信息论中,信息熵正相反,只会减能增加不能减少;而在信息论中,信息熵正相反,只会减能增加不能减少;而在信息论中,信息熵正相反,只会减少,不会增加。所以有人称信息熵为少,不会增加。所以有人称信息熵为少,不会增加。所以有人称信息熵为少,不会增加。所以有人称信息熵为负热熵负热熵负热熵负热熵。二者还有一个重大差别:热熵是有量纲的,而香农熵是无量纲二者还有一个重大差别:热熵是有量纲的,而香农熵是无量纲二者还有一个重大差别:热熵是有量纲的,而香农熵是无量纲二者还有一个重大差别:热熵是有量纲的,而香农熵是无量纲的。的。的。的。本讲稿第二十页,共一百一十二页(不确定性)(不确定性)2.1.3 熵可以作为信息的量度熵可以作为信息的量度对于随机变量而言:对于随机变量而言:试验前试验前试验后试验后试验后试验后各取值的概率分布各取值的概率分布确切取值确切取值 (0)(不确定性)(不确定性)熵的差值熵的差值一定的确切性一定的确切性多次试验后多次试验后通过试验消除了不确定性获得了信息通过试验消除了不确定性获得了信息信息量获得的信息的数量信息量获得的信息的数量本讲稿第二十一页,共一百一十二页例例2.1:2.1:试验前:试验前:试验后:试验后:XP(x)1234561/61/61/61/61/61/6H(x)=log6=2.58bits=1.79natsX1P(x1)123456010000H(x1)=0H(x)H(x1)=log6本讲稿第二十二页,共一百一十二页例例2.2:2.2:试验前:H(x)=log8=3(bit/符号)XP(x)123456781/81/81/81/81/81/81/81/812312345678第一次测量后:X1P(x1)123456781/41/41/41/40000H(x1)=log4=2(bit/符号)H(x)H(x1)=1获得获得1bit信息量信息量本讲稿第二十三页,共一百一十二页H(x2)H(x3)=1获得获得1bit信息量信息量第二次测量后:X2P(x2)123456781/21/2000000H(x2)=log2=1(bit/符号)第三次测量后:X3P(x3)1234567810000000H(x3)=log1=0(bit/符号)H(x1)H(x2)=1获得获得1bit信息量信息量H(X)表示在获知哪个灯泡是坏的情况前,关于哪个灯泡已损坏的平均表示在获知哪个灯泡是坏的情况前,关于哪个灯泡已损坏的平均不确定性,即要确定哪个灯泡是坏的,至少需要获得不确定性,即要确定哪个灯泡是坏的,至少需要获得3个个bit的信息量,的信息量,才能完全消除不确定性。才能完全消除不确定性。本讲稿第二十四页,共一百一十二页熵的物理含义熵的物理含义观察随机变量观察随机变量X、Y、ZXP(x)a1a20.010.99ZP(z)a1a2a3a4a50.20.20.20.20.2YP(y)a1a20.50.5H(X)=-0.01log0.01-0.99log0.99=0.08(比特/符号)H(Y)=-0.5log0.5-0.5log0.5=1(比特/符号)H(Z)=5(-0.2log0.2)=2.32(比特/符号)本讲稿第二十五页,共一百一十二页熵的物理含义熵的物理含义 熵是随机变量的熵是随机变量的熵是随机变量的熵是随机变量的随机性随机性随机性随机性的描述。的描述。的描述。的描述。变量变量变量变量Y Y、Z Z等概,随机性大,变量等概,随机性大,变量等概,随机性大,变量等概,随机性大,变量X X不等概,则随机性小不等概,则随机性小不等概,则随机性小不等概,则随机性小 等概情况下,可取值越多,随机性越大等概情况下,可取值越多,随机性越大等概情况下,可取值越多,随机性越大等概情况下,可取值越多,随机性越大 H H()是描述随机变量所需的比特数()是描述随机变量所需的比特数()是描述随机变量所需的比特数()是描述随机变量所需的比特数 熵是随机变量熵是随机变量熵是随机变量熵是随机变量平均平均平均平均不确定性不确定性不确定性不确定性的描述的描述的描述的描述 X X试验中发生试验中发生试验中发生试验中发生a a1 1,获得的获得的获得的获得的自信息自信息自信息自信息为为为为-log0.01=6.64(bit)-log0.01=6.64(bit)Y Y试验中发生试验中发生试验中发生试验中发生a a1 1,获得的获得的获得的获得的自信息自信息自信息自信息为为为为-log0.5=2.32(bit)-log0.5=2.32(bit)H H()反映的是平均的不确定性()反映的是平均的不确定性()反映的是平均的不确定性()反映的是平均的不确定性本讲稿第二十六页,共一百一十二页例例例例2.3 2.3 设某班学生在一次考试中获优(设某班学生在一次考试中获优(设某班学生在一次考试中获优(设某班学生在一次考试中获优(A A)、良()、良()、良()、良(B B)、中()、中()、中()、中(C C)、及格)、及格)、及格)、及格(D D)和不及格()和不及格()和不及格()和不及格(E E)的人数相等。当教师通知某甲:)的人数相等。当教师通知某甲:)的人数相等。当教师通知某甲:)的人数相等。当教师通知某甲:“你没有不及你没有不及你没有不及你没有不及格格格格”,甲获得了多少比特信息?为确定自己的成绩,甲还需要多少信,甲获得了多少比特信息?为确定自己的成绩,甲还需要多少信,甲获得了多少比特信息?为确定自己的成绩,甲还需要多少信,甲获得了多少比特信息?为确定自己的成绩,甲还需要多少信息?息?息?息?XP(x)ABCDE0.20.20.20.20.2XP(x)ABCDE0.250.250.250.250H(X)=5(-0.2log0.2)=2.32(比特)H(X)=4(-0.25log0.25)=2(比特)甲获得的信息甲获得的信息=H(X)-H(X)=0.32(比特)(比特)还需要的信息还需要的信息2.32-0.32=2(比特)(比特)本讲稿第二十七页,共一百一十二页2.1.4 熵函数的性质熵函数的性质香农熵是概率矢量的非负的上凸函数香农熵是概率矢量的非负的上凸函数性质性质1:非负性:非负性性质性质2:上凸性:上凸性性质性质3:唯一性(连续性、可加性、等概单调增):唯一性(连续性、可加性、等概单调增)本讲稿第二十八页,共一百一十二页熵函数的性质非负性熵函数的性质非负性证明一:证明一:因为:因为:则:则:所以:所以:本讲稿第二十九页,共一百一十二页熵函数的性质非负性熵函数的性质非负性证明二:证明二:有:有:或:所以:所以:本讲稿第三十页,共一百一十二页熵函数的性质上凸性熵函数的性质上凸性凸性的概念凸性的概念:若对区域若对区域D中任意两点中任意两点 和和 ,均有:均有:则称:区域则称:区域D是凸域。是凸域。理解理解:若两点若两点 和和 在凸域在凸域D内,则内,则 和和 之间的线段也整个在区域之间的线段也整个在区域D内。内。本讲稿第三十一页,共一百一十二页在在a,b上定义的下凸函数上定义的下凸函数若在凸域内本讲稿第三十二页,共一百一十二页在在a,b上定义的上凸函数上定义的上凸函数若在凸域内本讲稿第三十三页,共一百一十二页Jenson不等式不等式这一结果被称为JensonJenson不等式。不等式。不等式。不等式。JensonJenson不等式可以根据凸函数和数学不等式可以根据凸函数和数学不等式可以根据凸函数和数学不等式可以根据凸函数和数学归纳法来证明归纳法来证明归纳法来证明归纳法来证明本讲稿第三十四页,共一百一十二页熵函数的性质熵函数的性质上凸性上凸性 上凸性:上凸性:熵函数具有凸性,即熵函数具有凸性,即H(P)是)是P的上凸函数。的上凸函数。证明证明:(:(1)证明概率矢量)证明概率矢量P=(p1,p2,pN)的集合组的集合组成的区域是一个凸域。成的区域是一个凸域。(2)利用)利用作业作业本讲稿第三十五页,共一百一十二页熵函数的性质熵函数的性质定理定理2.1极值性极值性 对于离散随机变量,当其可能的取值等概分布对于离散随机变量,当其可能的取值等概分布时,其熵达到最大值。即:时,其熵达到最大值。即:其中:其中:N为为X可能取值得个数。可能取值得个数。本讲稿第三十六页,共一百一十二页例例2.4:二元熵函数是对:二元熵函数是对01分布的随机变量所求的熵:分布的随机变量所求的熵:XP(x)01p1-pH(X)=-plogp-(1-p)log(1-p)=H(p)有:而:可以证明,可以证明,p1/2时,时,H(p)取最大值,为取最大值,为log2=1。而而p=0或或1时,时,H(p)0,故二元熵函数的曲线如图所示:,故二元熵函数的曲线如图所示:本讲稿第三十七页,共一百一十二页p1.01.00.50H(p)/bit二元熵函数曲线二元熵函数曲线等概时(等概时(p=0.5):随机变量具有最大的不随机变量具有最大的不确定性确定性,p=0,1时:时:随机变量的不确定性消随机变量的不确定性消失失。计算机术语计算机术语VS信息单位:信息单位:“比特比特”每一个二元数字所能提供的最大平均信息量为每一个二元数字所能提供的最大平均信息量为1比特比特 符号等概分布的二元数字序列中,每一个二元数字将平均提供符号等概分布的二元数字序列中,每一个二元数字将平均提供1比特比特的信息量的信息量;符号非等概分布时,每一个二元数字所提供的平均信息量总是小于;符号非等概分布时,每一个二元数字所提供的平均信息量总是小于1比特比特本讲稿第三十八页,共一百一十二页例:例:2.52.5 P=0.5,0.25,0.25 P=0.5,0.25,0.25 Q=0.48,0.32,0.2 Q=0.48,0.32,0.2H(P)=H(Q)=1.5 bitsH(P)=H(Q)=1.5 bits 不同的概率分布不同的概率分布不同的概率分布不同的概率分布熵熵熵熵可以相同可以相同可以相同可以相同 For 3 symbols:For 3 symbols:H Hmaxmax(P)=log 3=1.585 bits(P)=log 3=1.585 bits 进进进进一步理解:一步理解:一步理解:一步理解:熵熵熵熵只与随机只与随机只与随机只与随机变变变变量的量的量的量的总总总总体体体体结结结结构有关,它表征随机构有关,它表征随机构有关,它表征随机构有关,它表征随机变变变变量的量的量的量的总总总总体的平均不确定体的平均不确定体的平均不确定体的平均不确定性。性。性。性。局限性:局限性:局限性:局限性:不能描述不能描述不能描述不能描述时间时间时间时间本身的具体含本身的具体含本身的具体含本身的具体含义义义义和主和主和主和主观观观观价价价价值值值值 本讲稿第三十九页,共一百一十二页定理定理定理定理2.22.2 设离散随机变量的概密矩阵为设离散随机变量的概密矩阵为设离散随机变量的概密矩阵为设离散随机变量的概密矩阵为 函数函数函数函数 是随机变量不确定性的量度,若此函数是随机变量不确定性的量度,若此函数是随机变量不确定性的量度,若此函数是随机变量不确定性的量度,若此函数满足条件满足条件满足条件满足条件 连续性连续性连续性连续性 等概时单调增函数性等概时单调增函数性等概时单调增函数性等概时单调增函数性 可加性可加性可加性可加性则此函数必为则此函数必为则此函数必为则此函数必为熵函数的性质唯一性熵函数的性质唯一性XP(x)a1a2aNp1p2pN证明:可参见朱雪龙证明:可参见朱雪龙应用信息论基础应用信息论基础P24本讲稿第四十页,共一百一十二页2.1.5 联合熵与条件熵条件熵联合熵与条件熵条件熵物理含义物理含义物理含义物理含义:已知一随机变量的情况下,对另一随机变量不确定性的量度已知一随机变量的情况下,对另一随机变量不确定性的量度已知一随机变量的情况下,对另一随机变量不确定性的量度已知一随机变量的情况下,对另一随机变量不确定性的量度条件熵条件熵:理解:理解:观测观测Y以后,仍保留的关于以后,仍保留的关于X的不确定量。的不确定量。信道本讲稿第四十一页,共一百一十二页2.1.5 联合熵与条件熵联合熵联合熵与条件熵联合熵联合熵联合熵物理意义:物理意义:二元随机变量不确定性的量度二元随机变量不确定性的量度本讲稿第四十二页,共一百一十二页联合熵、条件熵的关系:联合熵、条件熵的关系:当X,Y相互独立时,有:于是有:理解理解:当随机变量相互独立时,其当随机变量相互独立时,其联合熵联合熵等于单个随机变量的熵之和,而等于单个随机变量的熵之和,而条件熵条件熵等等于无条件熵。于无条件熵。本讲稿第四十三页,共一百一十二页联合熵、条件熵的关系:联合熵、条件熵的关系:一般情况下理解:理解:表明一般情形下:条件熵总是小于无条件熵。表明一般情形下:条件熵总是小于无条件熵。注意:注意:这是平均意义上的这是平均意义上的本讲稿第四十四页,共一百一十二页“相对相对”熵:熵:设p(x),q(x)是两个不同的离散概率分布函数,则:为概率分布函数为概率分布函数p(x)p(x)关于关于q(x)q(x)的的“相对相对”熵。熵。作业:利用作业:利用作业:利用作业:利用JensonJenson不等式证明不等式证明不等式证明不等式证明意义:如果意义:如果p(x)看作系统本身的概率分布看作系统本身的概率分布,q(x)看做人看做人们对系统进行估计得到的经验概率分布,则相对熵反映们对系统进行估计得到的经验概率分布,则相对熵反映了由于逼近误差引起的信息量的丢失。了由于逼近误差引起的信息量的丢失。本讲稿第四十五页,共一百一十二页2.2 离散随机离散随机变变量的互信息量的互信息(Mutualinformation)2.2.1 互信息的定互信息的定义义2.2.2 互信息函数的性互信息函数的性质质2.2.3 熵熵 VS 互信息互信息 本讲稿第四十六页,共一百一十二页 H(XY)=H(XY)=H(X)+H(Y|X)=H(Y)+H(X|Y)H(X)+H(Y|X)=H(Y)+H(X|Y)H(Y|X)H(Y|X)H(Y),if and only if X,Y H(Y),if and only if X,Y独立独立独立独立时时时时,等号成立,等号成立,等号成立,等号成立 H(XY)H(XY)H(X)+H(Y)H(X)+H(Y),if and only if X,Yif and only if X,Y独立独立独立独立时时时时,等号成立,等号成立,等号成立,等号成立 H(X)H(X)与与与与 H(X|Y)H(X|Y)之之之之间间间间的的的的差差差差值值值值 H(H(X X)H(X|Y)H(X|Y)可以可以可以可以认为认为认为认为是是是是变变变变量量量量 Y Y 能能能能够够够够提供的关提供的关提供的关提供的关于于于于变变变变量量量量 X X的的的的平均平均平均平均信息量信息量信息量信息量定定义为义为互信息互信息互信息互信息 即即即即 I(X;Y)=H(X)H(X|Y)I(X;Y)=H(X)H(X|Y)2.2.1 互信息的定互信息的定义义-1本讲稿第四十七页,共一百一十二页2.2.1 互信息的定互信息的定义义-2 I(X;Y)=I(Y;X)=I(X;Y)=I(Y;X)=H(Y)H(Y|X)=H(X)H(X|Y)H(Y)H(Y|X)=H(X)H(X|Y)H(X)+H(Y)=H(XY)+I(X;Y)H(X)+H(Y)=H(XY)+I(X;Y)I(X;Y)=H(X)+H(Y)H(XY)I(X;Y)=H(X)+H(Y)H(XY)图像配准本讲稿第四十八页,共一百一十二页2.2.1 互信息的定互信息的定义义-3定义:离散随机变量定义:离散随机变量X和和Y之间的互信息之间的互信息本讲稿第四十九页,共一百一十二页2.2.1 互信息的定互信息的定义义-4 和和和和 是是是是随机变量随机变量随机变量随机变量X X和和和和Y Y之间相互提供的信息量之间相互提供的信息量之间相互提供的信息量之间相互提供的信息量 称为互信息是完全确切的称为互信息是完全确切的称为互信息是完全确切的称为互信息是完全确切的证明略。一般情况下:理解:理解:了解一事物总对另一事物的了解有所帮助了解一事物总对另一事物的了解有所帮助本讲稿第五十页,共一百一十二页2.2.1 互信息的定互信息的定义义-4当随机变量当随机变量X和和Y之间有确定的关系时之间有确定的关系时1、X可以唯一确定可以唯一确定Y,此时:此时:故:故:2、Y 可以唯一确定可以唯一确定X,此时:此时:故:故:是对对X和和Y之间之间统计依存程度统计依存程度的信息量度的信息量度本讲稿第五十一页,共一百一十二页2.2.1 互信息的定义互信息的定义-5另一种定义:另一种定义:这里:这里:本讲稿第五十二页,共一百一十二页变换变换得到互信息的另一种表达式:得到互信息的另一种表达式:I(X;Y)是随机变量)是随机变量X的的概率矢量概率矢量p 和和条件概率矩阵条件概率矩阵Q的函数的函数本讲稿第五十三页,共一百一十二页本讲稿第五十四页,共一百一十二页问题引出:问题引出:在通信系统中,人们往往对接收到的数据进行信息处理在通信系统中,人们往往对接收到的数据进行信息处理和分析,然而,很多处理模式因为缺少正确的抉择,而和分析,然而,很多处理模式因为缺少正确的抉择,而导致信息量的丢失或增加了对原始数据的干扰。下面我导致信息量的丢失或增加了对原始数据的干扰。下面我们从信息论的角度加以分析。们从信息论的角度加以分析。定义:定义:假设随机变量假设随机变量X,Y,Z的取值空间是由有限个离散点组成,的取值空间是由有限个离散点组成,定义两个随机变量定义两个随机变量X、Y与与Z的互信息为:的互信息为:链式法则与信息处理链式法则与信息处理本讲稿第五十五页,共一百一十二页即:即:引理:引理:链式法则与信息处理链式法则与信息处理本讲稿第五十六页,共一百一十二页请自己看证明同理可证:同理可证:链式法则与信息处理链式法则与信息处理本讲稿第五十七页,共一百一十二页讨论:讨论:上述不等式成立的条件为:对任意的当时,有:这表明:如果是一马尔科夫链,则等号成立。如果是一马尔科夫链;则也是一马尔科夫链。链式法则与信息处理链式法则与信息处理本讲稿第五十八页,共一百一十二页链式法则与信息处理链式法则与信息处理设是一马尔科夫链;则定理:定理:证明:引理部分可得,因因是一马尔科夫链;又利用又利用是马尔科夫链;利用引理可得利用引理可得本讲稿第五十九页,共一百一十二页链式法则与信息处理链式法则与信息处理所以:上述定理表明:对一个信息处理系统,如果系统数据处理过程可用一马尔科夫链进行描述,那么每增加一次处理,系统信息量是递减的。从另一个角度讲,系统每增加一次处理,数据特征的不确定性是递减的,确定性是递增的。本讲稿第六十页,共一百一十二页多个随机变量下的互信息多个随机变量下的互信息本部分内容学生自己推导,本部分内容学生自己推导,作业。作业。本讲稿第六十一页,共一百一十二页2.2.2 互信息函数的性质互信息函数的性质 互信息与互信息与互信息与互信息与p p(x x)的关系的关系的关系的关系性质性质性质性质1 1 :I(I(P P;QQ)是是是是P P(x x)的上凸函数的上凸函数的上凸函数的上凸函数.I(p;Q)pp信道理解:理解:可以看成信道输入的概率分布可以看成信道输入的概率分布本讲稿第六十二页,共一百一十二页2.2.2 互信息函数的性质互信息函数的性质 互信息与互信息与互信息与互信息与QQ矩阵的关系矩阵的关系矩阵的关系矩阵的关系 性质性质性质性质2 2 :I(p;Q)I(p;Q)是是是是QQ的下凹函数的下凹函数