信息的度量与应用优秀课件.ppt
信息的度量与应用第1页,本讲稿共27页几个例子:几个例子:例例12 当你要到大会堂去找某一个人时,甲告诉你两条消息:当你要到大会堂去找某一个人时,甲告诉你两条消息:(1)此人不坐在前十排,()此人不坐在前十排,(2)他也不坐在后十排;乙只告诉)他也不坐在后十排;乙只告诉你一条消息:此人坐在第十五排。问谁提供的信息量大?你一条消息:此人坐在第十五排。问谁提供的信息量大?乙虽然只提供了一条消息,但这一条消息对此人在什么位置上乙虽然只提供了一条消息,但这一条消息对此人在什么位置上这一不确定性消除得更多,所以后者包含的信息量应比前者提供的这一不确定性消除得更多,所以后者包含的信息量应比前者提供的两条消息所包含的总信息量更大两条消息所包含的总信息量更大例例13 假如在盛夏季节气象台突然预报假如在盛夏季节气象台突然预报“明天无雪明天无雪”的消息。在明的消息。在明天是否下雪的问题上,根本不存在不确定性,所以这条消息天是否下雪的问题上,根本不存在不确定性,所以这条消息包含的信息量为零。包含的信息量为零。第2页,本讲稿共27页是否存在信息量的度量公式是否存在信息量的度量公式 基于前面的观点,美国贝尔实验室的学者香农基于前面的观点,美国贝尔实验室的学者香农(Shannon)应用)应用概率论知识和逻辑方法概率论知识和逻辑方法推导出了信息量推导出了信息量的计算公式的计算公式 In his words I just wondered how things were put together.Claude Elwood Shannon(April 30,1916-February 24,2001)has been called the father of information theory.第3页,本讲稿共27页Shannon提出的四条提出的四条基本性质基本性质(不妨称它们为公理(不妨称它们为公理)公理公理1信息量是该事件发生概率的连续函数信息量是该事件发生概率的连续函数 公理公理2如果事件如果事件A发生必有事件发生必有事件B发生,则得知事件发生,则得知事件A发生的信息量大发生的信息量大于或等于得知事件于或等于得知事件B发生的信息量。发生的信息量。公理公理3如果事件如果事件A和事件和事件B的发生是相互独立的,则获知的发生是相互独立的,则获知A、B事件将同时发生的信息量应为单独获知两事件发生事件将同时发生的信息量应为单独获知两事件发生的信息量之和。的信息量之和。公理公理4任何信息的信息量均是有限的。任何信息的信息量均是有限的。将某事件发生的信息记为将某事件发生的信息记为M,该事件发生的概率记为,该事件发生的概率记为p,记,记M的信息量为的信息量为I(M)。)。上述公理怎样推出信息量的计算公式呢上述公理怎样推出信息量的计算公式呢第4页,本讲稿共27页定理定理11.2 满足公理满足公理1公理公理4的信息量计算公式为的信息量计算公式为I(M)=Clogap,其中,其中C是任意正常数,对数之底是任意正常数,对数之底a可取任意为不为可取任意为不为1的正实数。的正实数。证明证明:由公理由公理1 I(M)=f(p),函数,函数f连续连续。由公理由公理2 若若A发生必有发生必有B发生,则发生,则pApB,有有f(pA)f(PB),故函数,故函数f是单调不增的是单调不增的。由公理由公理3 若若A、B是两个独立事件,则是两个独立事件,则A、B同时发生同时发生 的概率为的概率为pApB,有,有f(PAPB)=f(pA)+f(pB)。先作变量替换先作变量替换 令令p=a-q,即,即q=logaP 记记 ,又,又 有:有:,g亦为连续函数亦为连续函数。第5页,本讲稿共27页 g(x+y)=g(x)+g(y)的连续函数有怎样的性质的连续函数有怎样的性质 首先,由首先,由g(0)=g(0+0)=2g(0)得出得出g(0)=0或或g(0)=。但由公理但由公理4,后式不能成立,故必有,后式不能成立,故必有g(0)=0。记记g(1)=C,容易求得,容易求得g(2)=2C,g(3)=3C,一般地,一般地,有有g(n)=nC。进而。进而 ,可得可得 。于是对一切正有理数于是对一切正有理数 m/n,g(m/n)=(m/n)C。由由连续性连续性可知:对一切非负实数可知:对一切非负实数x,有,有g(x)=Cx 当当x取负实数时,由取负实数时,由g(x)+g(x)=g(0)=0,可得,可得出出g(x)=g(x)=cx也成立,从而也成立,从而对一切实数对一切实数x,g(x)=Cx,故故g(q)=Cq。现作逆变换现作逆变换q=logap,得得I(M)=f(P)=ClogaP (11.3)证毕证毕。第6页,本讲稿共27页各种信息量单位各种信息量单位 若取若取a=2,C=1,此时信息量单位称为比特,此时信息量单位称为比特若取若取a=10,C=1,此时信息量单位称为迪吉特,此时信息量单位称为迪吉特若取若取a=e,C=1,此时信息量单位称为奈特,此时信息量单位称为奈特第7页,本讲稿共27页例例14 设剧院有设剧院有1280个座位,分为个座位,分为32排,每排排,每排40座。现欲从中找出座。现欲从中找出某人,求以下信息的信息量。(某人,求以下信息的信息量。(i)某人在第十排;()某人在第十排;(ii)某人在第)某人在第15座;(座;(iii)某人在第十排第)某人在第十排第15座。座。解解:在未知任何信息的情况下,在未知任何信息的情况下,此人在各排的概率可以认为是相等此人在各排的概率可以认为是相等的,他坐在各座号上的概率也可以认为是相等的,故的,他坐在各座号上的概率也可以认为是相等的,故 (i)“某人在第十排某人在第十排”包含的信息量为包含的信息量为 (比特)(比特)(ii)“某人在第某人在第15座座”包含的信息量为包含的信息量为 (比特)(比特)(iii)“某人在第十排第某人在第十排第15座座”包含的信息量为包含的信息量为 (比特)(比特)5bit+5.32bit=10.32bit这一例子反映了对完全独立的几条这一例子反映了对完全独立的几条信息,其总信息量等于各条信息的信息,其总信息量等于各条信息的信息量之和。信息量之和。对于相应不独立的信息,要计算对于相应不独立的信息,要计算在已获得某信息后其余信息的信在已获得某信息后其余信息的信息量时,需要用到条件概率公式,息量时,需要用到条件概率公式,可以参阅信息论书籍。可以参阅信息论书籍。第8页,本讲稿共27页 至此,我们已经引入了信息度量的定量公式。如前至此,我们已经引入了信息度量的定量公式。如前所述,它是信息对消除问题的不确定性的度量。这种讲所述,它是信息对消除问题的不确定性的度量。这种讲法似乎有点难以为人们所接受,其实,这只是人们的习法似乎有点难以为人们所接受,其实,这只是人们的习惯在起作用。这里,我们不妨来作一比较。在人们搞清惯在起作用。这里,我们不妨来作一比较。在人们搞清热的奥秘以前,温度也是一个较为抽象的概念,因它实热的奥秘以前,温度也是一个较为抽象的概念,因它实质上是物体分子运动平均速度的一种映。人们天生就知质上是物体分子运动平均速度的一种映。人们天生就知道冷和热,但如何来度量它却曾经是一个难题。只有在道冷和热,但如何来度量它却曾经是一个难题。只有在解决了这一问题以后,以定量分析为主的热力学才能得解决了这一问题以后,以定量分析为主的热力学才能得到飞速的发展。信息问题也是这样,人们对各种信息包到飞速的发展。信息问题也是这样,人们对各种信息包含的实质含的实质“内容内容”究竟有多少往往也有一个直观的感觉,究竟有多少往往也有一个直观的感觉,但用什么方法来度量它,却比但用什么方法来度量它,却比“今天今天15度度”这样的讲法这样的讲法更不易理解,因为它是通过较为抽象的概率来计算的。更不易理解,因为它是通过较为抽象的概率来计算的。第9页,本讲稿共27页平均信息量(熵)问题平均信息量(熵)问题 设某一实验可能有设某一实验可能有N种结果,它们出现的概率分别为种结果,它们出现的概率分别为p1,pN,则则事先告诉你将出现第事先告诉你将出现第i种结果的信息,其信息量为种结果的信息,其信息量为log2pi,而该,而该实验的不确定性则可用这组信息的平均信息量(或熵)实验的不确定性则可用这组信息的平均信息量(或熵)来表示来表示例例15 投掷一枚骼子的结果有六种,即出现投掷一枚骼子的结果有六种,即出现16点、出现每点、出现每 种种情况的概率均为情况的概率均为1/6,故熵,故熵 H=log262.585(比特)。(比特)。投掷一枚硬币的结果为正、反面两种,出现的概率均为投掷一枚硬币的结果为正、反面两种,出现的概率均为1/2,故熵故熵 H=log22=1(比特)。(比特)。向石块上猛摔一只鸡蛋,其结果必然是将鸡蛋摔破,出现向石块上猛摔一只鸡蛋,其结果必然是将鸡蛋摔破,出现的概率为的概率为1,故熵,故熵H=log21=0 从例子可以看出,熵实质上反映的是问题的从例子可以看出,熵实质上反映的是问题的“模糊度模糊度”,熵为零,熵为零时问题是完全清楚的,熵越大则问题的模糊程度也越大时问题是完全清楚的,熵越大则问题的模糊程度也越大 第10页,本讲稿共27页离散型概率分布的随机试验,熵的定义为离散型概率分布的随机试验,熵的定义为:(11.5)连续型概率分布的随机试验,熵的定义为连续型概率分布的随机试验,熵的定义为:(11.6)熵具有哪些有趣的性质熵具有哪些有趣的性质 定理定理11.3 若实验仅有有限结果若实验仅有有限结果S1,Sn,其发生的概率分别为,其发生的概率分别为 P1,Pn,则当,则当 时,此实验具有最大熵。时,此实验具有最大熵。此定理既可化为条件极值问题此定理既可化为条件极值问题证明之,也可以利用凸函数性证明之,也可以利用凸函数性质来证明,请大家自己去完成质来证明,请大家自己去完成 第11页,本讲稿共27页定理定理9.4 若实验是连续型随机试验,其概率分布若实验是连续型随机试验,其概率分布P(x)在在a,b区区间以外均为零,则当间以外均为零,则当 P(x)平均分布时具有最大熵。平均分布时具有最大熵。定理定理9.5 对于一般连续型随机试验,在方差一定的前提下,正态分布对于一般连续型随机试验,在方差一定的前提下,正态分布具有最大的熵。具有最大的熵。定理定理9.6 最大熵原理,即受到相互独立且均匀而小的随机因素影响最大熵原理,即受到相互独立且均匀而小的随机因素影响的系统,其状态的概率分布将使系统的熵最大。的系统,其状态的概率分布将使系统的熵最大。上述结果并非某种巧合。根据概率论里的中心极限定理,若试上述结果并非某种巧合。根据概率论里的中心极限定理,若试验结果受到大量相互独立的随机因素的影响,且每一因素的影验结果受到大量相互独立的随机因素的影响,且每一因素的影响均不突出时,试验结果服从正态分布。最大熵原理则说明,响均不突出时,试验结果服从正态分布。最大熵原理则说明,自然现象总是不均匀逐步趋于均匀的,在不加任何限止的情况自然现象总是不均匀逐步趋于均匀的,在不加任何限止的情况下,系统将处于熵最大的均匀状态。下,系统将处于熵最大的均匀状态。第12页,本讲稿共27页例例16 有有12个外表相同的硬币,已知其中有一个是假的,可能轻个外表相同的硬币,已知其中有一个是假的,可能轻些也可能重些。现要求用没有砝码的天平在最少次数中找出假币,些也可能重些。现要求用没有砝码的天平在最少次数中找出假币,问应当怎样称法。问应当怎样称法。解解 假币可轻可重,每枚硬币都可能是假币。故此问题共有假币可轻可重,每枚硬币都可能是假币。故此问题共有 24种情况,每种情况的概率为种情况,每种情况的概率为1/24。所以此问题的熵为。所以此问题的熵为log224。确定最少次数的下界确定最少次数的下界实验最多可能出现实验最多可能出现三种结果三种结果,根据定理根据定理11.3,这种实验在可能出现的各,这种实验在可能出现的各种事件具有相等的概率时,所提供的平均信息量最大,故实验提供的平均种事件具有相等的概率时,所提供的平均信息量最大,故实验提供的平均信息量不超过信息量不超过log23。设最少需称设最少需称k次,则这次,则这k次实验提供的总信息量次实验提供的总信息量 不超过不超过klog23=log23k,又问题的模糊度(熵)为又问题的模糊度(熵)为log224 必要条件必要条件:log23klog224,得,得 k3。第13页,本讲稿共27页称三次足够了吗?称三次足够了吗?实验方法:实验方法:使每次实验使每次实验提供尽可能大的平均信息量。提供尽可能大的平均信息量。第一次第一次:将:将12枚硬币平分成三堆,取两堆称,出现两中情况枚硬币平分成三堆,取两堆称,出现两中情况 情况情况1 两堆重量相等两堆重量相等假币在未秤的假币在未秤的4枚中。任取其中的枚中。任取其中的3枚加上从已秤过的枚加上从已秤过的8枚中任取的枚中任取的1枚,平分成两堆称。出现两种情况枚,平分成两堆称。出现两种情况 情况情况1.1 两堆重量相等两堆重量相等最后剩下的一枚是假币最后剩下的一枚是假币,再再称一次知其比真币轻还是重。称一次知其比真币轻还是重。情况情况1.2 两堆重量不相等两堆重量不相等设右重左轻,并设真币在左边,设右重左轻,并设真币在左边,若假币在右边,则比真币重,若若假币在右边,则比真币重,若在左边,则轻。取右边两个称在左边,则轻。取右边两个称。第14页,本讲稿共27页情况情况2 两堆重量不相等两堆重量不相等设右边较重设右边较重。先从左边取出两枚,再将右边的取两枚。先从左边取出两枚,再将右边的取两枚放到左边,将原来左边的两枚中取出一枚放于右边放到左边,将原来左边的两枚中取出一枚放于右边 情况情况2.1 两堆重量相等两堆重量相等取出的两枚中轻的为假币,取出的两枚中轻的为假币,再称一次即可找出假币。再称一次即可找出假币。情况情况2.2 两堆重量不相等两堆重量不相等若右边较重,则假币在右边原来若右边较重,则假币在右边原来的两枚及左边未动过的一枚中的两枚及左边未动过的一枚中(若为前者,则假币偏重;若为(若为前者,则假币偏重;若为后者,则假币偏轻),于是再称后者,则假币偏轻),于是再称一次即可找出假币。若第二次称一次即可找出假币。若第二次称时左边较重,则假币必在交换位时左边较重,则假币必在交换位置的三枚中,可类似区分真伪置的三枚中,可类似区分真伪。三次是最少次数!三次是最少次数!第15页,本讲稿共27页英文的熵是多少呢?英文的熵是多少呢?例例17 在人类活动中,大量信息是通过文字或语言来表达的,而文学或在人类活动中,大量信息是通过文字或语言来表达的,而文学或语言则是一串符号的组合。据此,我们可以计算出每一语种里每一符号语言则是一串符号的组合。据此,我们可以计算出每一语种里每一符号的平均信息量。例如,表的平均信息量。例如,表11-2、表、表11-3、表、表11-4分别是英语、德语和俄语分别是英语、德语和俄语中每一符号(字母与空格,标点符号不计)在文章中出现的概率的统计中每一符号(字母与空格,标点符号不计)在文章中出现的概率的统计结果(汉语因符号繁多,难以统计)结果(汉语因符号繁多,难以统计)第16页,本讲稿共27页表表11-2(英语)(英语)符符号号iPi符符号号iPi符符号号Pi符符号号Pi空格空格ETOANI0.20.1050.0720.06540.0630.0590.065RSHDLCF0.0540.0520.0470.0350.0290.0230.0225UMPYWGV0.02250.0210.01750.0120.0120.0110.008BKXJQZ0.0050.0030.0020.0010.0010.001第17页,本讲稿共27页表表11-3(德语)(德语)符符号号iPi符符号号iPi符符号号Pi符符号号Pi空格空格ENSIRA 0.1440.1440.08650.06460.06280.06220.0594 DTUHLCG 0.05460.05360.04220.03610.03450.02550.0236 OMBWZVF 0.02110.01720.01380.01130.00920.00790.0078 KPJJQY 0.00710.00670.00280.00080.00050.0000 第18页,本讲稿共27页表表11-4(俄语)(俄语)符符号号iPi符符号号iPi符符号号Pi符符号号Pi空格空格OE ATHC 0.1750.0900.0720.0620.0620.0530.0530.045 PB 0.0400.0380.0350.0280.0260.0250.0230.021 0.0180.0160.0160.0140.0140.0130.0120.010 0.0090.0070.0060.0060.0040.0030.0030.002 第19页,本讲稿共27页以以英文英文为例,可计算得:为例,可计算得:(比特(比特/每符号)每符号)对于有对于有2727个符号的信息源,可能达到的最大平均信息量为:个符号的信息源,可能达到的最大平均信息量为:(比特(比特/每符号)每符号)由此可计算出英语表达的由此可计算出英语表达的多余度多余度为:为:(即(即15%)英文的多余度英文的多余度第20页,本讲稿共27页 事实上,英语在表达意思上的确存在着富余。事实上,英语在表达意思上的确存在着富余。例如例如Q Q后出现后出现U U的概率几乎是的概率几乎是1 1,T T后出现后出现H H的概率的概率也很大,等等。这种多余是完全必要的,没有多也很大,等等。这种多余是完全必要的,没有多余度的语言是死板的,没有文采的,它是存在语余度的语言是死板的,没有文采的,它是存在语法的必要条件。但对于电报编码、计算机文字处法的必要条件。但对于电报编码、计算机文字处理来讲,这种多余度的存在常常会造成浪费。有理来讲,这种多余度的存在常常会造成浪费。有人在上述讨论的基础上研究了符号编码问题,使人在上述讨论的基础上研究了符号编码问题,使得每一符号的平均信息量达到十分接近得每一符号的平均信息量达到十分接近H Hmaxmax的程的程度,但由于译电过于复杂,这种方法尚未实际应度,但由于译电过于复杂,这种方法尚未实际应用。用。第21页,本讲稿共27页信息通道的容量问题信息通道的容量问题 问题背景:问题背景:信息的传递是需要时间的。用信息的传递是需要时间的。用n个符号个符号S1、Sn来表达信息,各符号来表达信息,各符号传递所需时间是各不相同的,设分别为传递所需时间是各不相同的,设分别为t1、tn,并设各符号出现的概率分,并设各符号出现的概率分别为别为p1、pn。这样,就出现了两方面的问题。这样,就出现了两方面的问题。一、一、pi是确定的,如何缩短传递确定信息所需的时间。是确定的,如何缩短传递确定信息所需的时间。二、二、ti是确定的,如何使单位时间传递的平均信息量最大是确定的,如何使单位时间传递的平均信息量最大。单位时间内信息通道能够传递的最大平均信息量单位时间内信息通道能够传递的最大平均信息量称为此称为此信息通道的容量信息通道的容量 第22页,本讲稿共27页如何求信息通道的容量?如何求信息通道的容量?每一符号的平均信息量为:每一符号的平均信息量为:每一符号所需的平均时间为:每一符号所需的平均时间为:故单位时间内传递的平均信息量应为:故单位时间内传递的平均信息量应为:第23页,本讲稿共27页问题化为问题化为:(11.7)利用利用拉格朗日乘子法拉格朗日乘子法,(,(11.7)式可化为)式可化为无约束极值问题无约束极值问题:(11.8)记(记(11.8)式的目标函数为)式的目标函数为f(p,),即求解方程组:,即求解方程组:(11.9)第24页,本讲稿共27页方程组(方程组(11.9)的解为)的解为:由于由于 是与是与pi有关的量,方程组的解仍无法算出有关的量,方程组的解仍无法算出为此,记为此,记则则 ,又,又 得方程得方程 (11.10)记记 ,g(0+)=+,g(+)=0及及g(A)0,知(知(11.10)式有且仅有一个正根,此根容易用牛顿法求)式有且仅有一个正根,此根容易用牛顿法求出,进而求出最佳的出,进而求出最佳的 。第25页,本讲稿共27页例例18 为简单起见,设符号只有四种:为简单起见,设符号只有四种:S1、S2、S3和和S4,在利用这些符,在利用这些符号传递信息时,这些符号分别需要号传递信息时,这些符号分别需要1、2、3、4单位传递时间,试求出此信息单位传递时间,试求出此信息通道的容量及相应的最佳通道的容量及相应的最佳pi值。值。解:解:求解方程求解方程 ,得唯一正根,得唯一正根A=1.92。由由A的定义可以求出此信息通道容量的定义可以求出此信息通道容量:(比特(比特/单位时间)单位时间)而而 第26页,本讲稿共27页货币是人们拥有财富的一种信息,它具有各种面货币是人们拥有财富的一种信息,它具有各种面值(相当于例值(相当于例11.1811.18中的符号),各种面值的平中的符号),各种面值的平均花费时间是不等的(相当于例均花费时间是不等的(相当于例1818中的时间),中的时间),于是,如何控制各种面值的比例以便使货币流通于是,如何控制各种面值的比例以便使货币流通的容量最大显然是一个十分有意义的问题。日本的容量最大显然是一个十分有意义的问题。日本东京工业大学的国泽清典教授基于上述方法计算东京工业大学的国泽清典教授基于上述方法计算了了100100日元与日元与500500日元信用券应保持的比例,并与日元信用券应保持的比例,并与市场实际调查作了对比,发现两者完全一致。市市场实际调查作了对比,发现两者完全一致。市场多次调查结果均为场多次调查结果均为100100日元占日元占75%75%,500500日元占日元占25%25%,而计算结果如下:以百元为单位,令,而计算结果如下:以百元为单位,令t t1 1=1,t=1,t2 2=5=5,求解方程,求解方程 求得正根求得正根A1.327A1.327信息通道容量为信息通道容量为loglog2 2A0.408A0.408(比特(比特/每单位)每单位)第27页,本讲稿共27页