《信息熵及其应用ppt课件.ppt》由会员分享,可在线阅读,更多相关《信息熵及其应用ppt课件.ppt(40页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、平均信息熵及其应用 丁 勇 南京医科大学数学教研室 信息能否度量 ?物质、能量和信息是构成客观世界的三大要素。物质、能量和信息是构成客观世界的三大要素。信息(信息(informationinformation)是什么)是什么? ?至今信息还没有一个公认的定义至今信息还没有一个公认的定义一般定义:常常把消息中有意义的内容称为信息。一般定义:常常把消息中有意义的内容称为信息。认识问题的过程:认识问题的过程: 当我们对一问题毫无了解时,对它的当我们对一问题毫无了解时,对它的认识是不确定的,在对问题的了解过程中,认识是不确定的,在对问题的了解过程中,通过各种途径获得信息,逐渐消除了不确通过各种途径获得
2、信息,逐渐消除了不确定性,获得的信息越多,消除的不确定性定性,获得的信息越多,消除的不确定性也越多。我们可以用也越多。我们可以用消除不确定性的多少消除不确定性的多少来度量信息量的大小。来度量信息量的大小。例:会堂有20排、每排20个座位。找一个人。甲告诉消息:此人在第10排;乙告诉消息:此人在第10排、第10座。是否存在信息量的度量公式是否存在信息量的度量公式 ?1948年,美国数学家、信息论的年,美国数学家、信息论的创始人创始人Shannon在题为在题为“通讯的通讯的数学理论数学理论”的论文中指出:的论文中指出:“信信息是用来消除随机不定性的东息是用来消除随机不定性的东西西”。并。并应用应用
3、概率论知识和逻辑概率论知识和逻辑方法方法推导出了信息量的计算公式推导出了信息量的计算公式 Claude Elwood Shannon (April 30, 1916 - February 24, 2001) has been called the father of information theory. 公理公理1:信息量是事件发生概率的连续函数;:信息量是事件发生概率的连续函数;公理公理2:信息量是有限值;:信息量是有限值;公理公理3:如果事件:如果事件A和事件和事件B的发生是相互独立的,则的发生是相互独立的,则获知事件获知事件A和事件和事件B将同时发生的信息量是单独获知两将同时发生的信息
4、量是单独获知两事件发生的信息量之和。事件发生的信息量之和。设事件发生的概率为P,则满足上述公理的信息量函数为pIpcIalnlog 为应用方便,可取c=1,a=e,单位为奈特(nat)信息量函数信息量函数 I= -lnp 如何体现不确定性的消除?如何体现不确定性的消除?pMNAAMNMNAAMNAMNpNMAPlnlnlnlnln,)( 定性为发生后,共消除的不确从而获知事件所包含的不确定性为事件看成总的不确定性,将联系起来又能和事件发生的概率响数值大小的单调性,将变量取对数后,不影定性为发生后,共消除的不确从而获知事件所包含的不确定性为事件看成总的不确定性,将所包含的基本事件数为事件为基本事
5、件总数,其中设例:会堂有20排、每排20个座位。找一个人。甲告诉消息(A):此人在第10排;乙告诉消息(B):此人在第10排、第10座。991.54001ln,20201)(996.2201ln,201)(991.5400lnlnIBPIAPN 总不确定性由信息量公式 I= -lnp 可知 I 是 p 的单调下降函数信息熵(entropy )的概念 设离散型随机变量X的概率分布为 X的信息熵定义为“加权平均信息量” 111211211,10)(niiinnnnppppppxxxxxpX 111lnlnniiiniippHpI 信息熵的直观意义 变量的不确定性越大,熵也就越大,把它搞清楚变量的不
6、确定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。所需要的信息量也就越大。 一个系统越是有序,信息熵就越低;反之,一个一个系统越是有序,信息熵就越低;反之,一个系统越是混乱,信息熵就越高。所以,信息熵也可以系统越是混乱,信息熵就越高。所以,信息熵也可以说是系统有序化程度的一个度量。说是系统有序化程度的一个度量。X 甲赢 乙赢P 0.9 0.1H 0.325X 甲赢 乙赢P 0.5 0.5H 0.693熵的性质 连续非负性 对称性 扩展性 可加性 极值性:nHpppnnln,21 熵取得最大值同时,即事件发生的可能性相时当 1948年,Shannon提出了熵的概念,并以此作为信息的度量,
7、宣告了信息论作为一门科学学科的诞生。 近年来,随着计算机应用的发展和信息时代的来临,信息论理论和应用的研究更显示出其重要意义。应用1:识别假币有有12枚外形相同的硬币,其枚外形相同的硬币,其中一枚是假币(重量略有不中一枚是假币(重量略有不同),如何用没有砝码的天同),如何用没有砝码的天平用最少次数找出假币?平用最少次数找出假币?每个硬币可能是真,也可能是假,每个硬币可能是真,也可能是假,且假币可能重一些,也可能轻一些,且假币可能重一些,也可能轻一些,故共有故共有24种可能,不确定性为种可能,不确定性为ln24。)1 ,0,0()0,0,1()1 ,0,0()0,0,1( 将硬币分成将硬币分成3
8、份,其中份,其中2部分在部分在天平的两边。实验结果有天平的两边。实验结果有3种可种可能性:假币在天平左边、右边、能性:假币在天平左边、右边、不在天平上。不在天平上。当当3种可能性概率相同时,种可能性概率相同时,熵最大,因此每次实验提供熵最大,因此每次实验提供的最大信息熵为的最大信息熵为ln3。设至。设至少秤少秤k次,次, k次实验提供的次实验提供的信息熵最多为信息熵最多为kln3,有有ln24=kln3可得可得k至少为至少为3。应用应用2:熵与参数估计的似然函数:熵与参数估计的似然函数熵估计最大似然估计即为最小率,较大时,频率近似为概当取对数似然函数为个,有设相同的写在一起为来自总体的样本,将
9、、的分布律为设miiiiimiiimiiikmkkniimiiniippnLpnknpnknpkLpppxXPLnkkkkxxxxmipxXPXm1112112121)ln(ln)ln(lnln)(,2, 1)()(21 应用应用3:群体遗传学:群体遗传学?pAbabbaAbabbaaaaAAaAAaA大基因型分布的熵何时最的情况下设为的概率确定问在基因的概率为则基因设基因型概率分布为记两个等位基因为 ,)(2221221122;,AaAa 22)1 ()1 ()1 (ppppppaaaAAaAA为基因型最大熵概率分布)1(2,:),(,2)1ln()1(2ln22ln2ln),(:2ppbp
10、abafpbabababbbbaabaf解得最大值求函数条件下即在基因型分布的熵为解babbaaaaAAaAA122 基因型概率分布为由此可见,无论第一代基因型概率分布为何值,第二代基因型熵即达到最大)1 (),1 (),1 (,(),(122ppppppaaaAAaAAppaA 的概率为则第二代基因型因概率分布为另一方面,设第一代基 多对等位基因多对等位基因也有相同的结论也有相同的结论AaBbAaBbHardyWeinberg 平衡(HW平衡)定律 一个随机交配的群体中,等位基因频率保持不变,基因型频率至多经过一个世代也将保持不变。问题的提出 在信息论中,如何评价信源提供信息量的多少,是一个
11、值得探讨的问题。 现在用的是相对率的概念,是以信息熵与最大信息熵之比 作为依据的。 问题:该值多大才算提供较多的信息量? nXHnln/ )(问题的设想 提出平均信息熵作为评价依据。 在信息论中也是如此,当信源提供的信息量达到或超过平均信息熵时,可认为已提供了较多的信息。 以学习成绩比较为例,众所周知,成绩好坏,除了与最高分比较,更多的是与平均成绩比较,当某个学生的成绩超过平均成绩时,说明该生的成绩较好,否则说明应该发奋努力了。问题的解决 提出了平均信息熵的概念 推导了计算公式、性质 给出了应用:作为信源提供信息量多少的评价依据。 平均值概念的推广平均值概念的推广nVnnVnnGGGbabab
12、adxdxdxdxdxdxxxxfyVxxxxxxfydxdxdxdxxxfdxdxxxfGyGxxxxfydxdxxfdxxfabybaxxfy212121212121212121212121),(),(),(),(),(1),(),(/)()(1,)( 一般情况的面积二元函数一元函数平均信息熵的定义1, 0| ),(),(110ln)(12121212111111211 niiinnVnnnVnniiiniiinnpppppVdpdpdpdpdpdppppHHpppppppH定义平均信息熵为,已知信息熵!11, 0| ),(21121ndtdtdttttttnniiin 010110111
13、121221211121212111122111211!1/1)!1(1)ln(),(1)!1(1)1ln()1 ()ln(nininVnniiiVnVnnnVnninniiniiniiininndpdpdpdpdpdpppdpdpdpdpdpdppppHHindtdtdtttdtdtdttt 平均信息熵公式niniH21n23456789100.50.83 1.08 1.28 1.45 1.59 1.72 1.83 1.93nH平均信息熵的性质 平均信息量至少 占最大值72%的单调递增函数是的单调递增函数是nninHniHninninln1ln122平均信息熵的性质0lim,ln11nnnn
14、irrCni 欧拉公式:1ln13121nrCnn 可知由C为欧拉常数,近似值约为欧拉常数,近似值约0.5772,已计算到了,已计算到了108,000,000位,目前还不知道它是有理数还是无理数位,目前还不知道它是有理数还是无理数。平均信息熵的性质niniinininiiiCiiindtdtdttt22122111) 1(1)!1(1)ln( 可得由平均信息熵的性质 随机变量X的函数f(X)的平均信息熵: 当f为单调函数时, )()(XHXfH)()(XHXfH平均信息熵的性质 等值面 nininiiniiiHpppp1111)1ln()1 (ln等值面位于如下的多面体中: 11 ; , ,
15、2 , 1 ,0| ),(1*21niiinppnipppppB1ln) 1()1ln()1 (lnnHnppppp其中p*为下式的解 平均信息熵的性质 ln, 1; 1, 2, 1, 0| ),(11111121nniiiniiinHxxxnixxxx 等值面外的点组成一个凸集 ),(212ppH65),(212ppH应用1:食物营养价值的评价 食物中蛋白质的氨基酸种类多、组成复杂,营养丰富,对机体的生长发育有利,我们可根据蛋白质的氨基酸组成比率计算信息熵,并与平均信息熵比较,作为评价营养价值的一个依据 稻米中8种氨基酸营养当量X分布表 苏氨酸 0.049 缬氨酸 0.120 蛋氨酸 0.1
16、13异亮氨酸 0.113 亮氨酸 0.115 苯丙氨酸 0.134赖氨酸 0.08 色氨酸 0.231 稻米中 大部分氨基酸可在人体内合成,但这8种氨基酸需从食物中摄取,可知稻米的营养价值是非常丰富的 。72.1)(03.2)(88XHXH王德仁,等施氮对稻米蛋白质、氨基酸含量的影响J植物营养与肥料学报2001,7(3):353-6 应用:基因信息熵 根据四个碱基出现的概率,7个物种细胞色素C基因的信息熵如下表,由表可知,无论是高等生物还是低等生物,其信息熵都远大于平均信息熵Human 1.9966 Chicken 1.9886Yeast 1.9817 Rat 1.9699Mouse 1.95
17、99 Bovine 1.9582D.melangaster 1.9529 5629. 14HLIMBACH,K.J. & WU, R. Isolation and characterization of two alleles of the chicken cytochrome c gene J. Nucl. Acid Res. 1983(11):8931-8941NISHIKIMI,M.,SUZUKI,H.,SHGOOHTA,Y.,SAKURAI,T.,SHMOONNURA,Y.,TANAKA,M. et al. Isolation of a cDNA clonefor human cytochrome c:from a gt11 expression library J. Biochemical and Biophysical Research communications,1987(145):34-44应用:英文字母信息熵计算机键盘设计参考了英文字母在文章中出现的频率,根据英文26个字母及空格出现的频率,可求出其信息熵(bit)为 17.405.42727HH由此可知,大自然基因的“天书”信息量更丰富,比人类用英文字母写的文章更复杂,读懂它任重而道远。 抛砖引玉 如何将本问题推广到连续性随机变量?谢谢!
限制150内