第二章教育信息熵精选PPT.ppt
《第二章教育信息熵精选PPT.ppt》由会员分享,可在线阅读,更多相关《第二章教育信息熵精选PPT.ppt(52页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第二章教育信息熵第二章教育信息熵第二章教育信息熵第二章教育信息熵第1页,本讲稿共52页第一节第一节 熵的概述熵的概述第二节第二节 相对熵与冗余熵相对熵与冗余熵第三节第三节 测试问题的信息量测试问题的信息量第四节第四节 CAI课件中的信息熵课件中的信息熵第五节第五节 教学过程的信息量分析教学过程的信息量分析主要内容主要内容第2页,本讲稿共52页第一节第一节 熵的概述熵的概述一、信息量的表示一、信息量的表示 一般来说,在通信过程中,信源发出的消息对一般来说,在通信过程中,信源发出的消息对收信者来说总是存在着某种程度的不确定性,通过收信者来说总是存在着某种程度的不确定性,通过通信,收信者就可能消除这
2、种不确定性。通信,收信者就可能消除这种不确定性。信息的多少与信源的不确定性有关。研究信息信息的多少与信源的不确定性有关。研究信息的度量可变成研究信源的不确定性的度量。的度量可变成研究信源的不确定性的度量。第3页,本讲稿共52页例例1:现有现有A、B、C、D、E五名学生,以他们作为候选人,需从中五名学生,以他们作为候选人,需从中选出一名学生作为学生代表。选出一名学生作为学生代表。情况一:设定每一名学生被选中的可能性一样(情况一:设定每一名学生被选中的可能性一样(A当选的概率是当选的概率是20%););情况二:设定情况二:设定A当选的概率是当选的概率是90%;情况三:情况三:A一定会当选(一定会当
3、选(A当选的概率是当选的概率是100%)。)。选拔的结果:选拔的结果:A被选中。被选中。第一节第一节第一节第一节 熵的概述熵的概述熵的概述熵的概述第4页,本讲稿共52页 信源输出的消息可以看作是随机事件(数学上对随机事信源输出的消息可以看作是随机事件(数学上对随机事件发生可能性的大小以概率来度量),它的不确定度可根据件发生可能性的大小以概率来度量),它的不确定度可根据其出现的概率来衡量:其出现的概率来衡量:概率大,出现机会多,不确定程度小概率大,出现机会多,不确定程度小 概率小,出现机会少,不确定程度大概率小,出现机会少,不确定程度大以以I记消息包含的信息量,记消息包含的信息量,P记消息发生的
4、概率,记消息发生的概率,0P1,则有:则有:用函数可以表示为:用函数可以表示为:I=f(P)或或I=g(1/P)信息量是概率的单调减函数。信息量是概率的单调减函数。第一节第一节第一节第一节 熵的概述熵的概述熵的概述熵的概述第5页,本讲稿共52页例例2:某人到剧院找朋友,剧院有:某人到剧院找朋友,剧院有20行行30列座位,朋友的位置有列座位,朋友的位置有600种可能。消息种可能。消息A说:说:“他在第他在第6行行”,消息,消息B说:说:“他在第他在第9列列”,合,合成消息成消息C=AB说:他在第说:他在第6行第行第9列列“。由概率论知,由概率论知,P(AB)=P(A)P(B)。但经验告诉人们,消
5、息)。但经验告诉人们,消息C的信息量应该是消息的信息量应该是消息A的信息量与消息的信息量与消息B的信息量之和。的信息量之和。一般地若一般地若A和和B为两个相互独立的消息,为两个相互独立的消息,C代表代表A与与B同时发同时发生的合成消息,生的合成消息,C=AB,则:,则:I I(ABAB)=I=I(A A)+I+I(B B)当当A、B不是独立事件时,不是独立事件时,I I(ABAB)II(A A)+I+I(B B)信息量具有可加性。信息量具有可加性。第一节第一节第一节第一节 熵的概述熵的概述熵的概述熵的概述第6页,本讲稿共52页 信息量是概率的单调减函数信息量是概率的单调减函数I=g(1/P),
6、同时信息量又具有可加性同时信息量又具有可加性I(AB)=I(A)+I(B)。那么信息量可以用什么函数表示?那么信息量可以用什么函数表示?对数函数是可供选用的合适的函数,对数函数是可供选用的合适的函数,logak随随k值的增大而增大,且值的增大而增大,且loga(kl)=logak+logal第一节第一节第一节第一节 熵的概述熵的概述熵的概述熵的概述第7页,本讲稿共52页 设某一事件产生的概率为设某一事件产生的概率为p,则信息量可定义为:,则信息量可定义为:I=loga(1/P)=-logaP其中,其中,a1a2时,单位为时,单位为bit(比特),字位(比特),字位ae时,单位为时,单位为nat
7、(奈特),自然对数(奈特),自然对数lna10时,单位为时,单位为dit(迪特)。常用对数(迪特)。常用对数lg通常情况下,我们选择以通常情况下,我们选择以2为底数,此时信息量的单位为比特。为底数,此时信息量的单位为比特。信息量定义信息量定义信息量定义信息量定义 以概率以概率p p00发生的可能消息发生的可能消息A A所包含的信息量所包含的信息量I I(A A)是概率是概率p p的倒数的对数:的倒数的对数:I I(A A)=log=log2 21/p;1/p;或或 I I(A A)=-log=-log2 2 p p补充规定:补充规定:若若P P=0=0,I I=0=0信息量的单位为信息量的单位
8、为字位(字位(字位(字位(bitbitbitbit)第一节第一节第一节第一节 熵的概述熵的概述熵的概述熵的概述第8页,本讲稿共52页例例3 3:投掷硬币,消息:投掷硬币,消息A A代表麦穗朝下,发生概率为代表麦穗朝下,发生概率为P P(A A)=0.5)=0.5,求其信求其信息量。息量。例例4 4:工会有一批水果发给会员,其中优质品为:工会有一批水果发给会员,其中优质品为40%40%,合格品,合格品为为55%55%,次品为,次品为5%5%。发放规则为随意抓号,按号取货,不许挑。发放规则为随意抓号,按号取货,不许挑拣。问;王东拿到次品这一消息的信息量是多少?拣。问;王东拿到次品这一消息的信息量是
9、多少?I(A)=log20.5=log22-1=1bitI=-log20.05=4.32bit第一节第一节第一节第一节 熵的概述熵的概述熵的概述熵的概述第9页,本讲稿共52页二、信息熵二、信息熵1 1 1 1、信息熵定义、信息熵定义、信息熵定义、信息熵定义 设发送端的可能消息集合为:设发送端的可能消息集合为:X=X=(X X1 1,X,X2 2,X,Xn n),各可能消息分别按概各可能消息分别按概率率P P1 1,P,P2 2,,P Pn n发生,并满足归一性条件:发生,并满足归一性条件:P P1 1+P+P2 2+P+Pn n=1=1。按一定的概。按一定的概率从集合率从集合X X中随机选择消
10、息发送,形成一个消息序列。设序列中包含的中随机选择消息发送,形成一个消息序列。设序列中包含的消息总数为消息总数为N N,N N非常大。在统计意义上,该序列中包含的消息非常大。在统计意义上,该序列中包含的消息X Xi i的数目的数目为为P Pi iN N个,所有个,所有X Xi i包含的信息量为包含的信息量为-(P Pi iN N)loglog2 2P Pi i。将序列中所有消息包含的信。将序列中所有消息包含的信息量之和除以息量之和除以N N,得到序列中每个可能信息的平均信息量为:,得到序列中每个可能信息的平均信息量为:H=-H=-(P P1 1loglog2 2P P1 1+P P2 2log
11、log2 2P P2 2+P Pn nloglog2 2P Pn n)=-)=-H H是可能消息集合是可能消息集合X X的整体平均信息量,亦即单位消息的信息量。的整体平均信息量,亦即单位消息的信息量。可能消息集合可能消息集合X=X=(X X1 1,X,X2 2,X,Xn n)的整体平均信息量称为信息熵,简称为)的整体平均信息量称为信息熵,简称为熵。熵。第一节第一节第一节第一节 熵的概述熵的概述熵的概述熵的概述2第10页,本讲稿共52页例例6 6:还是工会发水果的例子。计算其信息熵:还是工会发水果的例子。计算其信息熵:消息集合消息集合X=X=(优质品,合格品,次品),(优质品,合格品,次品),各
12、消息可能出现的概率为:(各消息可能出现的概率为:(0.4,0.55,0.050.4,0.55,0.05)其信息熵为:其信息熵为:H=-H=-(0.4log0.4log2 20.4+0.55log0.4+0.55log2 20.55+0.05log0.55+0.05log2 20.050.05)=1.22=1.22(bitbit)例例5:设某一系统具有四种状态(或四种事件设某一系统具有四种状态(或四种事件)A1、A2、A3、A4,其产生的,其产生的概率分别为概率分别为p11/2,p2=1/4,p3=1/8,p4=1/8,求该系统中任一状态产生时所给予的平求该系统中任一状态产生时所给予的平均信息量
13、。均信息量。第一节第一节第一节第一节 熵的概述熵的概述熵的概述熵的概述22222第11页,本讲稿共52页三、熵的意义三、熵的意义 熵的大小可用于表示概率系统的不确定程度。熵的大小可用于表示概率系统的不确定程度。例例8:设某一概率系统中,其概率分布是均匀的,它表示系统中每一:设某一概率系统中,其概率分布是均匀的,它表示系统中每一事件产生的概率相等。对于这样的系统,我们很难预测某一事件的产事件产生的概率相等。对于这样的系统,我们很难预测某一事件的产生,这种系统的不确定性最大。该系统的信息熵具有最大值(在相同生,这种系统的不确定性最大。该系统的信息熵具有最大值(在相同事件数的情况下)。事件数的情况下
14、)。例例7:设某一概率系统中,每一事件产生的概率分布为:设某一概率系统中,每一事件产生的概率分布为:(1,0,0)。它表示,该系统中某一事件产生的概率为)。它表示,该系统中某一事件产生的概率为1,其,其他事件产生的概率为他事件产生的概率为0,这是一个确定系统,不确定度为,这是一个确定系统,不确定度为0。计。计算该系统的信息熵,有算该系统的信息熵,有H=0。第一节第一节第一节第一节 熵的概述熵的概述熵的概述熵的概述第12页,本讲稿共52页例例9:设概率系统:设概率系统A、B的分布为:的分布为:pA=(0.5,0.5,0,0,0)pB=(0.5,0.125,0.125,0.125,0.125)请比
15、较它们哪一个系统的不确定程度大。请比较它们哪一个系统的不确定程度大。分析:为了进行这种比较,我们计算它们的信息熵,并以计算出的信分析:为了进行这种比较,我们计算它们的信息熵,并以计算出的信息熵,对它们的不确定程度进行定量的比较。通过息熵,对它们的不确定程度进行定量的比较。通过A A、B B系统信息熵的系统信息熵的计算,有计算,有 H(pA)=1(bit)H(pB)=2(bit)由此可以判定系统由此可以判定系统B B的不确定程度是系统的不确定程度是系统A A的两倍。的两倍。第一节第一节第一节第一节 熵的概述熵的概述熵的概述熵的概述第13页,本讲稿共52页四、信息熵的基本性质四、信息熵的基本性质1
16、 1、单峰性(极值性)、单峰性(极值性)设某一系统包含两个事件设某一系统包含两个事件A、B,其产生的概率分别为,其产生的概率分别为p和和1-p。该系统的熵为。该系统的熵为H=-plog2p+(1-p)log2(1-p)H-P图具有单峰性的特点图具有单峰性的特点。对于由对于由n个事件组成的系统,个事件组成的系统,其信息熵也同样具有单峰性。当系其信息熵也同样具有单峰性。当系统中每一事件产生的概率相同时,统中每一事件产生的概率相同时,系统的熵最大。系统的熵最大。第一节第一节第一节第一节 熵的概述熵的概述熵的概述熵的概述第14页,本讲稿共52页2 2、对称性、对称性 某系统中某系统中n个事件的概率分布
17、为个事件的概率分布为:(p1,p2,pn)当我们对事件位置的顺序进行任意的置换后,得到新的概率当我们对事件位置的顺序进行任意的置换后,得到新的概率分布分布:(p1,p2,pn)有以下关系成立:有以下关系成立:H(p1,p2,pn)=H(p1,p2,pn)它表示,系统中,事件的顺序虽不同,只要总的概率它表示,系统中,事件的顺序虽不同,只要总的概率分布相同,系统的熵分布相同,系统的熵H是不变的,即系统的熵与事件的顺是不变的,即系统的熵与事件的顺序无关。序无关。第一节第一节第一节第一节 熵的概述熵的概述熵的概述熵的概述第15页,本讲稿共52页3、渐化性、渐化性 设概率为设概率为pn(=q+r)的事件
18、可分解为概率分别为的事件可分解为概率分别为q和和r的两个事的两个事件,则有件,则有H(p1,p2,pn-1,q,r)=H(p1,p2,pn-1,q+r)+(q+r)H(q/(q+r),r/(q+r)例例10:H(p1,p2,p3,p4)=H(p1,p2,p3+p4)+(p3+p4)H(p3/(p3+p4),p4/(p3+p4)H(p1,p2,p3+p4)=H(p1,p2+p3+p4)+(p2+p3+p4)H(p2/(p2+p3+p4)+(p3+p4)/(p2+p3+p4)第一节第一节第一节第一节 熵的概述熵的概述熵的概述熵的概述第16页,本讲稿共52页4 4、展开性、展开性 设某一系统的概率分
19、布为:设某一系统的概率分布为:(p1,p2,pn)该系统的信息熵具有该系统的信息熵具有H(p1,p2,pn)=H(p1,p2,pn,0)这样的展开性质。在此基础上,进一步展开,有这样的展开性质。在此基础上,进一步展开,有H(p1,p2,pn)=H(p1,p2,pn,0,0)第一节第一节第一节第一节 熵的概述熵的概述熵的概述熵的概述第17页,本讲稿共52页5 5、确定性、确定性 概率系统中,任一事件产生的概率为概率系统中,任一事件产生的概率为1,则其他事件,则其他事件产生的概率为产生的概率为0,这是一种确定的系统。对于这样的系统,这是一种确定的系统。对于这样的系统,有有 H(1,0)=H(0,1
20、)=H(1,0,0)=H(0,0,10)=0 从上述的讨论可以看出,熵所描述的不是一个一个的事件,从上述的讨论可以看出,熵所描述的不是一个一个的事件,而是而是表现有关概率系统整体概率分布状态的统计特征量表现有关概率系统整体概率分布状态的统计特征量。系。系统的熵是通过实测数据进行计算的,往往我们将它作为一种统统的熵是通过实测数据进行计算的,往往我们将它作为一种统计量来使用。计量来使用。第一节第一节第一节第一节 熵的概述熵的概述熵的概述熵的概述第18页,本讲稿共52页第二节第二节 相对熵与冗余度相对熵与冗余度英语字母共有英语字母共有26个,加上空格,共计个,加上空格,共计27个符号,若假定所有个符
21、号,若假定所有符号彼此独立且等概率,那么这样的英语系统具有最大熵,其符号彼此独立且等概率,那么这样的英语系统具有最大熵,其熵值为:熵值为:Hmaxlog2274.75bit实际上,所有字母不是等概的,空格、实际上,所有字母不是等概的,空格、E、T、A等字母出现的概率等字母出现的概率大,而大,而Q、Z等字母出现的概率小。等字母出现的概率小。第19页,本讲稿共52页根据上表,可以计算出熵根据上表,可以计算出熵H4.065bit。由于每种字符出现的概率不同,使得实际使用英语的熵由于每种字符出现的概率不同,使得实际使用英语的熵H减少,即减少,即HHmax第二节第二节第二节第二节 相对熵与冗余度相对熵与
22、冗余度相对熵与冗余度相对熵与冗余度第20页,本讲稿共52页联合国五种工作语言文字的信息熵比较:联合国五种工作语言文字的信息熵比较:法文法文3.98bit西班牙文西班牙文4.01bit英文英文4.03bit俄文俄文4.35bit中文中文9.65bit第二节第二节第二节第二节 相对熵与冗余度相对熵与冗余度相对熵与冗余度相对熵与冗余度第21页,本讲稿共52页一、相对信息熵一、相对信息熵 一个实际系统输出的熵一个实际系统输出的熵H(X)与其最大可能的熵与其最大可能的熵Hmax(X)的比值的比值定义为相对熵,用定义为相对熵,用h表示。表示。hH/Hmax 信息熵的计算与系统中事件数的多少有关,它不利于我
23、们对信息熵的计算与系统中事件数的多少有关,它不利于我们对不同系统的熵进行比较;相对信息熵的计算有利于我们对不同系不同系统的熵进行比较;相对信息熵的计算有利于我们对不同系统的信息熵进行比较。统的信息熵进行比较。第二节第二节第二节第二节 相对熵与冗余度相对熵与冗余度相对熵与冗余度相对熵与冗余度第22页,本讲稿共52页二、冗余度二、冗余度 冗余度或剩余度可定义为:冗余度或剩余度可定义为:r1-H/Hmax 冗余度表示了由于每种字符出现的概率不同而使信息熵减冗余度表示了由于每种字符出现的概率不同而使信息熵减少的程度。它表示了传递信息时,不必要的冗长部分的比例。少的程度。它表示了传递信息时,不必要的冗长
24、部分的比例。第二节第二节第二节第二节 相对熵与冗余度相对熵与冗余度相对熵与冗余度相对熵与冗余度第23页,本讲稿共52页第二节第二节第二节第二节 相对熵与冗余度相对熵与冗余度相对熵与冗余度相对熵与冗余度设以英语的设以英语的N个字符书写文章时,其平均信息量为个字符书写文章时,其平均信息量为H,总的信息量为,总的信息量为NH。若以。若以27个字符均匀出现的字符序列来表示相同的内容,相同的信息个字符均匀出现的字符序列来表示相同的内容,相同的信息量,由于此时的平均信息量为量,由于此时的平均信息量为Hmax,所需的字符数一定少于,所需的字符数一定少于N,令其,令其为为Nmin,则为,则为NminHmax=
25、NH Nmin=(H/Hmax)N=hN它表示,以具有它表示,以具有Hmax的的27种字符书写文章,只需要种字符书写文章,只需要Nmin=hN个字符。个字符。冗余度为:冗余度为:r=1-H/Hmax=(N-Nmin)/N它表明,以效率更高的代码来描述指定的内容,与实际使用它表明,以效率更高的代码来描述指定的内容,与实际使用的英语相比较,其字符总数可减少的英语相比较,其字符总数可减少r%。第24页,本讲稿共52页假如有:假如有:我们大我们大_都喜都喜_使使_计计_机。机。不用很多努力,就可以猜出完整的句子:不用很多努力,就可以猜出完整的句子:我们大家都喜欢使用计算机。我们大家都喜欢使用计算机。香
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第二 教育 信息 精选 PPT
限制150内