第二章-教育信息熵课件.ppt
《第二章-教育信息熵课件.ppt》由会员分享,可在线阅读,更多相关《第二章-教育信息熵课件.ppt(53页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、2022-4-171第一节第一节 熵的概述熵的概述第二节第二节 相对熵与冗余熵相对熵与冗余熵第三节第三节 测试问题的信息量测试问题的信息量第四节第四节 CAI课件中的信息熵课件中的信息熵第五节第五节 教学过程的信息量分析教学过程的信息量分析2022-4-172一、信息量的表示一、信息量的表示 一般来说,在通信过程中,信源发出的消息对一般来说,在通信过程中,信源发出的消息对收信者来说总是存在着某种程度的不确定性,通过收信者来说总是存在着某种程度的不确定性,通过通信,收信者就可能消除这种不确定性。通信,收信者就可能消除这种不确定性。 信息的多少与信源的不确定性有关。研究信息信息的多少与信源的不确定
2、性有关。研究信息的度量可变成研究信源的不确定性的度量。的度量可变成研究信源的不确定性的度量。2022-4-173例例1:现有现有A、B、C、D、E五名学生,以他们作为候选人,五名学生,以他们作为候选人,需从中选出一名学生作为学生代表。需从中选出一名学生作为学生代表。情况一:设定每一名学生被选中的可能性一样(情况一:设定每一名学生被选中的可能性一样(A当选的概当选的概率是率是20%););情况二:设定情况二:设定A 当选的概率是当选的概率是90%;情况三:情况三:A一定会当选(一定会当选( A 当选的概率是当选的概率是100%)。)。选拔的结果:选拔的结果:A 被选中。被选中。2022-4-17
3、4 信源输出的消息可以看作是随机事件(数学上对随信源输出的消息可以看作是随机事件(数学上对随机事件发生可能性的大小以概率来度量),它的不确定机事件发生可能性的大小以概率来度量),它的不确定度可根据其出现的概率来衡量:度可根据其出现的概率来衡量: 概率大,出现机会多,不确定程度小概率大,出现机会多,不确定程度小 概率小,出现机会少,不确定程度大概率小,出现机会少,不确定程度大以以I记消息包含的信息量,记消息包含的信息量,P记消息发生的概率,记消息发生的概率,0P1,则有:则有: 用函数可以表示为:用函数可以表示为: I=f(P) 或或 I= g(1/P)信息量是概率的单调减函数。信息量是概率的单
4、调减函数。2022-4-175例例2:某人到剧院找朋友,剧院有:某人到剧院找朋友,剧院有20行行30列座位,朋友的位列座位,朋友的位置有置有600种可能。消息种可能。消息A说:说:“他在第他在第6行行”,消息,消息B说:说:“他在第他在第9列列”,合成消息,合成消息C=AB说:他在第说:他在第6行第行第9列列“。 由概率论知,由概率论知,P(AB)=P(A)P(B)。但经验告诉)。但经验告诉人们,消息人们,消息C的信息量应该是消息的信息量应该是消息A的信息量与消息的信息量与消息B的信的信息量之和。息量之和。 一般地若一般地若A和和B为两个相互独立的消息,为两个相互独立的消息,C代表代表A与与B
5、同时同时发生的合成消息,发生的合成消息,C=AB,则:,则: I I(ABAB)=I=I(A A)+I+I(B B) 当当A、B不是独立事件时,不是独立事件时, I I(ABAB)II(A A)+I+I(B B)信息量具有可加性。信息量具有可加性。2022-4-176 信息量是概率的单调减函数信息量是概率的单调减函数I= g(1/P) , 同时信息量又具有可加性同时信息量又具有可加性I(AB)=I(A)+I(B) 。 那么信息量可以用什么函数表示?那么信息量可以用什么函数表示?对数函数是可供选用的合适的函数,对数函数是可供选用的合适的函数, logak 随随k值的增大而增大,且值的增大而增大,
6、且 loga(kl)=logak + logal2022-4-177 设某一事件产生的概率为设某一事件产生的概率为p,则信息量可定义为:,则信息量可定义为: I =loga(1/P)=-logaP 其中,其中,a1 a2时,单位为时,单位为bit(比特),字位(比特),字位 ae时,单位为时,单位为nat(奈特),自然对数(奈特),自然对数ln a10时,单位为时,单位为dit(迪特)。常用对数(迪特)。常用对数lg 通常情况下,我们选择以通常情况下,我们选择以2为底数,此时信息量的单位为比特。为底数,此时信息量的单位为比特。 以概率以概率p p00发生的可能消息发生的可能消息A A所包含的信
7、息量所包含的信息量I I(A A)是概率是概率p p的倒数的对数:的倒数的对数: I I(A A)=log=log2 21/p;1/p;或或 I I(A A)=-log=-log2 2 p p补充规定:补充规定: 若若P P=0 =0 , I I=0=0信息量的单位为信息量的单位为2022-4-178例例3 3:投掷硬币,消息:投掷硬币,消息A A代表麦穗朝下,发生概率为代表麦穗朝下,发生概率为P P( (A A)=0.5)=0.5, 求其信息量。求其信息量。 例例4 4:工会有一批水果发给会员,其中优质品为:工会有一批水果发给会员,其中优质品为40%40%,合格,合格品为品为55%55%,次
8、品为,次品为5%5%。发放规则为随意抓号,按号取货,。发放规则为随意抓号,按号取货,不许挑拣。问;王东拿到次品这一消息的信息量是多少?不许挑拣。问;王东拿到次品这一消息的信息量是多少? I(A)=log20.5= log22-1=1bitI=-log20.05=4.32bit2022-4-179二、信息熵二、信息熵 设发送端的可能消息集合为:设发送端的可能消息集合为:X=X=(X X1 1,X,X2 2, ,X,Xn n), ,各可能消息各可能消息分别按概率分别按概率P P1 1,P,P2 2, ,,P Pn n发生,并满足归一性条件:发生,并满足归一性条件: P P1 1+P+P2 2+ +
9、P+Pn n=1=1。按一定的概率从集合。按一定的概率从集合X X中随机选择消息发送,形中随机选择消息发送,形成一个消息序列。设序列中包含的消息总数为成一个消息序列。设序列中包含的消息总数为N N,N N非常大。在统计非常大。在统计意义上,该序列中包含的消息意义上,该序列中包含的消息X Xi i的数目为的数目为P Pi iN N个,所有个,所有X Xi i包含的信息包含的信息量为量为- -(P Pi iN N)loglog2 2P Pi i。将序列中所有消息包含的信息量之和除以。将序列中所有消息包含的信息量之和除以N N,得到序列中每个可能信息的平均信息量为:得到序列中每个可能信息的平均信息量
10、为: H=- H=-(P P1 1loglog2 2P P1 1+ + P P2 2loglog2 2P P2 2+ + + P Pn nloglog2 2P Pn n)=-)=- H H是可能消息集合是可能消息集合X X的整体平均信息量,亦即单位消息的信息量。的整体平均信息量,亦即单位消息的信息量。可能消息集合可能消息集合X =X =(X X1 1,X,X2 2, ,X,Xn n)的整体平均信息量称为信)的整体平均信息量称为信息熵,简称为熵。息熵,简称为熵。niiipp1log22022-4-1710例例6 6:还是工会发水果的例子。计算其信息熵:还是工会发水果的例子。计算其信息熵: 消息集
11、合消息集合X=X=(优质品,合格品,次品),(优质品,合格品,次品), 各消息可能出现的概率为:(各消息可能出现的概率为:(0.4, 0.55, 0.050.4, 0.55, 0.05) 其信息熵为:其信息熵为: H=-H=-(0.4log0.4log2 20.4+0.55log0.4+0.55log2 20.55+0.05log0.55+0.05log2 20.050.05)=1.22=1.22(bitbit)例例5: 设某一系统具有四种状态(或四种事件设某一系统具有四种状态(或四种事件)A1、A2、A3、A4,其,其产生的概率分别为产生的概率分别为p11/2, p2=1/4, p3=1/8
12、, p4=1/8,求该系统中任一状态求该系统中任一状态产生时所给予的平均信息量。产生时所给予的平均信息量。222222022-4-1711三、熵的意义三、熵的意义 熵的大小可用于表示概率系统的不确定程度。熵的大小可用于表示概率系统的不确定程度。例例8:设某一概率系统中,其概率分布是均匀的,它表示系:设某一概率系统中,其概率分布是均匀的,它表示系统中每一事件产生的概率相等。对于这样的系统,我们很难统中每一事件产生的概率相等。对于这样的系统,我们很难预测某一事件的产生,这种系统的不确定性最大。该系统的预测某一事件的产生,这种系统的不确定性最大。该系统的信息熵具有最大值(在相同事件数的情况下)。信息
13、熵具有最大值(在相同事件数的情况下)。例例7:设某一概率系统中,每一事件产生的概率分布为:设某一概率系统中,每一事件产生的概率分布为:(1,0,0)。它表示,该系统中某一事件产生的概率为)。它表示,该系统中某一事件产生的概率为1,其他事件产生的概率为其他事件产生的概率为0,这是一个确定系统,不确定度为,这是一个确定系统,不确定度为0。计算该系统的信息熵,有计算该系统的信息熵,有H=0。2022-4-1712例例9:设概率系统:设概率系统A、B的分布为:的分布为: pA=(0.5,0.5,0,0,0) pB=(0.5,0.125,0.125,0.125,0.125) 请比较它们哪一个系统的不确定
14、程度大。请比较它们哪一个系统的不确定程度大。分析:为了进行这种比较,我们计算它们的信息熵,并以计分析:为了进行这种比较,我们计算它们的信息熵,并以计算出的信息熵,对它们的不确定程度进行定量的比较。通过算出的信息熵,对它们的不确定程度进行定量的比较。通过A A、B B系统信息熵的计算,有系统信息熵的计算,有 H(pA)=1(bit) H(pB)=2(bit) 由此可以判定系统由此可以判定系统B B的不确定程度是系统的不确定程度是系统A A的两倍。的两倍。2022-4-1713四、信息熵的基本性质四、信息熵的基本性质1 1、单峰性(极值性)、单峰性(极值性) 设某一系统包含两个事件设某一系统包含两
15、个事件A、B,其产生的概率分别为,其产生的概率分别为 p和和1-p。该系统的熵为。该系统的熵为 H=-plog2p+(1-p)log2(1-p) H-P图具有单峰性的特点图具有单峰性的特点。 对于由对于由n个事件组成的系统,个事件组成的系统,其信息熵也同样具有单峰性。当其信息熵也同样具有单峰性。当系统中每一事件产生的概率相同系统中每一事件产生的概率相同时,系统的熵最大。时,系统的熵最大。2022-4-17142 2、对称性、对称性 某系统中某系统中n个事件的概率分布为个事件的概率分布为 :(p1,p2,pn) 当我们对事件位置的顺序进行任意的置换后,得当我们对事件位置的顺序进行任意的置换后,得
16、到新的概率分布到新的概率分布:(p1,p2,pn) 有以下关系成立:有以下关系成立: H(p1,p2,pn)=H(p1,p2,pn) 它表示,系统中,事件的顺序虽不同,只要总的它表示,系统中,事件的顺序虽不同,只要总的概率分布相同,系统的熵概率分布相同,系统的熵H是不变的,即系统的熵与事是不变的,即系统的熵与事件的顺序无关。件的顺序无关。2022-4-17153、渐化性、渐化性 设概率为设概率为pn(=q+r)的事件可分解为概率分别为的事件可分解为概率分别为q和和r的两个的两个事件,则有事件,则有 H(p1,p2,pn-1,q,r)=H(p1,p2,pn-1,q+r)+(q+r)H(q/(q+
17、r),r/(q+r) 例例10:H(p1,p2,p3,p4)=H(p1,p2,p3+p4)+(p3+p4)H(p3/(p3+p4),p4/(p3+p4)H(p1,p2,p3+p4)=H(p1,p2+p3+p4)+(p2+p3+p4)H(p2/(p2+p3+p4)+(p3+p4)/(p2+p3+p4)2022-4-17164 4、展开性、展开性 设某一系统的概率分布为:设某一系统的概率分布为:(p1,p2,pn) 该系统的信息熵具有该系统的信息熵具有 H(p1,p2,pn) =H(p1,p2,pn,0) 这样的展开性质。在此基础上,进一步展开,有这样的展开性质。在此基础上,进一步展开,有 H(p
18、1,p2,pn) =H(p1,p2,pn,0,0) 2022-4-17175 5、确定性、确定性 概率系统中,任一事件产生的概率为概率系统中,任一事件产生的概率为1,则其他事,则其他事件产生的概率为件产生的概率为0,这是一种确定的系统。对于这样,这是一种确定的系统。对于这样的系统,有的系统,有 H(1,0)=H(0,1)=H(1,0,0)=H(0,0,10)=0 从上述的讨论可以看出,熵所描述的不是一个一个的从上述的讨论可以看出,熵所描述的不是一个一个的事件,而是事件,而是表现有关概率系统整体概率分布状态的统计特表现有关概率系统整体概率分布状态的统计特征量征量。系统的熵是通过实测数据进行计算的
19、,往往我们将。系统的熵是通过实测数据进行计算的,往往我们将它作为一种统计量来使用。它作为一种统计量来使用。2022-4-1718 英语字母共有英语字母共有26个,加上空格,共计个,加上空格,共计27个符号,若假定个符号,若假定所有符号彼此独立且等概率,那么这样的英语系统具有最所有符号彼此独立且等概率,那么这样的英语系统具有最大熵,其熵值为:大熵,其熵值为: Hmaxlog2 274.75bit 实际上,所有字母不是等概的,空格、实际上,所有字母不是等概的,空格、E、T、A等字母等字母出现的概率大,而出现的概率大,而Q、Z等字母出现的概率小。等字母出现的概率小。2022-4-1719根据上表,可
20、以计算出熵根据上表,可以计算出熵H4.065bit。由于每种字符出现的概率不同,使得实际使用英语的熵由于每种字符出现的概率不同,使得实际使用英语的熵H减减少,即少,即HHmax2022-4-1720联合国五种工作语言文字的信息熵比较:联合国五种工作语言文字的信息熵比较: 法文法文 3.98 bit 西班牙文西班牙文 4.01 bit 英文英文 4.03 bit 俄文俄文 4.35 bit 中文中文 9.65 bit 2022-4-1721一、相对信息熵一、相对信息熵 一个实际系统输出的熵一个实际系统输出的熵H(X)与其最大可能的熵与其最大可能的熵Hmax(X)的比值定义为相对熵,用的比值定义为
21、相对熵,用h表示。表示。 hH/Hmax 信息熵的计算与系统中事件数的多少有关,它不利信息熵的计算与系统中事件数的多少有关,它不利于我们对不同系统的熵进行比较;相对信息熵的计算有于我们对不同系统的熵进行比较;相对信息熵的计算有利于我们对不同系统的信息熵进行比较。利于我们对不同系统的信息熵进行比较。2022-4-1722二、冗余度二、冗余度 冗余度或剩余度可定义为:冗余度或剩余度可定义为: r1-H/Hmax 冗余度表示了由于每种字符出现的概率不同而使信息冗余度表示了由于每种字符出现的概率不同而使信息熵减少的程度。它表示了传递信息时,不必要的冗长部分熵减少的程度。它表示了传递信息时,不必要的冗长
22、部分的比例。的比例。 2022-4-1723 设以英语的设以英语的N个字符书写文章时,其平均信息量为个字符书写文章时,其平均信息量为H,总的信息量为总的信息量为NH。若以。若以27个字符均匀出现的字符序列来表个字符均匀出现的字符序列来表示相同的内容,相同的信息量,由于此时的平均信息量为示相同的内容,相同的信息量,由于此时的平均信息量为Hmax ,所需的字符数一定少于,所需的字符数一定少于N,令其为,令其为Nmin ,则为,则为 NminHmax=NH Nmin=(H/Hmax)N=hN 它表示,以具有它表示,以具有Hmax的的 27种字符书写文章,只需要种字符书写文章,只需要 Nmin=hN个
23、字符。个字符。 冗余度为:冗余度为:r=1-H/Hmax=(N-Nmin)/N 它表明,以效率更高的代码来描述指定的内容,与实际它表明,以效率更高的代码来描述指定的内容,与实际使用的英语相比较,其字符总数可减少使用的英语相比较,其字符总数可减少r%。2022-4-1724假如有:假如有:我们大我们大_都喜都喜_使使_计计_机。机。 不用很多努力,就可以猜出完整的句子:不用很多努力,就可以猜出完整的句子: 我们大家都喜欢使用计算机。我们大家都喜欢使用计算机。 香农指出,能猜出来的字符不运载信息,而不能猜出来的字符运载信香农指出,能猜出来的字符不运载信息,而不能猜出来的字符运载信息。所隐藏的字符属
24、于冗余字符,不用那些字符也能运载该句子的全部信息。所隐藏的字符属于冗余字符,不用那些字符也能运载该句子的全部信息。冗余度大小对信息阅读和检错抗错有重要的意义。比如:息。冗余度大小对信息阅读和检错抗错有重要的意义。比如: 我我_大大_使使_机。机。 就很难猜出完整的句子,在信息传递的时候,也很难做检错和抗错。就很难猜出完整的句子,在信息传递的时候,也很难做检错和抗错。因此,保留合理比例的冗余度是非常重要的。因此,保留合理比例的冗余度是非常重要的。 信息熵方法的基本目的,是找出某种符号系统的信息量和冗余度之间信息熵方法的基本目的,是找出某种符号系统的信息量和冗余度之间的关系,以便能用最小的成本和消
25、耗来实现最高效率的数据储存、管理和的关系,以便能用最小的成本和消耗来实现最高效率的数据储存、管理和传递。传递。2022-4-1725一、测试问题信息熵的计算一、测试问题信息熵的计算 多重选择问题是各种测试中使用最为广泛的一种测试问题。多重选择问题是各种测试中使用最为广泛的一种测试问题。例例1 1:下列设备中,只能作为输出设备的是(:下列设备中,只能作为输出设备的是( )。)。A A、扫描仪、扫描仪 B B、打印机、打印机 C C、鼠标、鼠标 D D、硬盘、硬盘 E E、数码照相机、数码照相机学生对多重选择问题的应答概率分布可能有多种不同的情况:学生对多重选择问题的应答概率分布可能有多种不同的情
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第二 教育 信息 课件
限制150内