第二章教育信息熵精选PPT.ppt
第二章教育信息熵第二章教育信息熵第二章教育信息熵第二章教育信息熵第1页,本讲稿共52页第一节第一节 熵的概述熵的概述第二节第二节 相对熵与冗余熵相对熵与冗余熵第三节第三节 测试问题的信息量测试问题的信息量第四节第四节 CAI课件中的信息熵课件中的信息熵第五节第五节 教学过程的信息量分析教学过程的信息量分析主要内容主要内容第2页,本讲稿共52页第一节第一节 熵的概述熵的概述一、信息量的表示一、信息量的表示 一般来说,在通信过程中,信源发出的消息对一般来说,在通信过程中,信源发出的消息对收信者来说总是存在着某种程度的不确定性,通过收信者来说总是存在着某种程度的不确定性,通过通信,收信者就可能消除这种不确定性。通信,收信者就可能消除这种不确定性。信息的多少与信源的不确定性有关。研究信息信息的多少与信源的不确定性有关。研究信息的度量可变成研究信源的不确定性的度量。的度量可变成研究信源的不确定性的度量。第3页,本讲稿共52页例例1:现有现有A、B、C、D、E五名学生,以他们作为候选人,需从中五名学生,以他们作为候选人,需从中选出一名学生作为学生代表。选出一名学生作为学生代表。情况一:设定每一名学生被选中的可能性一样(情况一:设定每一名学生被选中的可能性一样(A当选的概率是当选的概率是20%););情况二:设定情况二:设定A当选的概率是当选的概率是90%;情况三:情况三:A一定会当选(一定会当选(A当选的概率是当选的概率是100%)。)。选拔的结果:选拔的结果:A被选中。被选中。第一节第一节第一节第一节 熵的概述熵的概述熵的概述熵的概述第4页,本讲稿共52页 信源输出的消息可以看作是随机事件(数学上对随机事信源输出的消息可以看作是随机事件(数学上对随机事件发生可能性的大小以概率来度量),它的不确定度可根据件发生可能性的大小以概率来度量),它的不确定度可根据其出现的概率来衡量:其出现的概率来衡量:概率大,出现机会多,不确定程度小概率大,出现机会多,不确定程度小 概率小,出现机会少,不确定程度大概率小,出现机会少,不确定程度大以以I记消息包含的信息量,记消息包含的信息量,P记消息发生的概率,记消息发生的概率,0P1,则有:则有:用函数可以表示为:用函数可以表示为:I=f(P)或或I=g(1/P)信息量是概率的单调减函数。信息量是概率的单调减函数。第一节第一节第一节第一节 熵的概述熵的概述熵的概述熵的概述第5页,本讲稿共52页例例2:某人到剧院找朋友,剧院有:某人到剧院找朋友,剧院有20行行30列座位,朋友的位置有列座位,朋友的位置有600种可能。消息种可能。消息A说:说:“他在第他在第6行行”,消息,消息B说:说:“他在第他在第9列列”,合,合成消息成消息C=AB说:他在第说:他在第6行第行第9列列“。由概率论知,由概率论知,P(AB)=P(A)P(B)。但经验告诉人们,消息)。但经验告诉人们,消息C的信息量应该是消息的信息量应该是消息A的信息量与消息的信息量与消息B的信息量之和。的信息量之和。一般地若一般地若A和和B为两个相互独立的消息,为两个相互独立的消息,C代表代表A与与B同时发同时发生的合成消息,生的合成消息,C=AB,则:,则:I I(ABAB)=I=I(A A)+I+I(B B)当当A、B不是独立事件时,不是独立事件时,I I(ABAB)II(A A)+I+I(B B)信息量具有可加性。信息量具有可加性。第一节第一节第一节第一节 熵的概述熵的概述熵的概述熵的概述第6页,本讲稿共52页 信息量是概率的单调减函数信息量是概率的单调减函数I=g(1/P),同时信息量又具有可加性同时信息量又具有可加性I(AB)=I(A)+I(B)。那么信息量可以用什么函数表示?那么信息量可以用什么函数表示?对数函数是可供选用的合适的函数,对数函数是可供选用的合适的函数,logak随随k值的增大而增大,且值的增大而增大,且loga(kl)=logak+logal第一节第一节第一节第一节 熵的概述熵的概述熵的概述熵的概述第7页,本讲稿共52页 设某一事件产生的概率为设某一事件产生的概率为p,则信息量可定义为:,则信息量可定义为:I=loga(1/P)=-logaP其中,其中,a1a2时,单位为时,单位为bit(比特),字位(比特),字位ae时,单位为时,单位为nat(奈特),自然对数(奈特),自然对数lna10时,单位为时,单位为dit(迪特)。常用对数(迪特)。常用对数lg通常情况下,我们选择以通常情况下,我们选择以2为底数,此时信息量的单位为比特。为底数,此时信息量的单位为比特。信息量定义信息量定义信息量定义信息量定义 以概率以概率p p00发生的可能消息发生的可能消息A A所包含的信息量所包含的信息量I I(A A)是概率是概率p p的倒数的对数:的倒数的对数:I I(A A)=log=log2 21/p;1/p;或或 I I(A A)=-log=-log2 2 p p补充规定:补充规定:若若P P=0=0,I I=0=0信息量的单位为信息量的单位为字位(字位(字位(字位(bitbitbitbit)第一节第一节第一节第一节 熵的概述熵的概述熵的概述熵的概述第8页,本讲稿共52页例例3 3:投掷硬币,消息:投掷硬币,消息A A代表麦穗朝下,发生概率为代表麦穗朝下,发生概率为P P(A A)=0.5)=0.5,求其信求其信息量。息量。例例4 4:工会有一批水果发给会员,其中优质品为:工会有一批水果发给会员,其中优质品为40%40%,合格品,合格品为为55%55%,次品为,次品为5%5%。发放规则为随意抓号,按号取货,不许挑。发放规则为随意抓号,按号取货,不许挑拣。问;王东拿到次品这一消息的信息量是多少?拣。问;王东拿到次品这一消息的信息量是多少?I(A)=log20.5=log22-1=1bitI=-log20.05=4.32bit第一节第一节第一节第一节 熵的概述熵的概述熵的概述熵的概述第9页,本讲稿共52页二、信息熵二、信息熵1 1 1 1、信息熵定义、信息熵定义、信息熵定义、信息熵定义 设发送端的可能消息集合为:设发送端的可能消息集合为:X=X=(X X1 1,X,X2 2,X,Xn n),各可能消息分别按概各可能消息分别按概率率P P1 1,P,P2 2,,P Pn n发生,并满足归一性条件:发生,并满足归一性条件:P P1 1+P+P2 2+P+Pn n=1=1。按一定的概。按一定的概率从集合率从集合X X中随机选择消息发送,形成一个消息序列。设序列中包含的中随机选择消息发送,形成一个消息序列。设序列中包含的消息总数为消息总数为N N,N N非常大。在统计意义上,该序列中包含的消息非常大。在统计意义上,该序列中包含的消息X Xi i的数目的数目为为P Pi iN N个,所有个,所有X Xi i包含的信息量为包含的信息量为-(P Pi iN N)loglog2 2P Pi i。将序列中所有消息包含的信。将序列中所有消息包含的信息量之和除以息量之和除以N N,得到序列中每个可能信息的平均信息量为:,得到序列中每个可能信息的平均信息量为:H=-H=-(P P1 1loglog2 2P P1 1+P P2 2loglog2 2P P2 2+P Pn nloglog2 2P Pn n)=-)=-H H是可能消息集合是可能消息集合X X的整体平均信息量,亦即单位消息的信息量。的整体平均信息量,亦即单位消息的信息量。可能消息集合可能消息集合X=X=(X X1 1,X,X2 2,X,Xn n)的整体平均信息量称为信息熵,简称为)的整体平均信息量称为信息熵,简称为熵。熵。第一节第一节第一节第一节 熵的概述熵的概述熵的概述熵的概述2第10页,本讲稿共52页例例6 6:还是工会发水果的例子。计算其信息熵:还是工会发水果的例子。计算其信息熵:消息集合消息集合X=X=(优质品,合格品,次品),(优质品,合格品,次品),各消息可能出现的概率为:(各消息可能出现的概率为:(0.4,0.55,0.050.4,0.55,0.05)其信息熵为:其信息熵为:H=-H=-(0.4log0.4log2 20.4+0.55log0.4+0.55log2 20.55+0.05log0.55+0.05log2 20.050.05)=1.22=1.22(bitbit)例例5:设某一系统具有四种状态(或四种事件设某一系统具有四种状态(或四种事件)A1、A2、A3、A4,其产生的,其产生的概率分别为概率分别为p11/2,p2=1/4,p3=1/8,p4=1/8,求该系统中任一状态产生时所给予的平求该系统中任一状态产生时所给予的平均信息量。均信息量。第一节第一节第一节第一节 熵的概述熵的概述熵的概述熵的概述22222第11页,本讲稿共52页三、熵的意义三、熵的意义 熵的大小可用于表示概率系统的不确定程度。熵的大小可用于表示概率系统的不确定程度。例例8:设某一概率系统中,其概率分布是均匀的,它表示系统中每一:设某一概率系统中,其概率分布是均匀的,它表示系统中每一事件产生的概率相等。对于这样的系统,我们很难预测某一事件的产事件产生的概率相等。对于这样的系统,我们很难预测某一事件的产生,这种系统的不确定性最大。该系统的信息熵具有最大值(在相同生,这种系统的不确定性最大。该系统的信息熵具有最大值(在相同事件数的情况下)。事件数的情况下)。例例7:设某一概率系统中,每一事件产生的概率分布为:设某一概率系统中,每一事件产生的概率分布为:(1,0,0)。它表示,该系统中某一事件产生的概率为)。它表示,该系统中某一事件产生的概率为1,其,其他事件产生的概率为他事件产生的概率为0,这是一个确定系统,不确定度为,这是一个确定系统,不确定度为0。计。计算该系统的信息熵,有算该系统的信息熵,有H=0。第一节第一节第一节第一节 熵的概述熵的概述熵的概述熵的概述第12页,本讲稿共52页例例9:设概率系统:设概率系统A、B的分布为:的分布为:pA=(0.5,0.5,0,0,0)pB=(0.5,0.125,0.125,0.125,0.125)请比较它们哪一个系统的不确定程度大。请比较它们哪一个系统的不确定程度大。分析:为了进行这种比较,我们计算它们的信息熵,并以计算出的信分析:为了进行这种比较,我们计算它们的信息熵,并以计算出的信息熵,对它们的不确定程度进行定量的比较。通过息熵,对它们的不确定程度进行定量的比较。通过A A、B B系统信息熵的系统信息熵的计算,有计算,有 H(pA)=1(bit)H(pB)=2(bit)由此可以判定系统由此可以判定系统B B的不确定程度是系统的不确定程度是系统A A的两倍。的两倍。第一节第一节第一节第一节 熵的概述熵的概述熵的概述熵的概述第13页,本讲稿共52页四、信息熵的基本性质四、信息熵的基本性质1 1、单峰性(极值性)、单峰性(极值性)设某一系统包含两个事件设某一系统包含两个事件A、B,其产生的概率分别为,其产生的概率分别为p和和1-p。该系统的熵为。该系统的熵为H=-plog2p+(1-p)log2(1-p)H-P图具有单峰性的特点图具有单峰性的特点。对于由对于由n个事件组成的系统,个事件组成的系统,其信息熵也同样具有单峰性。当系其信息熵也同样具有单峰性。当系统中每一事件产生的概率相同时,统中每一事件产生的概率相同时,系统的熵最大。系统的熵最大。第一节第一节第一节第一节 熵的概述熵的概述熵的概述熵的概述第14页,本讲稿共52页2 2、对称性、对称性 某系统中某系统中n个事件的概率分布为个事件的概率分布为:(p1,p2,pn)当我们对事件位置的顺序进行任意的置换后,得到新的概率当我们对事件位置的顺序进行任意的置换后,得到新的概率分布分布:(p1,p2,pn)有以下关系成立:有以下关系成立:H(p1,p2,pn)=H(p1,p2,pn)它表示,系统中,事件的顺序虽不同,只要总的概率它表示,系统中,事件的顺序虽不同,只要总的概率分布相同,系统的熵分布相同,系统的熵H是不变的,即系统的熵与事件的顺是不变的,即系统的熵与事件的顺序无关。序无关。第一节第一节第一节第一节 熵的概述熵的概述熵的概述熵的概述第15页,本讲稿共52页3、渐化性、渐化性 设概率为设概率为pn(=q+r)的事件可分解为概率分别为的事件可分解为概率分别为q和和r的两个事的两个事件,则有件,则有H(p1,p2,pn-1,q,r)=H(p1,p2,pn-1,q+r)+(q+r)H(q/(q+r),r/(q+r)例例10:H(p1,p2,p3,p4)=H(p1,p2,p3+p4)+(p3+p4)H(p3/(p3+p4),p4/(p3+p4)H(p1,p2,p3+p4)=H(p1,p2+p3+p4)+(p2+p3+p4)H(p2/(p2+p3+p4)+(p3+p4)/(p2+p3+p4)第一节第一节第一节第一节 熵的概述熵的概述熵的概述熵的概述第16页,本讲稿共52页4 4、展开性、展开性 设某一系统的概率分布为:设某一系统的概率分布为:(p1,p2,pn)该系统的信息熵具有该系统的信息熵具有H(p1,p2,pn)=H(p1,p2,pn,0)这样的展开性质。在此基础上,进一步展开,有这样的展开性质。在此基础上,进一步展开,有H(p1,p2,pn)=H(p1,p2,pn,0,0)第一节第一节第一节第一节 熵的概述熵的概述熵的概述熵的概述第17页,本讲稿共52页5 5、确定性、确定性 概率系统中,任一事件产生的概率为概率系统中,任一事件产生的概率为1,则其他事件,则其他事件产生的概率为产生的概率为0,这是一种确定的系统。对于这样的系统,这是一种确定的系统。对于这样的系统,有有 H(1,0)=H(0,1)=H(1,0,0)=H(0,0,10)=0 从上述的讨论可以看出,熵所描述的不是一个一个的事件,从上述的讨论可以看出,熵所描述的不是一个一个的事件,而是而是表现有关概率系统整体概率分布状态的统计特征量表现有关概率系统整体概率分布状态的统计特征量。系。系统的熵是通过实测数据进行计算的,往往我们将它作为一种统统的熵是通过实测数据进行计算的,往往我们将它作为一种统计量来使用。计量来使用。第一节第一节第一节第一节 熵的概述熵的概述熵的概述熵的概述第18页,本讲稿共52页第二节第二节 相对熵与冗余度相对熵与冗余度英语字母共有英语字母共有26个,加上空格,共计个,加上空格,共计27个符号,若假定所有个符号,若假定所有符号彼此独立且等概率,那么这样的英语系统具有最大熵,其符号彼此独立且等概率,那么这样的英语系统具有最大熵,其熵值为:熵值为:Hmaxlog2274.75bit实际上,所有字母不是等概的,空格、实际上,所有字母不是等概的,空格、E、T、A等字母出现的概率等字母出现的概率大,而大,而Q、Z等字母出现的概率小。等字母出现的概率小。第19页,本讲稿共52页根据上表,可以计算出熵根据上表,可以计算出熵H4.065bit。由于每种字符出现的概率不同,使得实际使用英语的熵由于每种字符出现的概率不同,使得实际使用英语的熵H减少,即减少,即HHmax第二节第二节第二节第二节 相对熵与冗余度相对熵与冗余度相对熵与冗余度相对熵与冗余度第20页,本讲稿共52页联合国五种工作语言文字的信息熵比较:联合国五种工作语言文字的信息熵比较:法文法文3.98bit西班牙文西班牙文4.01bit英文英文4.03bit俄文俄文4.35bit中文中文9.65bit第二节第二节第二节第二节 相对熵与冗余度相对熵与冗余度相对熵与冗余度相对熵与冗余度第21页,本讲稿共52页一、相对信息熵一、相对信息熵 一个实际系统输出的熵一个实际系统输出的熵H(X)与其最大可能的熵与其最大可能的熵Hmax(X)的比值的比值定义为相对熵,用定义为相对熵,用h表示。表示。hH/Hmax 信息熵的计算与系统中事件数的多少有关,它不利于我们对信息熵的计算与系统中事件数的多少有关,它不利于我们对不同系统的熵进行比较;相对信息熵的计算有利于我们对不同系不同系统的熵进行比较;相对信息熵的计算有利于我们对不同系统的信息熵进行比较。统的信息熵进行比较。第二节第二节第二节第二节 相对熵与冗余度相对熵与冗余度相对熵与冗余度相对熵与冗余度第22页,本讲稿共52页二、冗余度二、冗余度 冗余度或剩余度可定义为:冗余度或剩余度可定义为:r1-H/Hmax 冗余度表示了由于每种字符出现的概率不同而使信息熵减冗余度表示了由于每种字符出现的概率不同而使信息熵减少的程度。它表示了传递信息时,不必要的冗长部分的比例。少的程度。它表示了传递信息时,不必要的冗长部分的比例。第二节第二节第二节第二节 相对熵与冗余度相对熵与冗余度相对熵与冗余度相对熵与冗余度第23页,本讲稿共52页第二节第二节第二节第二节 相对熵与冗余度相对熵与冗余度相对熵与冗余度相对熵与冗余度设以英语的设以英语的N个字符书写文章时,其平均信息量为个字符书写文章时,其平均信息量为H,总的信息量为,总的信息量为NH。若以。若以27个字符均匀出现的字符序列来表示相同的内容,相同的信息个字符均匀出现的字符序列来表示相同的内容,相同的信息量,由于此时的平均信息量为量,由于此时的平均信息量为Hmax,所需的字符数一定少于,所需的字符数一定少于N,令其,令其为为Nmin,则为,则为NminHmax=NH Nmin=(H/Hmax)N=hN它表示,以具有它表示,以具有Hmax的的27种字符书写文章,只需要种字符书写文章,只需要Nmin=hN个字符。个字符。冗余度为:冗余度为:r=1-H/Hmax=(N-Nmin)/N它表明,以效率更高的代码来描述指定的内容,与实际使用它表明,以效率更高的代码来描述指定的内容,与实际使用的英语相比较,其字符总数可减少的英语相比较,其字符总数可减少r%。第24页,本讲稿共52页假如有:假如有:我们大我们大_都喜都喜_使使_计计_机。机。不用很多努力,就可以猜出完整的句子:不用很多努力,就可以猜出完整的句子:我们大家都喜欢使用计算机。我们大家都喜欢使用计算机。香农指出,能猜出来的字符不运载信息,而不能猜出来的字符运载信息。所香农指出,能猜出来的字符不运载信息,而不能猜出来的字符运载信息。所隐藏的字符属于冗余字符,不用那些字符也能运载该句子的全部信息。冗余度大小隐藏的字符属于冗余字符,不用那些字符也能运载该句子的全部信息。冗余度大小对信息阅读和检错抗错有重要的意义。比如:对信息阅读和检错抗错有重要的意义。比如:我我_大大_使使_机。机。就很难猜出完整的句子,在信息传递的时候,也很难做检错和抗错。因此,就很难猜出完整的句子,在信息传递的时候,也很难做检错和抗错。因此,保留合理比例的冗余度是非常重要的。保留合理比例的冗余度是非常重要的。信息熵方法的基本目的,是找出某种符号系统的信息量和冗余度之间的关信息熵方法的基本目的,是找出某种符号系统的信息量和冗余度之间的关系,以便能用最小的成本和消耗来实现最高效率的数据储存、管理和传递。系,以便能用最小的成本和消耗来实现最高效率的数据储存、管理和传递。第25页,本讲稿共52页一、测试问题信息熵的计算一、测试问题信息熵的计算 多重选择问题是各种测试中使用最为广泛的一种测试问题。多重选择问题是各种测试中使用最为广泛的一种测试问题。例例1 1:下列设备中,只能作为输出设备的是(:下列设备中,只能作为输出设备的是()。)。A A、扫描仪、扫描仪 B B、打印机、打印机 C C、鼠标、鼠标 D D、硬盘、硬盘 E E、数码照相机、数码照相机学生对多重选择问题的应答概率分布可能有多种不同的情况:学生对多重选择问题的应答概率分布可能有多种不同的情况:(1 1)()(0 0,1 1,0 0,0 0,0 0)(2 2)()(0.5 0.5,0.125 0.125,0.1250.125,0.1250.125,0.125 0.125)(3 3)()(0.50.5,0.50.5,0 0,0 0,0 0)(4 4)()(0.20.2,0.20.2,0.20.2,0.20.2,0.20.2)请问:哪种情况的应答信息熵最大?最小?能说明什么?请问:哪种情况的应答信息熵最大?最小?能说明什么?问题的信息熵表示了学习者应答选择的不确定程度,同时也问题的信息熵表示了学习者应答选择的不确定程度,同时也问题的信息熵表示了学习者应答选择的不确定程度,同时也问题的信息熵表示了学习者应答选择的不确定程度,同时也能在一定程度上判断该问题的困难程度。能在一定程度上判断该问题的困难程度。能在一定程度上判断该问题的困难程度。能在一定程度上判断该问题的困难程度。第三节第三节 测试问题的信息熵测试问题的信息熵第26页,本讲稿共52页二、等价预选项数二、等价预选项数例例2 2:现有三个多重选择问题,每一个问题都有五个预选项,经测试,学生对每一预选项应:现有三个多重选择问题,每一个问题都有五个预选项,经测试,学生对每一预选项应答的频度分布如下图:答的频度分布如下图:(a a)(b b)(c c)图图(a)的概率分布是(的概率分布是(1,0,0,0,0),它表示学生的应答集中在一),它表示学生的应答集中在一个预选项上。虽有个预选项上。虽有5个预选项,实际上等价于个预选项,实际上等价于1个预选项。个预选项。图(图(b)的概率分布是()的概率分布是(0.5,0.5,0,0,0),它表示学生的应答集中),它表示学生的应答集中在两个预选项上,且各为在两个预选项上,且各为50%。虽有。虽有5个预选项,实际上等价于个预选项,实际上等价于2个预选项。个预选项。第三节第三节第三节第三节 测试问题的信息熵测试问题的信息熵测试问题的信息熵测试问题的信息熵第27页,本讲稿共52页 等价预选项数是指将实测的应答分布,换算成与之具有等熵等价预选项数是指将实测的应答分布,换算成与之具有等熵的均匀分布的预选项数。的均匀分布的预选项数。设某一多重选择题的应答分布实测值为设某一多重选择题的应答分布实测值为(P1,Pc),该分布,该分布具有的熵为具有的熵为H,与之等价的予选项数为,与之等价的予选项数为k,根据等价予选项数的,根据等价予选项数的定义有:定义有:222第三节第三节第三节第三节 测试问题的信息熵测试问题的信息熵测试问题的信息熵测试问题的信息熵第28页,本讲稿共52页例例3 3:现有一个多重选择问题,其五个预选项的应答概率分布为:现有一个多重选择问题,其五个预选项的应答概率分布为(0.5,0.125,0.125,0.125,0.1250.5,0.125,0.125,0.125,0.125)。请计算等价预选项数。)。请计算等价预选项数。H=-0.5log20.5-40.125log20.125=-0.5log22-1-40.125log22-3=0.5+40.1253=2(bit)K=2H=22=4因此,该选择题的等价预选项数为因此,该选择题的等价预选项数为4。第三节第三节第三节第三节 测试问题的信息熵测试问题的信息熵测试问题的信息熵测试问题的信息熵第29页,本讲稿共52页三、对不确定程度的判断三、对不确定程度的判断给定的问题是:从外观上看,给定的问题是:从外观上看,12个小球完全相同,在这个小球完全相同,在这12个小球中,仅有一个小球的重量个小球中,仅有一个小球的重量与其他小球不一样。请使用无法码天平,能否在三次以内找出这个重量不同的小球,并且与其他小球不一样。请使用无法码天平,能否在三次以内找出这个重量不同的小球,并且指明该小球比其他小球是重还是轻。指明该小球比其他小球是重还是轻。分析与求解:比较分析与求解:比较12个小球,并判定轻、重,应是个小球,并判定轻、重,应是122种比较当中的一种。在比较过程中,种比较当中的一种。在比较过程中,开始的不确定程度为开始的不确定程度为log224=4.585(bit)通过左边轻、右边轻或平衡的判断每使用一次天平,不确定程度减少通过左边轻、右边轻或平衡的判断每使用一次天平,不确定程度减少log23=1.585(bit)。由此,使用两次天平,所得到的信息量为由此,使用两次天平,所得到的信息量为2log23=3.170(bit)该信息量小于该信息量小于4.585(bit)。它表示,使用两次天平,不能完全消除不确定程度。它表示,使用两次天平,不能完全消除不确定程度。然而然而,使用三次天平使用三次天平,所得到的信息量为所得到的信息量为3log23=4.755(bit)该信息量大于该信息量大于4.585(bit)。它表示,如果使用三次天平,可完全消除不确定程度,即通过三次。它表示,如果使用三次天平,可完全消除不确定程度,即通过三次使用天平,可找出不同的小球,解决给定的问题。使用天平,可找出不同的小球,解决给定的问题。第三节第三节第三节第三节 测试问题的信息熵测试问题的信息熵测试问题的信息熵测试问题的信息熵第30页,本讲稿共52页例:设有例:设有4 4个选择题,每一题目有个选择题,每一题目有5 5个预选答案,班级人数为个预选答案,班级人数为4040人,回答情况如人,回答情况如下表:下表:第第1 1题题第第2 2题题第第3 3题题第第4 4题题A A4040人人(答(答对对)0 05 5人人8 8人人B B0 00 05 5人人8 8人人(答(答对对)C C0 00 02020人人(答(答对对)8 8人人D D0 02020人人(答(答对对)5 5人人8 8人人E E0 02020人人5 5人人8 8人人信息信息熵熵H H等价等价预选项预选项k k答答对对率率P Pr r0(bit)1(bit)2(bit)log25(bit)1245100%50%50%20%问题的信息熵表示了学问题的信息熵表示了学习者应答选择的不确定习者应答选择的不确定程度,同时也能在一定程度,同时也能在一定程度上判断该问题的困程度上判断该问题的困难程度。难程度。等价预选项数是指将实等价预选项数是指将实测的应答分布,换算成测的应答分布,换算成与之具有等熵的均匀分与之具有等熵的均匀分布的预选项数。布的预选项数。k=2H第三节第三节第三节第三节 测试问题的信息熵测试问题的信息熵测试问题的信息熵测试问题的信息熵第31页,本讲稿共52页12 23 34 4M=5:M=5:假设该题有假设该题有5 5个预选项个预选项r:r:选择题的正确选项选择题的正确选项p pr r:考生选择正确答案的概率,考生选择正确答案的概率,即该题的答对率即该题的答对率k:k:等价预选项数等价预选项数学生的错误选择均学生的错误选择均匀分布在诱惑项上匀分布在诱惑项上时,时,K最大最大学生的错误选择集学生的错误选择集中在某一在诱惑项中在某一在诱惑项上时,上时,K最小最小正确选项在假想题正确选项在假想题目的各选项中不占目的各选项中不占优势优势理想的题目反应分布模式是:在保证一定答对率理想的题目反应分布模式是:在保证一定答对率pr的条件下的条件下(pr值由值由具体测试目的而定具体测试目的而定),对诱惑项的选择人数应接近均匀分布,也就是说,对诱惑项的选择人数应接近均匀分布,也就是说,k的取值应接近的取值应接近kmax曲线。曲线。第32页,本讲稿共52页第四节第四节CAI课件中的信息熵课件中的信息熵一、多重选择问题的信息熵一、多重选择问题的信息熵u设学习者对具有两种预选答案问题的应答分布为:设学习者对具有两种预选答案问题的应答分布为:(1/21/2,1/21/2),),H=1bitH=1bitu设学习者对具有三种预选答案问题的应答分布为:设学习者对具有三种预选答案问题的应答分布为:(1/21/2,1/41/4,1/41/4),),H=1.5bitH=1.5bitu设学习者对具有四种预选答案问题的应答分布为:设学习者对具有四种预选答案问题的应答分布为:(1/21/2,1/41/4,1/81/8,1/81/8),),H=1.75bitH=1.75bitu设学习者对具有四种预选答案问题的应答分布为:设学习者对具有四种预选答案问题的应答分布为:(1/41/4,1/41/4,1/41/4,1/41/4),),H=2bitH=2bitu设学习者对具有五种预选答案问题的应答分布为:设学习者对具有五种预选答案问题的应答分布为:(2/52/5,1/51/5,1/51/5,1/101/10,1/101/10),),H=2.12bitH=2.12bit均匀分布的均匀分布的H最的,但这是在相同预选答案数情况下的比较。最的,但这是在相同预选答案数情况下的比较。H的大小不仅与应答分布有关,还与预选答案数有关。预选答案数越多,的大小不仅与应答分布有关,还与预选答案数有关。预选答案数越多,信息熵越大。信息熵越大。第33页,本讲稿共52页相对信息熵相对信息熵 为了有效的比较不同问题的信息熵,避开预选答案数对为了有效的比较不同问题的信息熵,避开预选答案数对H H的影响,我们应对信息熵予以标准化。信息熵采用相对熵进的影响,我们应对信息熵予以标准化。信息熵采用相对熵进行标准化。行标准化。相对信息熵定义为:相对信息熵定义为:h=H/Hh=H/Hmaxmax 设系统的状态数(即预选答案数)为设系统的状态数(即预选答案数)为N N,概率分布为(,概率分布为(p p1 1,p,p22p pn n)相对信息熵为:相对信息熵为:h=-ph=-pi iloglog2 2p pi i/log/log2 2N N 相对信息熵使得熵的计算归一化为标准的范围相对信息熵使得熵的计算归一化为标准的范围0 01 1之之间,它使得不同系统的信息熵易于比较。间,它使得不同系统的信息熵易于比较。第34页,本讲稿共52页 根据相对信息熵的定义,我们对上述不同问题的相对信息熵进行计算后,可以实现有效的比较。u设学习者对具有两种预选答案问题的应答分布为:(1/2,1/2),H=1bit Hmax=1bit h=H/Hmax=1/1=1u设学习者对具有三种预选答案问题的应答分布为:(1/2,1/4,1/4),H=1.5bit Hmax=1.58bit h=H/Hmax=1.5/1.58=0.95u设学习者对具有四种预选答案问题的应答分布为:(1/2,1/4,1/8,1/8),H=1.75bit Hmax=2bit h=H/Hmax=1.75/2=0.875u设学习者对具有四种预选答案问题的应答分布为:(1/4,1/4,1/4,1/4),H=2bit Hmax=2bit h=H/Hmax=2/2=1u设学习者对具有五种预选答案问题的应答分布为:(2/5,1/5,1/5,1/10,1/10),H=2.12bit Hmax=2.32bit h=H/Hmax=2.12/2.32=0.91第35页,本讲稿共52页二、课件评价二、课件评价 从问题、课件所具有的学习功能来看,问题的信息量越大,表示学习从问题、课件所具有的学习功能来看,问题的信息量越大,表示学习者应答分布的分散性越大;问题的信息量越小,表示学习者应答分布越集者应答分布的分散性越大;问题的信息量越小,表示学习者应答分布越集中。中。A A问题的应答分布:(问题的应答分布:(1/51/5,1/51/5,1/51/5,1/51/5,1/51/5)B B问题的应答分布:问题的应答分布:(1 1,0 0,0 0,0 0,0 0)可以使用信息熵来评价课件中所设置的问题。从此促进学习者认真思维,产生可以使用信息熵来评价课件中所设置的问题。从此促进学习者认真思维,产生较好的学习效果来看,信息熵高的问题优于信息熵低的问题。较好的学习效果来看,信息熵高的问题优于信息熵低的问题。第36页,本讲稿共52页 课件中包含有许多问题,以每个问题累积信息熵的课件中包含有许多问题,以每个问题累积信息熵的平均值,可用于课件的评价。平均值,可用于课件的评价。课件的平均相对熵可定义为课件的平均相对熵可定义为 式中,式中,h hT T为每个问题相对信息熵的累加;为每个问题相对信息熵的累加;N N为课件中的问题数为课件中的问题数 h hi i为第为第i i个问题的相对信息熵个问题的相对信息熵 课件的平均相对信息熵为课件评价的量化给出了一种很好的课件的平均相对信息熵为课件评价的量化给出了一种很好的量度标准和量度方法。量度标准和量度方法。第37页,本讲稿共52页三、学习状态的描述三、学习状态的描述u学习过程中学生学习状态的描述和判断应根据学习过程中学习过程中学生学习状态的描述和判断应根据学习过程中的各种应答信息的收集、处理来实现。学习过程中,学生的各种应答信息的收集、处理来实现。学习过程中,学生的应答情况可以作为一个子系统来处理,利用该子系统信的应答情况可以作为一个子系统来处理,利用该子系统信息熵的变化情况,可以有效的判断学生学习状态的变化。息熵的变化情况,可以有效的判断学生学习状态的变化。第38页,本讲稿共52页 设用于某一单元学习的设用于某一单元学习的CAICAI课件包含课件包含N N个问题。根据个问题。根据CAICAI课件的安排,整个学习过程分为课件的安排,整个学习过程分为K K个阶段,用于第个阶段,用于第i i阶阶段的学习问题共有段的学习问题共有M M个。学生在第个。学生在第i i个阶段的个阶段的M M个问题的学个问题的学习中,给出正确、错误应答的概率分别为习中,给出正确、错误应答的概率分别为p pi i和和q qi i,则在第,则在第i i阶段回答问题所具有的信息熵为阶段回答问题所具有的信息熵为 以同样的方法可以求出学生在学习过程中每一阶段的信以同样的方法可以求出学生在学习过程中每一阶段的信息熵。将每一个阶段的信息熵以图形表示。息熵。将每一个阶段的信息熵以图形表示。第39页,本讲稿共52页 信息熵表示了学习者学习的稳定性。信息熵表示了学习者学习的稳定性。CAICAI课件的程序控制中,应根据学习者的学习课件的程序控制中,应根据学习者的学习状态,对课件中的学习过程进行有效的控制。状态,对课件中的学习过程进行有效的控制。不稳定的学习状态不稳定的学习状态 学生应答的信息学生应答的信息熵很快的变小,表示熵很快的变小,表示学生的学习迅速地进学生的学习迅速地进入稳定状态入稳定状态第40页,本讲稿共52页第五节第五节 教学过程的信息熵分析教学过程的信息熵分析一、分类系统一、分类系统 为了有效地表述教学过程、研究教学过程并给予有效的评价,我们应对教学过程为了有效地表述教学过程、研究教学过程并给予有效的评价,我们应对教学过程进行客观的、定量的记述。进行客观的、定量的记述。教学过程是一种教师与学生间以语言进行信息传递的过程,教学过程教学过程是一种教师与学生间以语言进行信息传递的过程,教学过程可以通过教师与学生语言序列的记录来表述。当我们对教学过程中,教师与可以通过教师与学生语言序列的记录来表述。当我们对教学过程中,教师与学生的语言行为进行适当地分类,并以这种分类,可对教学过程进行客观地学生的语言行为进行适当地分类,并以这种分类,可对教学过程进行客观地表现。若这种分类、表述着眼于分析的目的,我们称之为相互作用分析,若表现。若这种分类、表述着眼于分析的目的,我们称之为相互作用分析,若这种分类,表述着眼于记述方法,我们称之为分类分析。这种分类,表述着眼于记述方法,我们称之为分类分析。教师、学生语言行为的分类有多种不同的方法,至今已有一百多种,比教师、学生语言行为的分类有多种不同的方法,至今已有一百多种,比较有影响的分类系统有较有影响的分类系统有FlandersFlanders分类系统和分类系统和VICSVICS(Verbal Interaction Verbal Interaction Category SystemCategory System)等。)等。第41页,本讲稿共52页TheVerbalInteractionCategorySystem(VICS)课堂语言行为互动分类系统课堂语言行为互动分类系统N1Presentinginformation(呈现信息)(呈现信息)N2Givinginstructions(给出指示)(给出指示)N3Askingaquestion(提出问题)(提出问题)N4Respondingbyacceptinganideafromastudent(