《信息论方法》PPT课件.ppt
《《信息论方法》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《信息论方法》PPT课件.ppt(55页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第7章 信息论方法(一)n7.1 信息论原理n7.2 决策树方法n n7.1 信息论原理信息论原理 信息论是信息论是C.E.ShannonC.E.Shannon为解决信息传递(通信)过程问题而为解决信息传递(通信)过程问题而建立的理论,也称为统计通信理论。建立的理论,也称为统计通信理论。1.1.信道模型信道模型信道模型信道模型n n一个传递信息的系统是由发送端(信源)和接收端(信宿)一个传递信息的系统是由发送端(信源)和接收端(信宿)以及连接两者的通道(信道)三者组成。以及连接两者的通道(信道)三者组成。信道u1,u2.ur信源Uv1,v2.vrP(V|U)信宿Vn n在进行实际的通信之前,收
2、信者(信宿)不可在进行实际的通信之前,收信者(信宿)不可能确切了解信源究竟会发出什么样的具体信息,能确切了解信源究竟会发出什么样的具体信息,不可能判断信源会处于什么样的状态。不可能判断信源会处于什么样的状态。n n这种情形就称为信宿对于信源状态具有不确定这种情形就称为信宿对于信源状态具有不确定性。而且这种不确定性是存在于通信之前的。因性。而且这种不确定性是存在于通信之前的。因而又叫做而又叫做先验不确定性先验不确定性,表示成,表示成 信息熵信息熵信息熵信息熵 HH(U U)n n在进行了通信之后,信宿收到了信源发来的信息,在进行了通信之后,信宿收到了信源发来的信息,这种先验不确定性才会被消除或者
3、被减少。这种先验不确定性才会被消除或者被减少。n n如果干扰很小,不会对传递的信息产生任何可察如果干扰很小,不会对传递的信息产生任何可察觉的影响,信源发出的信息能够被信宿全部收到,觉的影响,信源发出的信息能够被信宿全部收到,在这种情况下,信宿的先验不确定性就会被完全在这种情况下,信宿的先验不确定性就会被完全消除。消除。n n在一般情况下,干扰总会对信源发出的信息造成某种在一般情况下,干扰总会对信源发出的信息造成某种破坏,使信宿收到的信息不完全。破坏,使信宿收到的信息不完全。n n先验不确定性不能全部被消除,只能部分地消除。先验不确定性不能全部被消除,只能部分地消除。n n通信结束之后,信宿仍然
4、具有一定程度的不确定性。通信结束之后,信宿仍然具有一定程度的不确定性。这就是这就是后验不确定性后验不确定性,用,用条件熵表示条件熵表示HH(U/VU/V)。n n后验不确定性总要小于先验不确定性后验不确定性总要小于先验不确定性:HH(U/VU/V)H H H(X X)故信源故信源Y Y比信源比信源X X的平均不确定性要大。的平均不确定性要大。信信息息熵熵H H(U U)是是信信源源输输出出前前的的平平均均不不确确定定性性,也称先也称先验熵验熵。HH(U U)的性)的性)的性)的性质质质质:(1 1)H H(U U)=0=0时时,说说明明只只存存在在着着唯唯一一的的可可能能性性,不存在不确定性。
5、不存在不确定性。(2 2)如如果果n n种种可可能能的的发发生生都都有有相相同同的的概概率率,即即所所有有的的U Ui i有有P P(U Ui i)=1/=1/n n,H H(U U)达达到到最最大大值值log log n n,系系统统的不确定性最大。的不确定性最大。P P(U Ui i)互互相相接接近近,H H(U U)就就大大。P P(U Ui i)相相差差大,大,则则H H(U U)就小。)就小。(1)(1)后后后后验熵验熵验熵验熵和条件和条件和条件和条件熵熵熵熵当没有接收到输出符号V时,已知输入符号U的概率分布为P(U),而当接收到输出符号V=Vj 后,输入符号的概率分布发生了变化,变
6、成后验概率分布P(U|Vj)。其后验熵为:7互信息(增益)当没有接收到输出符号V时,已知输入符号U的概率分布为P(U),而当接收到输出符号V=Vj 后,输入符号的概率分布发生了变化,变成后验概率分布P(U|Vj)。那么接收到输出符号V=Vj后,关于U的平均不确定性为:这这是接收到是接收到输输出符号出符号V Vj j后关于后关于U U的条件的条件熵熵 7互信息(增益)这这个个条条件件熵熵称称为为信信道道疑疑义义度度。它它表表示示在在输输出出端端收收到到全全部部输输出出符符号号V V后后,对对于于输输入入端端的的符符号号集集U U尚尚存存在的不确定性(存在疑在的不确定性(存在疑义义)。)。从上面分
7、析可知:条件从上面分析可知:条件熵熵小于无条件小于无条件熵熵,即,即HH(U U|V V)HH(U U)。说说明明接接收收到到符符号号集集V V的的所所有有符符号号后后,关关于于输输入入符符号号U U的的平平均均不不确确定定性性减减少少了了。即即总总能能消消除除一一些些关关于于输输入入端端X X的不确定性,从而的不确定性,从而获获得了一些信息。得了一些信息。(2)平均互信息(信息增益)平均互信息(信息增益)定义:I(U,V)=H(U)H(U|V)(3.10)I(U,V)称为U和V之间的平均互信息(信息增益),它代表接收到符号集V后获得的关于U的信息量。可见,熵(H(U)、H(U|V)只是平均
8、不 确 定 性 的 描 述。熵 差(H(U)H(U|V)是不确定性的消除,即互信息(信息增益)才是接收端所获得的信息量。(2)平均互信息(信息增益)平均互信息(信息增益)对输入端U只有U1,U2两类,互信息(信息增益)的计算公式为:7.2 7.2 决策树方法决策树方法n n7.2.17.2.1决策树概念决策树概念n n决策树是对数据进行分类,以此达到预测的目的。决策树方法先根据训练集数据形成决策树,如果该树不能对所有对象给出正确的分类,那么选择一些例外加入到训练集数据中,重复该过程一直到形成正确的决策集。决策树代表着决策集的树形结构。7.2 7.2 决策树方法决策树方法n n7.2.17.2.
9、1决策树概念决策树概念n n决策树由决策结点、分支和决策树由决策结点、分支和叶子组成。决策树中最上面叶子组成。决策树中最上面的结点为根结点,每个分支的结点为根结点,每个分支是一个新的决策结点,或者是一个新的决策结点,或者是树的叶子。每个决策结点是树的叶子。每个决策结点代表一个问题或决策,通常代表一个问题或决策,通常对应于待分类对象的属性。对应于待分类对象的属性。每一个叶子结点代表一种可每一个叶子结点代表一种可能的分类结果。能的分类结果。天气湿度风晴雨多云高正常有风无风PNNPP7.2 7.2 决策树方法决策树方法n n7.2.17.2.1决策树概念决策树概念n n决策树的根结点是所有样本中信息
10、量最大的属性。树的中间结点是该结点为根的子树所包含的样本子集中信息量最大的属性。决策树的叶结点是样本的类别值。天 气湿 度风晴雨多云高正常有风无风PNNPPn n决策树是一种知识表示形式,它是对所有样本数决策树是一种知识表示形式,它是对所有样本数据的高度概括。据的高度概括。n n决策树能准确地识别所有样本的类别,也能有效决策树能准确地识别所有样本的类别,也能有效地识别新样本的类别。地识别新样本的类别。7.2.2 ID37.2.2 ID3方法基本思想方法基本思想n n当前国际上最有影响的CLS(Concept Learning System)是ID3(Interative Discremiser
11、 versions3).n nID3算法是由Quinlan首先提出的,该算法是以信息论为基础,以信息熵和信息增益度为衡量标准,从而实现对数据的归纳分类。7.2.2 ID37.2.2 ID3方法基本思想方法基本思想n nCLS原理:n n首先找出首先找出最有判别力的特征最有判别力的特征,把数据分成,把数据分成多个子集,每个多个子集,每个子集又选择最有判别力的子集又选择最有判别力的特征特征进行划分,一直进行到进行划分,一直进行到所有子集仅包所有子集仅包含同一类型含同一类型的数据为止。最后得到一棵决的数据为止。最后得到一棵决策树。策树。n n如:有关气候类型的研究,特征(属性)如:有关气候类型的研究
12、,特征(属性)天气(晴、雨、多云),气温(冷、热、天气(晴、雨、多云),气温(冷、热、适中),风(有风、无风)等适中),风(有风、无风)等7.2.2 ID37.2.2 ID3方法基本思想方法基本思想n nCLS原理:原理:n n怎么来确定哪个是有判断力的属性呢怎么来确定哪个是有判断力的属性呢?n nJ.R.Quinlan的工作主要是引进了信息的工作主要是引进了信息论中的互信息,他将其称为信息增益论中的互信息,他将其称为信息增益(information gain),作为特征判别),作为特征判别能力的度量。能力的度量。例如:关于气候的类型,特征为:天气 取值为:晴,多云,雨 气温 取值为:冷,适中
13、,热 湿度 取值为:高,正常 风 取值为:有风,无风 一、一、ID3ID3基本思想基本思想n n为简单起见,假定仅有两个类别,分为简单起见,假定仅有两个类别,分别为别为P,N。在这种两个类别的归纳任。在这种两个类别的归纳任务中,务中,P类和类和N类的实体分别称为概念类的实体分别称为概念的正例和反例。将一些已知的正例和的正例和反例。将一些已知的正例和反例放在一起便得到训练集。反例放在一起便得到训练集。NO.属性类别天气气温湿度风1晴热高无风N2晴热高有风N3多云热高无风P4雨适中高无风P5雨冷正常无风P6雨冷正常有风N7多云冷正常有风P8晴适中高无风N9晴冷正常无风P10雨适中正常无风P11晴适
14、中正常有风P12多云适中高有风P13多云热正常无风P14雨适中高有风N天 气湿 度风晴雨多云高正常有风无风PNNPPID3决策树对上表给出的训练集,由对上表给出的训练集,由ID3算法得出一棵算法得出一棵正确分类训练集中每个实体的决策树正确分类训练集中每个实体的决策树n n决策树叶子为类别名,即决策树叶子为类别名,即P P 或者或者NN。其它结点由实。其它结点由实体的特征组成,每个特征的不同取值对应一分枝。体的特征组成,每个特征的不同取值对应一分枝。n n若要对一实体分类,从树根开始进行测试,按特若要对一实体分类,从树根开始进行测试,按特征的取值分枝向下进入下层结点,对该结点进行征的取值分枝向下
15、进入下层结点,对该结点进行测试,过程一直进行到叶结点,实体被判为属于测试,过程一直进行到叶结点,实体被判为属于该叶结点所标记的类别。该叶结点所标记的类别。天气湿度风晴雨多云高正常有风无风PNNPPn n现用图来判一个具体例子,现用图来判一个具体例子,某天早晨气候描述为某天早晨气候描述为:天气天气:多云:多云 气温气温:冷:冷 湿度湿度:正常:正常 风风:无风无风 它属于哪类气候呢它属于哪类气候呢?n n从图中可判别该实体从图中可判别该实体的类别为的类别为P P类。类。天 气湿 度风晴雨多云高正常有风无风PNNPPID3ID3就是要从表的训练集来构造上图这样的决策树。就是要从表的训练集来构造上图
16、这样的决策树。实际上,能正确分类训练集的决策树不止一棵。实际上,能正确分类训练集的决策树不止一棵。QuinlanQuinlan的的ID3ID3算法能得出结点最少的决策树。算法能得出结点最少的决策树。(一)主算法(一)主算法 从训练集中随机选择一个既含正例又含反例的子集(称为窗口);用“建树算法”对当前窗口形成一棵决策树;对训练集(窗口除外)中例子用所得决策树进行类别判定,找出错判的例子;若存在错判的例子,把它们插入窗口,转2,否则结束。二、二、ID3ID3算法算法训练集PE、NE取子集建窗口窗口PE、NE生成决策树测试PE、NE扩展窗口PE=PE+PENE=NE+NE此决策树为最后结果存在错判
17、的PE,NE吗是否ID3主算法流程PE、NE分别表示正例集和反例集,它们共同组成训练集PE,PE和NE,NE分别表示正例集和反例集的子集。主算法流程用下图表示主算法流程用下图表示 对当前例子集合,计算各特征的互信息(信息对当前例子集合,计算各特征的互信息(信息增益);增益);选择互信息(信息增益)最大的特征选择互信息(信息增益)最大的特征A Ak k;把在把在A Ak k处取值相同的例子归于同一子集,处取值相同的例子归于同一子集,A Ak k取取几个值就得几个子集;几个值就得几个子集;对既含正例又含反例的子集,递归调用建树算对既含正例又含反例的子集,递归调用建树算法;法;若子集仅含正例或反例,
18、对应分枝标上若子集仅含正例或反例,对应分枝标上P P或或NN,返回调用处。返回调用处。(二)建树算法(二)建树算法实例计算实例计算 对于气候分类问题进行具体计算对于气候分类问题进行具体计算(找出(找出根节点根节点)信息熵的计算信息熵的计算信息熵的计算信息熵的计算信息熵:信息熵:类别出现概率:类别出现概率:|S|S|表示例子集表示例子集S S的总数(的总数(1414),),|u|ui i|表示类别表示类别u ui i的例子数。的例子数。u u1 1代表正例代表正例P P共共9 9个和个和u u2 2代表反例代表反例NN共共5 5个,有:个,有:P P(u u1 1)=9/14=9/14 P P(
19、u u2 2)=5/14=5/14H(U)=H(U)=(9/149/14)loglog(14/914/9)+(5/145/14)loglog(14/514/5)=0.94bit=0.94bitNO.属性类别天气气温湿度风1晴热高无风N2晴热高有风N3多云热高无风P4雨适中高无风P5雨冷正常无风P6雨冷正常有风N7多云冷正常有风P8晴适中高无风N9晴冷正常无风P10雨适中正常无风P11晴适中正常有风P12多云适中高有风P13多云热正常无风P14雨适中高有风N 条件条件熵计熵计算算条件条件熵熵:属性属性A A1 1取取值值v vj j时时,类别类别u ui i的条件概率:的条件概率:A A1 1=
20、天气天气 取取值值 v v1 1=晴,晴,v v2 2=多云,多云,v v3 3=雨雨在在A A1 1处处取取值值晴晴的的例例子子5 5个个,取取值值多多云云的的例例子子4 4 个个,取取值值雨雨的的例例子子5 5 个,故:个,故:P P(v v1 1)=5/14 P=5/14 P(v v2 2)=4/14 P=4/14 P(v v3 3)=5/14=5/14取取值为值为晴的晴的5 5 个例子中有个例子中有2 2 个正例、个正例、3 3个反例,故:个反例,故:P P(u u1 1/v/v1 1)=2/5=2/5,P P(u u2 2/v/v1 1)=3/5=3/5同理有:同理有:P P(u u
21、1 1/v/v2 2)=4/4=4/4,P P(u u2 2/v/v2 2)=0=0 P P(u u1 1/v/v3 3)=2/5=2/5,P P(u u2 2/v/v3 3)=3/5=3/5H(U/V)=(5/14)(2/5)log(5/2)+(3/5)log(5/3)+(4/14)(4/4)log(4/4)H(U/V)=(5/14)(2/5)log(5/2)+(3/5)log(5/3)+(4/14)(4/4)log(4/4)+0)+(5/14)(2/5)log(5/2)+(3/5)log(5/3)=0.694bit+0)+(5/14)(2/5)log(5/2)+(3/5)log(5/3)=
22、0.694bit 互信息(信息增益)计算互信息(信息增益)计算 对 A1=天气 处有:I(天气)=H(U)-H(U|V)=0.94-0.694=0.246 bit 类似可得:I(气温)=0.94-0.911=0.029 bit I(湿度)=0.94-0.788=0.151 bit I(风)=0.94-0.892=0.048 bit 条件条件熵计熵计算算A A2 2=气温气温 取取值值 v v1 1=热热,v v2 2=适中,适中,v v3 3=冷冷在在A A2 2处处取取值值热热的的例例子子4 4个个,取取值值适适中中的的例例子子6 6 个个,取取值值冷冷的的例例子子4 4 个,故:个,故:P
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息论方法 信息论 方法 PPT 课件
限制150内