2022年数据挖掘与知识发现分享 .pdf
《2022年数据挖掘与知识发现分享 .pdf》由会员分享,可在线阅读,更多相关《2022年数据挖掘与知识发现分享 .pdf(22页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据挖掘与知识发现讲稿主讲:刘以安装订线1 第四章决策树 (decision tree) 决策 树 也 是归纳 学习中常用的一种知识表示形式,常用于分类。同时,也是 发 现 概念描述空间的一种有效方法。决策树的主要优点 是描述简单,分类速度快,特别适合大规模的数据处理。教学目的:掌握决策树学习的概念重点掌握ID3 学习算法以及决策树的构造了解目前常用的决策树改进方法4.1 概念描述空间的归纳学习归纳学习旨在从大量的经验数据中归纳抽取出一般的规则和模式,因而成为知识获取的主要手段,在专家系统、模式识别、图像处理、语音识别等领域都有重要应用。归纳学习是机器学习最核心、最成熟的分支。示例 数字识别应
2、用:假设有三类数字,即0,1,2。每类有两个例子,每个例子有四个属性描述,即孔数(#hole ) 、端点数( #end ) 、交叉点数( #cross ) 、右上弧数( #right-arc ) 。如表所示。可归纳产生三类数字的如下规则:0 类:#hole=1#cross=0 1 类:#hole=0#right-arc=0 2 类:#end=2#right-arc=1 归纳学习是符号学习中研究得最为广泛的一种方法。思想是 :给定关于某个概念的一系列已知的正例和反例,从中归纳出一个通用的概念描述。归纳学习能够获得新的概念,创立新的规则, 发现新的理论。它的一般操作名师资料总结 - - -精品资料
3、欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 22 页 - - - - - - - - - 数据挖掘与知识发现讲稿主讲:刘以安装订线2 是泛化和特化 。泛化 用来扩展某一假设的语义信息,使其能包含更多的正例,应用于更多的情况; 特化 是泛化的相反操作,用于限制概念描述的应用范围。示例 假设我们被要求从一副扑克牌中选择一张牌,如果选到好牌就可以获奖。已知前面被抽出的牌有: 梅花 4、梅花 7、黑桃 2、红桃 5 和黑桃 J,其中前三张都获奖,后两张没有获奖。试用归纳学习帮助选择能获奖的好牌。解:取纸牌的
4、一组属性:1V- 花色( Suit )和阶2V- (Rank ) ,如:梅花 4 显然,纸牌的示例空间21VV就是所有牌的集合。它是由属性Suit和 Rank所定义的,其中,属性21,VV的可观察值集合为:,l u b1h ea r t sd i a m o n d ss p a d e sscV-梅花、黑桃、方块、红桃,10,9,8,7,6,5,4,3,2,12KQJV每个示例就是单张牌。设 X 是一组确定属性决定的示例空间 (如,21VV) ;H 是定义在 X 上的假设空间 (如, H=梅花 4、梅花 7、黑桃 2、红桃 5 和黑桃 J ) ,也就是用 X 的属性按一定的逻辑形式定义的一组
5、概念。Q 是定义在 X 上的目标概念c的示例有限集,我们定义 Q 的描述空间 是由 H 中适合 Q 的全部示例的假设构成的集合。如果示例空间是有限的, 且目标概念 c 是 H 的成员。当新的示例添加到Q 中时,Q 描述空间将收缩,最终直到仅包含目标概念c,这时称描述空间被穷尽。对描述空间可以用描述图来表示,它是一个无回路的有向图, 其中各节点是描述空间的元素。如果从节点p 到 q 有一条弧,当且仅当下面两条性质成立:p 比 q 特殊;不存在节点 r,它比 p 普遍,比 q 特殊。取 PE=梅花 4、梅花 7、黑桃 2 为正例; NE=红桃 5 和黑桃 J 为反例。这样对,梅花 4是肯定示例,其
6、描述图为这里,cclubs; b-black; n-num; a-any-suit 或 any-rank 。图中从左到右表示suit从特殊到普遍,垂直方向从下到上表示Rank从特殊到普遍; ba表示的概念为)()(r a n kanyRankblacksuit,即所有黑色的牌。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 22 页 - - - - - - - - - 数据挖掘与知识发现讲稿主讲:刘以安装订线3 这时增加新的示例, 如梅花 7,能修剪描述空间。 删除三个涉
7、及阶是4 的概念,因为它们不能覆盖该肯定示例,得到新的描述图。同理,由否定示例红桃5 可修剪掉 aa和 an,因为这两个概念覆盖该否定示例;肯定示例黑桃2 剪掉梅花,最后由否定示例黑桃 J将描述空间缩小到单个概念bn,即黑色 数字牌 。4.2 决策树学习决 策 树是 用 样本的属性 作为结点,用属性的取值 作为分支的树结构。它是利 用 信 息论原理 对大量样本的属性进行分析和归纳而产生的。决策树的根结点是 所 有 样本信息中信息量最大的属性。中间结点是以该结点为根的子树所包含的样本子集中信息量最大的属性。决策树的叶结点是样本的类别值。决 策 树学 习 是以实例为基础的归纳学习算法。它着眼于从一
8、组无次序、无规则的事例中推理出决策树表示形式的分类规则。它采用自顶向下的递推方式,在 决 策 树的内部结点进行属性值的比较并根据不同的属性值判断从该结点向下的 分 枝 ,在决策树的叶结点得到结论。所以,从根结点到叶结点的一条路径就对应着一条 合取 规则,整棵决策树就对应着一组析取 表达式规则。决策 树 的 内部 结点是属性或属性集,称为测试属性 ;叶结点是所要学习划分的类。先用训练实例集产生决策树,然后用其对未知实例集进行分类。对实例进行分类时, 由树根开始对该对象的属性逐渐测试其值,并且顺着分支向下走,直至到达某个叶结点,此叶结点代表的类即为该对象所处的类。例如 一棵基于表 1 中数据的用于
9、检测网络入侵行为的决策树。这个决策树,用 IP 端口和系统名称标示内部结点,用入侵和正常表示叶结点,如下图描述。决策树可转换成如下的规则:(C+表示)If (System name=Artemis) Intrusion=false; 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 22 页 - - - - - - - - - 数据挖掘与知识发现讲稿主讲:刘以安装订线4 Else If (IP port=002210) Intrusion=true; else if (IP
10、 port=004020) Intrusion=true; Else if (IP port=000010) Intrusion=false; 根据决策树的各种不同属性,有以下几种不同的决策树:决策树的内结点的测试属性可能是单变量的,即每个内结点只包含一个属性,也可能是多变量的,即存在包含多个属性的内结点;根据测试属性的不同属性值的个数,可能使每个内结点有两个或多个分支。如果每个内结点只有两个分支,则称之为二叉树决策树;每个属性可能是值类型,也可能是枚举类型;分类结果既可能是两类,也可能是多类。如果二叉决策树的结果只能有两类,则称之为布尔决策树。对布尔决策树可很容易以析取范式的方式表示。如下图
11、为)()(14323XXXXX的析取范式 。另外,所有的决策树学习都有一些等价的网络表示形式。如上图的人工神经网络与决策树表达了同一个析取概念)()(14323XXXXX,所执行的功能相同。4.3 CLS 学习算法概念学习系统( CLS:Concept Learning System)是 1966 年由 Hunt等人提出的,是早期决策树学习算法,后来的决策树学习算法均可视为CLS 算法的改进和更新。CLS 算法的主要思想是:从一个空的决策树出发,选择某一属性(分类属性)作为测试属性,该测试属性对应决策树中的决策结点,根据该属性值的不同,可将训练样本分成相应的子集。如果该子集为空,或该子集中的样
12、本属于同一类,则该子集为叶结点,否则该子集对应于决策树的内部结点,即测试结点。需再选择一个名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页,共 22 页 - - - - - - - - - 数据挖掘与知识发现讲稿主讲:刘以安装订线5 新的分类属性对该子集进行划分,直至所有的子集者为空或属于同一类为止。例如,假设有一组人,眼睛和头发的颜色及所属的人种情况如下表:假设首先选择 眼睛颜色 作为测试属性,则从该结点引出三个分支图:选择眼睛颜色作为决策属性这三个分支将样本集分成三个子集1
13、,6 、2,4,8 和3,5,7 。但这三个子集中的元素都不属于同一结果类,因此它们都不是叶结点,需要继续划分,即需要添加新的测试结点。如 头发颜色 ,由于 头发颜色 = 黑色,金色,红色 ,所以从子集中可引出三个新的分支:图:添加头发颜色作为新的决策属性通过增加结点逐步求精,直到生成一棵能正确分类训练样本的决策树。学习算法 CLS 算法的步骤可描述为:令决策树 T 的初始状态只含有一个树根 (X,Q) ,其中 X 是全体训练实例的集合, Q 是全体测试属性的集合;若 T 的所有叶结点 (,QX)都有如下状态:或者第一个分量X中的训练实例都属于同一个类, 或者第二个分量Q为空,则停止执行学习算
14、法, 学习的结果为 T;名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页,共 22 页 - - - - - - - - - 数据挖掘与知识发现讲稿主讲:刘以安装订线6 否则,选取一个不具有步骤所述状态的叶结点),(QX;对于Q,按照 一定规则 选取测试属性 b,设X被 b 的不同取值分为m 个不相交的子集miXi1 ,,从),(QX伸出 m个分叉,每个分叉代表 b 的一个不同取值,从而形成m个新的叶结点),(bQX,mi1;转步骤。从 CLS 的算法描述可以看出, 决策树的构造
15、过程也就是假设特化的过程。但 CLS算法并没有规定采用何种测试属性。然而,测试属性集的组成以及测试属性的先后都对决策树的学习有着举足轻重的影响。此外,CLS 算法所能处理的学习问题不能太大。4.4 ID3(Iterative Dichotomizer 3 )学习算法CLS 算法的思路 是找出最有分辨能力的属性,把数据库划分为许多子集(对应树的一个分枝),构成一个分枝过程,然后对每个子集递归调用分枝过程,直到所有子集包含同一类型数据。最后得到的决策树能对新的例子进行分类,但CLS 的不足是(1)没给出如何选取测试属性b;(2)它处理的学习问题不能太大。为此,Quinlan提出了著名的以 属性为分
16、类节点的 ID3 学习算法,他是以信息熵的 下 降 速度 作为选取测试属性的标准,通过窗口来形成决策树。信息熵的下降也就是信息不确定性的下降。1)信息论简介信息论是由 C.E.Shannon (信息论的创始人) 1948年为解决信息传递(通信)过程问题而提出的 以数学的方法来度量并研究信息的理论,也称为统计通信理论。他把 一 个 传 递信 息的系统 视为,由发送端(信源) 、接收端(信宿)和连接两者的通道(信道)三者组成。其中,)|(XYP称为信道的传输概率或转移概率,它反映信道的输入与输出关系。可用矩阵来表示,称为转移概率矩阵。名师资料总结 - - -精品资料欢迎下载 - - - - - -
17、 - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 6 页,共 22 页 - - - - - - - - - 数据挖掘与知识发现讲稿主讲:刘以安装订线7 )|()|()|()|()|()|()|()|()|()|(212222111211rqrrqquvPuvPuvPuvPuvPuvPuvPuvPuvPXYP这里,riuvPqjij,2, 1,1)|(1。从此通信模型可看出,在进行实际的通信之前,收信者(信宿)不可能确切了解信源究竟会发什么样的具体信息,也不可能判断信源会处于什么样的状态。这种情形就称为信宿对于信源状态具有不确定性,而且这种不确定性是
18、存在于通信之前的,因此又叫做 先验不确定性。在进行了通信之后,信宿收到了信源发来的信息,这种先验不确定性才会被消除或者被减少。如果干扰很小,不会对传递的信息产生任何可察觉影响,信源发出的信息能够被信宿全部收到,在这种情况下,信宿的先验不确定性就会被完全消除。但是,在一般情况下,干扰总会对信源发出的信息造成某种破坏,使信宿收到的信息不完全。因此,先验不确定性不能全部被消除,只能部分地消除。换句话说,通信结束之后,信宿仍然具有一定程度的不确定性。这就是后验不确定性。显然,后验不确定性总要小于先验不确定性,不可能大于先验不确定性。(1)如果后验不确定性的大小正好等于先验不确定性的大小,这就表示信宿根
19、本没有收到信息。(2)如果后验不确定性的大小等于零,这就表示作宿收到了全部信息。可见,信息是用来消除(随机)不确定性的度量。信息量的大小,由所消除的不确定性的大小来计量。下面介绍几个概念:信息(符号)iu(ri,2,1)的发生概率)(iup组成信源数学模型(样本空间或概率空间):)()()(,2121rrupupupuuuPX 自信息量 :消息iu发生后所含有的信息量。即在收到iu事件之前,收信者对信源发出iu的不确定性,定义为信号符号iu的自信息量)(iuI。即)(log)(1log)(22iiiuPuPuI其中,)(iuP为信源发出iu事件的概率;名师资料总结 - - -精品资料欢迎下载
20、- - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 7 页,共 22 页 - - - - - - - - - 数据挖掘与知识发现讲稿主讲:刘以安装订线8 信息熵 : 自信息的数学期望。 因为自信息量只能反映符号收到前的不确定性,而信息熵可以用来度量整个信源X 整体的不确定性, 即信源发出信息前的平均不确定性。定义如下:riiirruPuPuIuPuIuPuIuPXE122211)(l o g)()()()()()()()(其中, r 为信源 X 所有可能的符号数ruuu,21,即用信源每发一个符号所提供的平均自信息量来定义信息熵
21、。上式中,对数底数b可为任何正数,不同的取值对应熵的不同单位,但通常取2b;并规定:当0)(iup时,0)(log)(ibiuPup。当对数的底为 2 时,)(iuI的单位为比特( bit) ;当对数的底为e时,)(iuI的单位为奈特( nat) ;当对数的底为 10时,)(iuI的单位为哈特( hart) ;1 奈特=1.44 比特;1 哈特=3.32 比特。)( XE的性质如下:)( XE=0时,说明只存在着唯一的可能性,不存在不确定性;如果 n种可能的发生都具有相同的概率, 即对所有的iu, 有nuPi/1)(,则)( XE达到最大值n2log,说明系统的不确定性最大;)(iuP互相越接
22、近,)( XE就越大;)(iuP相差大,则)( XE就小。如果信道中无干扰(噪声) ,信道输出符号与输入符号一一对应,那么接收到传送过来的符号后,就消除了对发送符号的先验不确定性。后验熵一般信道中有干扰存在,信宿接收到符号V 后,对信源发出的是什么符号仍有不确定性。对此如何度量?当没有接收到输出符号V 时,已知发出符号 U 的概率分布 P(U),而接收到输出符号jvV后,输入符号的概率分布发生了变化,变成了后验概率分布)|(jvUP。那么,接收到输出符号jvV后,关于 U 的平均不确定性为:ijijijvuPvuPvUE)|(1l o g)|()|(2名师资料总结 - - -精品资料欢迎下载
23、- - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 8 页,共 22 页 - - - - - - - - - 数据挖掘与知识发现讲稿主讲:刘以安装订线9 这就是接收到输出符号jv后关于 U 的后验熵 。即后验熵是当信道接收到输出符号jv后,关于输入符号U 的信息度量。条件熵后验熵在输出符号集V 的范围内是个随机量,所以对于后验熵在输出符号集V中求期望,得到条件熵:jjjvUEvPVUE)|()()|(=jijijijvuPvuPvP)|(1log)|()(2(* )这个条件熵称为称为信道疑义度 。它表示在输出端收到全部输出符号V
24、 后,对于输入端的符号集U 尚存在的不确定性(存在疑义) 。对 U 集尚存在的不确定性是由于干扰(噪声)引起的,如果是一一对应,那么接收到符号集V 后,对 U 集的不确定性完全消除,则信道疑义度0)|(VUE。在决策分类中,假设X是训练样本集,| X是训练样本数;样本划分为n个不同的类nCCC,21,则任意样本X属于类iC的概率为|)(XCXPii所以,样本X的平均信息熵为1221|(|,)(l o g)|niiniCCEXCCCXX如果a为X中取有限个不同值maaa,21的属性,样本集X划分为m个不同的子集,21mXXX,则由式( *)知,由属性a划分的决策树分类的平均条件熵为mjjjaXE
25、XpaXE1)|()()|(mjnijijijXCpXCpXp112)|(l o g)|()(若设|ijX表示为子集jX中类iC的样本数,则|)|(XXXCPijji。 信息增益 :一般)()|(XEaXE,样本分类的熵值发生了变化,即属性a对于分类提供了信息,熵的变化量称为属性a对于分类的信息增益)(aGain,则0)|()()(aXEXEaG a i n(证明略)名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 9 页,共 22 页 - - - - - - - - - 数据挖掘与知
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年数据挖掘与知识发现分享 2022 数据 挖掘 知识 发现 分享
限制150内