分类其他技术PPT讲稿.ppt
《分类其他技术PPT讲稿.ppt》由会员分享,可在线阅读,更多相关《分类其他技术PPT讲稿.ppt(134页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、分类其他技术分类其他技术第1页,共134页,编辑于2022年,星期五2023/1/91数据挖掘:概念与技术第第5章章 分类分类:其他技术其他技术 基于规则的分类基于规则的分类最近邻分类最近邻分类贝叶斯分类贝叶斯分类神经网络神经网络支持向量机支持向量机组合方法组合方法不平衡类问题不平衡类问题多类问题多类问题第2页,共134页,编辑于2022年,星期五2023/1/92数据挖掘:概念与技术5.1 基于规则的分类器基于规则的分类器第3页,共134页,编辑于2022年,星期五2023/1/93数据挖掘:概念与技术基于规则的分类器基于规则的分类器n使用一组使用一组“ifthen”规则进行分类规则进行分类
2、n规则规则:(Condition)yn其中其中 n Condition 是属性测试的合取是属性测试的合取n y 是类标号是类标号n左部左部:规则的前件或前提规则的前件或前提n右部右部:规则的结论规则的结论n分类规则的例子分类规则的例子:n(Blood Type=Warm)(Lay Eggs=Yes)Birdsn(Taxable Income 鸟类鸟类n规则规则r3 覆盖覆盖“灰熊灰熊”=哺乳类哺乳类名称体温表皮覆盖胎生水生动物飞行动物有腿冬眠类标号鹰灰熊 恒温恒温羽毛软毛否是否否是否是是否是?2023/1/96数据挖掘:概念与技术第6页,共134页,编辑于2022年,星期五规则的质量规则的质量
3、 n用覆盖率和准确率度量用覆盖率和准确率度量n规则的覆盖率(规则的覆盖率(coverage):n满足规则前件的记录所占的比满足规则前件的记录所占的比例例n规则的准确率(规则的准确率(accuracy):n在满足规则前件的记录中,满足规在满足规则前件的记录中,满足规则后件的记录所占的比例则后件的记录所占的比例n规则规则:(Status=Single)No Coverage=40%,Accuracy=50%Tid Refund Marital Status Taxable Income Class 1Yes Single 125KNo2No Married 100K No3No Single 70
4、K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9No Married 75K No 10NoSingle90K Yes10 2023/1/97数据挖掘:概念与技术第7页,共134页,编辑于2022年,星期五如何用规则分类如何用规则分类n一组规则一组规则r1:(胎生:(胎生=否)否)(飞行动物(飞行动物=是)是)鸟类鸟类r2:(胎生:(胎生=否)否)(水生动物(水生动物=是)是)鱼类鱼类r3:(胎生:(胎生=是)是)(体
5、温(体温=恒温)恒温)哺乳类哺乳类r4:(胎生:(胎生=否)否)(飞行动物(飞行动物=否)否)爬行类爬行类r5:(水生动物:(水生动物=半)半)两栖类两栖类n待分类记录待分类记录n狐猴触发规则狐猴触发规则 r3,它分到哺乳类它分到哺乳类n海龟触发规则海龟触发规则r4和和 r5-冲突冲突n狗鲨未触发任何规则狗鲨未触发任何规则名称名称体温体温胎生胎生飞行动物飞行动物水生动物水生动物类类狐猴恒温是否否?海龟冷血否否半水生?狗鲨冷血是否是?2023/1/98数据挖掘:概念与技术第8页,共134页,编辑于2022年,星期五规则的分类器的特征规则的分类器的特征n互斥规则集互斥规则集n每个记录最多被一个规则
6、覆盖每个记录最多被一个规则覆盖n如果规则都是相互独立的,分类器包含互斥规则如果规则都是相互独立的,分类器包含互斥规则n如果规则集不是互斥的如果规则集不是互斥的n一个记录可能被多个规则触发一个记录可能被多个规则触发n如何处理如何处理?n 有序规则集有序规则集n基于规则的序基于规则的序 vs 基于类的序基于类的序n 无序规则集无序规则集 使用投票策略使用投票策略2023/1/99数据挖掘:概念与技术第9页,共134页,编辑于2022年,星期五规则的分类器的特征规则的分类器的特征(续续)n穷举规则集穷举规则集n每个记录至少被一个规则覆盖每个记录至少被一个规则覆盖n如果规则集涵盖了属性值的所有可能组合
7、,则规则集具有穷举覆盖如果规则集涵盖了属性值的所有可能组合,则规则集具有穷举覆盖n如果规则集不是穷举的如果规则集不是穷举的n一个记录可能不被任何规则触发一个记录可能不被任何规则触发n如何处理如何处理?n 使用缺省类使用缺省类2023/1/910数据挖掘:概念与技术第10页,共134页,编辑于2022年,星期五有序规则集有序规则集n根据规则优先权将规则排序定秩(根据规则优先权将规则排序定秩(rank)n有序规则集又成决策表(有序规则集又成决策表(decision list)n对记录进行分类时对记录进行分类时n由被触发的,具有最高秩的规则确定记录的类标号由被触发的,具有最高秩的规则确定记录的类标号
8、n如果没有规则被触发,则指派到缺省类如果没有规则被触发,则指派到缺省类r1:(胎生:(胎生=否)否)(飞行动物(飞行动物=是)是)鸟类鸟类r2:(胎生:(胎生=否)否)(水生动物(水生动物=是)是)鱼类鱼类r3:(胎生:(胎生=是)是)(体温(体温=恒温)恒温)哺乳类哺乳类r4:(胎生:(胎生=否)否)(飞行动物(飞行动物=否)否)爬行类爬行类r5:(水生动物:(水生动物=半)半)两栖类两栖类名称名称体温体温胎生胎生飞行动物飞行动物水生动物水生动物类类海龟冷血否否半水生?2023/1/911数据挖掘:概念与技术第11页,共134页,编辑于2022年,星期五规则定序方案规则定序方案n基于规则的序
9、基于规则的序n根据规则的质量排序根据规则的质量排序n基于类的序基于类的序n属于同一类的规则放在一起属于同一类的规则放在一起n基于类信息(如类的分布、重要性)对每类规则排序基于类信息(如类的分布、重要性)对每类规则排序基于规则的排序(表皮覆盖=羽毛,飞行动物=是)鸟类(体温=恒温,胎生=是)哺乳类(体温=恒温,胎生=否)鸟类(水生动物=半)两栖类(表皮覆盖=鳞片,水生动物=否)爬行类(表皮覆盖=鳞片,水生动物=是)鱼类(表皮覆盖=无)两栖类 基于类的排序(表皮覆盖=羽毛,飞行动物=是)鸟类(体温=恒温,胎生=否)鸟类(体温=恒温,胎生=是)哺乳类(水生动物=半)两栖类(表皮覆盖=无)=两栖类(表
10、皮覆盖=鳞片,水生动物=否)爬行类(表皮覆盖=鳞片,水生动物=是)鱼类 2023/1/912数据挖掘:概念与技术第12页,共134页,编辑于2022年,星期五如何建立基于规则的分类器如何建立基于规则的分类器n直接方法直接方法:n直接由数据提取规则直接由数据提取规则n例如例如:RIPPER,CN2,Holtes 1Rn间接方法间接方法:n由其他分类模型提取规则由其他分类模型提取规则(例如,从决策树、神经网络等例如,从决策树、神经网络等).n例如例如:C4.5rules2023/1/913数据挖掘:概念与技术第13页,共134页,编辑于2022年,星期五直接方法直接方法:顺序覆盖顺序覆盖n基本思想
11、基本思想n依次对每个类建立一个或多个规则依次对每个类建立一个或多个规则n对第对第i类建立规则类建立规则n第第i类记录为正例,其余为负例类记录为正例,其余为负例n建立一个第建立一个第i类的规则类的规则r,尽可能地覆盖正例,而不覆盖负例,尽可能地覆盖正例,而不覆盖负例n删除删除r覆盖的所有记录,在剩余数据集上学习下一个规则,直到覆盖的所有记录,在剩余数据集上学习下一个规则,直到所有第所有第i类记录都被删除类记录都被删除2023/1/914数据挖掘:概念与技术第14页,共134页,编辑于2022年,星期五直接方法直接方法:顺序覆盖顺序覆盖n顺序覆盖(顺序覆盖(sequential covering)
12、算法)算法 1:令:令E是训练记录,是训练记录,A是属性是属性值对的集合值对的集合(Aj,vj)2:令:令Yo是类的有序集是类的有序集y1,y2,.,yk 3:令:令R=是初始规则列表是初始规则列表 4:for 每个类每个类 yYo yk do 5:while 终止条件不满足终止条件不满足 do 6:r Learn-One-Rule(E,A,y)7:从从E中删除被中删除被r覆盖的训练记录覆盖的训练记录 8:追加追加r到规则列表尾部:到规则列表尾部:RR r 9:end while10:end for11:把默认规则:把默认规则yk插入到规则列表插入到规则列表R尾部尾部 2023/1/915数据
13、挖掘:概念与技术第15页,共134页,编辑于2022年,星期五顺序覆盖顺序覆盖:例例(a)Original data(b)Step 1(c)Step 2(c)Step 32023/1/916数据挖掘:概念与技术第16页,共134页,编辑于2022年,星期五删除实例删除实例n为什么要删除实例为什么要删除实例?n否则否则,下一个规则将与前面的规则下一个规则将与前面的规则相同相同n为什么删除正实例为什么删除正实例?n确保下一个规则不同确保下一个规则不同n为什么删除负实例为什么删除负实例?n防止低估规则的准确率防止低估规则的准确率n比较图中的规则比较图中的规则 R2 和和 R32023/1/917数据
14、挖掘:概念与技术第17页,共134页,编辑于2022年,星期五Learn-One-Rulen规则增长规则增长n实例删除实例删除n规则评估规则评估n停止准则停止准则n规则剪枝规则剪枝2023/1/918数据挖掘:概念与技术第18页,共134页,编辑于2022年,星期五规则增长规则增长n两种策略两种策略n一般到特殊一般到特殊n从初始规则从初始规则r:y开始开始n反复加入合取项,得到更特殊的规则,直到不能再加入反复加入合取项,得到更特殊的规则,直到不能再加入n 特殊到一般特殊到一般n随机地选择一个正例作为初始规则随机地选择一个正例作为初始规则n反复删除合取项,得到更一般的规则,直到不能再删除反复删除
15、合取项,得到更一般的规则,直到不能再删除n问题问题n加入加入/删除合取项有多种选择,如何选择?删除合取项有多种选择,如何选择?n何时停止加入何时停止加入/删除合取项?删除合取项?需要评估标准需要评估标准2023/1/919数据挖掘:概念与技术第19页,共134页,编辑于2022年,星期五规则增长规则增长:例例n一般到特殊一般到特殊体温=恒温,表皮覆盖=毛发,胎生=是,水生动物=否,飞行动物=否,有腿=是,冬眠=否=哺乳类表皮覆盖=毛发,胎生=是,水生动物=否,飞行动物=否,有腿=是,冬眠=否=哺乳类体温=恒温,表皮覆盖=毛发,胎生=是,水生动物=否,飞行动物=否,有腿=是=哺乳类=哺乳类表皮覆
16、盖=毛发=哺乳类体温=恒温=哺乳类有腿=否=哺乳类体温=恒温,有腿=是=哺乳类体温=恒温,胎生=是=哺乳类n 特殊到一般特殊到一般2023/1/920数据挖掘:概念与技术第20页,共134页,编辑于2022年,星期五规则评估规则评估n常用的度量常用的度量n准确率准确率n似然比似然比nLaplacenM-estimatenFOIL信息增益信息增益 2023/1/921数据挖掘:概念与技术第21页,共134页,编辑于2022年,星期五规则评估规则评估(续续)n准确率准确率nAccuracynn:被规则覆盖的实例数被规则覆盖的实例数nnc:被规则正确分类的实例数被规则正确分类的实例数n问题:准确率高
17、的规则可能覆盖率太低问题:准确率高的规则可能覆盖率太低n似然比似然比(越高越好)(越高越好)nk是类的个数是类的个数nfi是被规则覆盖的类是被规则覆盖的类i的样本的观测频度的样本的观测频度nei是规则作随机猜测的期望频度是规则作随机猜测的期望频度2023/1/922数据挖掘:概念与技术第22页,共134页,编辑于2022年,星期五规则评估规则评估:例例n例例:60个正例和个正例和100个反例个反例 规则规则r1:覆盖:覆盖50个正例和个正例和5个反例(个反例(acc=90.9%)规则规则r2:覆盖:覆盖2个正例和个正例和0个反例个反例(acc=100%)n使用准确率使用准确率,r2好好n使用似
18、然比使用似然比nr1:正类的期望频度为正类的期望频度为e+=55 60/160=20.625 负类的期望频度为负类的期望频度为e =55 100/160=34.375 nr2:正类的期望频度为正类的期望频度为e+=2 60/160=0.75 负类的期望频度为负类的期望频度为e =2 100/160=1.25 nR(r1)=2 50 log2(50/20.625)+5 log2(5/34.375)=99.9 nR(r2)=2 2 log2(2/0.75)+0 log2(0/1.25)=5.66 nr1比比r2好好 2023/1/923数据挖掘:概念与技术第23页,共134页,编辑于2022年,星
19、期五规则评估规则评估(续续)n考虑规则覆盖率的评估度量考虑规则覆盖率的评估度量 nn是规则覆盖的样例数,是规则覆盖的样例数,f+是规则覆盖的正例数,是规则覆盖的正例数,k是类的总数,是类的总数,p+是是正类的先验概率正类的先验概率 n当规则的覆盖率很高时,两个度量都渐近地趋向于规则的准确率当规则的覆盖率很高时,两个度量都渐近地趋向于规则的准确率f+/n n继续前例继续前例nr1的的Laplace度量为度量为51/57=89.47%,很接近它的准确率,很接近它的准确率nr2的的Laplace度量(度量(75%)比它的准确率小很多)比它的准确率小很多 2023/1/924数据挖掘:概念与技术第24
20、页,共134页,编辑于2022年,星期五规则评估规则评估(续续)n考虑规则的支持度计数的评估度量考虑规则的支持度计数的评估度量n规则的支持度计数对应于它所覆盖的正例数规则的支持度计数对应于它所覆盖的正例数 nFOIL信息增益(信息增益(First Order Inductive Leaner information gain)n设规则设规则r:A+覆盖覆盖p0个正例和个正例和n0个反例个反例;n规则规则r:A B+覆盖覆盖p1个正例和个正例和n1个反例个反例.扩展后规则的扩展后规则的FOIL信息信息增益定义为增益定义为 n该度量与该度量与p1和和p1/(p1+n1)成正比,所以它更倾向于选择那
21、些高支持度成正比,所以它更倾向于选择那些高支持度计数和高准确率的规则计数和高准确率的规则 n继续前例继续前例nr1和和r2的的FOIL信息增益分别为信息增益分别为43.12和和2,因此规则,因此规则r1比比r2好好 2023/1/925数据挖掘:概念与技术第25页,共134页,编辑于2022年,星期五停止条件与规则剪枝停止条件与规则剪枝n停止条件停止条件n计算增益计算增益n如果增益不显著如果增益不显著,则丢弃新规则则丢弃新规则n规则剪枝规则剪枝n类似于决策树后剪枝类似于决策树后剪枝n降低错误剪枝降低错误剪枝:n 删除规则中的合取项删除规则中的合取项n 比较剪枝前后的错误率比较剪枝前后的错误率
22、n 如果降低了错误率如果降低了错误率,则剪掉该合取项则剪掉该合取项2023/1/926数据挖掘:概念与技术第26页,共134页,编辑于2022年,星期五直接方法直接方法:RIPPERn对于对于2类问题类问题,选定一个类为正类,另一个为负类选定一个类为正类,另一个为负类n从正类学习规则从正类学习规则n负类时缺省类负类时缺省类n多类问题多类问题n按类的大小(属于特定类的实例所占的比例)对诸类排序按类的大小(属于特定类的实例所占的比例)对诸类排序n从最小的类开始学习规则,其余类都看做负类从最小的类开始学习规则,其余类都看做负类n对次小类学习规则,如此下去对次小类学习规则,如此下去2023/1/927
23、数据挖掘:概念与技术第27页,共134页,编辑于2022年,星期五直接方法直接方法:RIPPER(续续)n规则增长规则增长:n由空规则开始由空规则开始n只要能够提高只要能够提高FOIL信息增益就增加一个合取项信息增益就增加一个合取项n当规则不再覆盖负实例时就停止当规则不再覆盖负实例时就停止n剪枝剪枝n剪枝度量剪枝度量:v=(p n)/(p+n)n p:验证集中被规则覆盖的正实例数验证集中被规则覆盖的正实例数n n:验证集中被规则覆盖的负实例数验证集中被规则覆盖的负实例数n剪枝方法剪枝方法:n如果剪掉合取项可以提高如果剪掉合取项可以提高v就剪就剪2023/1/928数据挖掘:概念与技术第28页,
24、共134页,编辑于2022年,星期五直接方法直接方法:RIPPER(续续)n建立规则集建立规则集:n使用顺序覆盖算使用顺序覆盖算n找出覆盖当前正实例的最佳规则找出覆盖当前正实例的最佳规则n删除被规则覆盖的所有正实例和负实例删除被规则覆盖的所有正实例和负实例n当一个规则加入规则集时,计算新的描述长度当一个规则加入规则集时,计算新的描述长度n当新的描述长度比已经得到的描述长度多当新的描述长度比已经得到的描述长度多d位时,就停止增加新位时,就停止增加新规则规则2023/1/929数据挖掘:概念与技术第29页,共134页,编辑于2022年,星期五直接方法直接方法:RIPPER(续续)n优化规则集优化规
25、则集:n对规则集对规则集R中的每个规则中的每个规则 rn考虑考虑2个替换的规则个替换的规则:n替换规则替换规则(r*):重新增长新规则重新增长新规则n编辑的规则编辑的规则(r):把一个新的合取项增加到规则把一个新的合取项增加到规则 r n比较替换前后的规则集比较替换前后的规则集 n选择最小化选择最小化MDL的规则集的规则集n对剩下的正实例,重复规则产生和优化对剩下的正实例,重复规则产生和优化2023/1/930数据挖掘:概念与技术第30页,共134页,编辑于2022年,星期五规则提取的间接方法规则提取的间接方法n决策树从根结点到叶结点的每一条路径都可以表示为一个分类规则决策树从根结点到叶结点的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 分类 其他 技术 PPT 讲稿
限制150内