第4章分类方法(new)-数据挖掘课件.ppt
《第4章分类方法(new)-数据挖掘课件.ppt》由会员分享,可在线阅读,更多相关《第4章分类方法(new)-数据挖掘课件.ppt(62页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、分类的基本概念与步骤 基于距离的分类算法 决策树分类方法 贝叶斯分类 规则归纳 与分类有关的问题 n分类是数据挖掘中重要的任务分类是数据挖掘中重要的任务 分类的目的是学会一个分类器(分类函数或模型),该分分类的目的是学会一个分类器(分类函数或模型),该分类器能把待分类的数据映射到给定的类别中。类器能把待分类的数据映射到给定的类别中。分类可用于预测。从利用历史数据记录中自动推导出对给分类可用于预测。从利用历史数据记录中自动推导出对给定数据的推广描述,从而能对未来数据进行类预测。定数据的推广描述,从而能对未来数据进行类预测。分类具有广泛的应用,例如医疗诊断、信用卡系统的信用分类具有广泛的应用,例如
2、医疗诊断、信用卡系统的信用分级、图像模式识别等。分级、图像模式识别等。分类器的构造依据的方法很广泛:分类器的构造依据的方法很广泛:统计方法:包括贝叶斯法和非参数法等。统计方法:包括贝叶斯法和非参数法等。机器学习方法:包括决策树法和规则归纳法。机器学习方法:包括决策树法和规则归纳法。神经网络方法。神经网络方法。其他,如粗糙集等(在前面绪论中也介绍了相关的情况)。其他,如粗糙集等(在前面绪论中也介绍了相关的情况)。分类的基本概念与步骤分类的基本概念与步骤n分类方法的类型分类方法的类型从使用的主要技术上看,可以把分类方法归结为从使用的主要技术上看,可以把分类方法归结为四种类型:四种类型:基于距离的分
3、类方法基于距离的分类方法决策树分类方法决策树分类方法贝叶斯分类方法贝叶斯分类方法规则归纳方法。规则归纳方法。本章将选择一些有代表性的方法和算法来介绍这本章将选择一些有代表性的方法和算法来介绍这四类分类方法。四类分类方法。n分分类问题类问题的描述的描述定定义义4-1给给定一个数据定一个数据库库D=t1,t2,tn和一和一组类组类C=C1,Cm,分,分类问题类问题是去确定一个映射是去确定一个映射f:DC,使,使得每个元得每个元组组ti被分配到一个被分配到一个类类中。一个中。一个类类Cj 包含映射到包含映射到该该类类中的所有元中的所有元组组,即,即Cj=ti|f(ti)=Cj,1in,而且,而且ti
4、 D。例如,把学生的百分制分数分成例如,把学生的百分制分数分成A A、B B、C C、D D、E E五类,五类,就是一个分类问题:就是一个分类问题:D是包含是包含百分制分数在内的学生信百分制分数在内的学生信息,息,C=A A、B B、C C、D D、E E。解决分类问题的关键是构造一个合适的解决分类问题的关键是构造一个合适的分类器分类器:从数据:从数据库到一组类别集的映射。一般地,这些类是被预先定义库到一组类别集的映射。一般地,这些类是被预先定义的、非交叠的。的、非交叠的。看个例子。给定一个顾客信用信息的数据库,可以根据顾看个例子。给定一个顾客信用信息的数据库,可以根据顾客的信誉度(优良或相当
5、好)来识别顾客。首相需要学习客的信誉度(优良或相当好)来识别顾客。首相需要学习分类规则,之后分析现有顾客数据学习得到的分类规则可分类规则,之后分析现有顾客数据学习得到的分类规则可以被用来预测新的或未来顾客的信誉度。以被用来预测新的或未来顾客的信誉度。nameageincome Credit_ratingSandyJonesBillleeCourtneyfoxSusanlakeClairephipsAndrebeau3030314040403140lowlowhighmedmedhighfairexcellentexcellentfairfairexcellent训练数据训练数据Ifage=“3
6、140”andincome=highThencredit_rating=excellent分类规则分类规则分类算法分类算法利用训练集进行学习利用训练集进行学习nameageincome Credit_ratingFrankJonesAnneYeeSylviaCrest40304130highhighlowfairexcellentfair测试数据测试数据分类规则分类规则新数据新数据JohnHenri 3041highexcellent评估分类规则评估分类规则分类分类评估分类规则:评估分类规则:用测试数据评估规则的准确率,如果准确率用测试数据评估规则的准确率,如果准确率可以接受,则规则可以用于新
7、数据的分类可以接受,则规则可以用于新数据的分类n基于距离的分类算法的思路基于距离的分类算法的思路定义定义4-2给定一个数据库给定一个数据库D=t1,t2,tn和一组类和一组类C=C1,Cm。假定每个元组包括一些数值型的属性值:。假定每个元组包括一些数值型的属性值:ti=ti1,ti2,tik,每个类也包含数值性属性值:,每个类也包含数值性属性值:Cj=Cj1,Cj2,Cjk,则分类问题是要分配每个,则分类问题是要分配每个ti到满足如下条件的类到满足如下条件的类Cj:sim(ti,Cj)=sim(ti,Cl),ClC,ClCj,其中其中sim(ti,Cj)被称为相似性。被称为相似性。在实际的计算
8、中往往用距离来表征,距离越近,相似性越大,距在实际的计算中往往用距离来表征,距离越近,相似性越大,距离越远,相似性越小。离越远,相似性越小。距离的计算方法有多种,最常用的是通过计算每个类的中心来完距离的计算方法有多种,最常用的是通过计算每个类的中心来完成。成。基于距离的分类算法基于距离的分类算法p基于距离的分类方法的直观解释基于距离的分类方法的直观解释基于距离的分类方法的直观解释基于距离的分类方法的直观解释例:例:有有A,B,C三个类;有三个类;有18个待分类的样例;通过计算每个类代表区个待分类的样例;通过计算每个类代表区域的中心来确定每个类的分类中心域的中心来确定每个类的分类中心CA,CB,
9、CC;通过计算待分类的样;通过计算待分类的样例到每个分类中心的距离就可以找出最相似的类。例到每个分类中心的距离就可以找出最相似的类。(a)类定义)类定义(b)待分类样例)待分类样例(c)分类结果)分类结果nk-近邻分类算法近邻分类算法k-近邻分类算法(近邻分类算法(kNearestNeighbors,简称,简称kNN)通过)通过计算每个训练数据到待分类元组的距离,取与待分类元组计算每个训练数据到待分类元组的距离,取与待分类元组距离最近的距离最近的k个训练数据,个训练数据,k中哪个类别训练数据占多数,中哪个类别训练数据占多数,则待分类元组就属于哪个类别。则待分类元组就属于哪个类别。算法算法4-2
10、k-近邻分类算法输入:训练数据T;近邻数目k;待分类的元组t。输出:输出类别c。(1)N=;(2)FOReachd TDOBEGIN(3)IF|N|kTHEN(4)N=Nd;(5)ELSE(6)IFu Nsuchthatsim(t,u)sim(t,d)THENBEGIN(7)N=N-u;(8)N=Nd;(9)END(10)END(11)c=classtowhichthemostuN.pkNN的例子的例子对第对第8个记录个记录d=,得到,得到N=、和和。对第对第9和和10个记录,没变化。个记录,没变化。对第对第11个记录个记录d=,得到,得到N=、和和。对第对第12到到14个记录,没变化。个记录
11、,没变化。对第对第15个记录个记录d=,得到,得到N=、和和。最后的输出元组是最后的输出元组是姓名性别身高(米)类别Kristina女1.6矮Dave男1.7矮Kathy女1.6矮Wynette女1.75中等Stephanie女1.7矮在这五项中,四个属于矮个、一个属于中等。最终在这五项中,四个属于矮个、一个属于中等。最终k kNNNN方法认为方法认为PatPat为矮个。为矮个。决策树分类的特点决策树分类的特点决策树分类方法采用自顶向下的递归方式,在决策树的内决策树分类方法采用自顶向下的递归方式,在决策树的内部结点进行属性值的比较并根据不同的属性值判断从该结部结点进行属性值的比较并根据不同的属
12、性值判断从该结点向下的分枝,在决策树的叶结点得到结论。所以从决策点向下的分枝,在决策树的叶结点得到结论。所以从决策树的根到叶结点的一条路径就对应着一条合取规则,整棵树的根到叶结点的一条路径就对应着一条合取规则,整棵决策树就对应着一组析取表达式规则。决策树就对应着一组析取表达式规则。基于决策树的分类算法的一个最大的优点就是它在学习过基于决策树的分类算法的一个最大的优点就是它在学习过程中不需要用户了解很多背景知识(这同时也是它的最大程中不需要用户了解很多背景知识(这同时也是它的最大的缺点),只要训练例子能够用属性的缺点),只要训练例子能够用属性-结论式表示出来,结论式表示出来,就能使用该算法来学习
13、。就能使用该算法来学习。决策树分类模型的建立通常分为两个步骤:决策树分类模型的建立通常分为两个步骤:决策树生成决策树生成决策树修剪。决策树修剪。n决策树生成算法决策树生成算法决策树生成算法决策树生成算法算法Generate_decision_tree(samples,attribute_list)/*决策树生成算法*/输入:训练样本samples,由离散值属性表示;候选属性的集合attribute_list。输出:一棵决策树。(1)创建结点N;(2)IFsamples都在同一个类CTHEN返回N作为叶结点,以类C标记;(3)IFattribute_list为空THEN返回N作为叶结点,标记为s
14、amples中最普通的类;/多数表决(4)选择attribute_list中具有最高信息增益的属性test_attribute;(5)标记结点N为test_attribute;(6)FOReachtest_attribute中的已知值ai由结点N长出一个条件为test_attribute=ai的分枝;(7)设si是samples中test_attribute=ai的样本的集合;/一个划分(8)IFsi为空THEN加上一个树叶,标记为samples中最普通的类;(9)ELSE加上一个由Generate_decision_tree(si,attribute_list-test_attribute)
15、返回的结点;n 决策树修剪算法决策树修剪算法基本的决策树构造算法没有考虑噪声,因此生成的基本的决策树构造算法没有考虑噪声,因此生成的决策树完全与训练例子拟合。在有噪声情况下,将决策树完全与训练例子拟合。在有噪声情况下,将导致过分拟合导致过分拟合,即对训练数据的完全拟合反而使对现即对训练数据的完全拟合反而使对现实数据的分类预测性能下降。实数据的分类预测性能下降。现实世界的数据一般不可能是完美的,可能某些属现实世界的数据一般不可能是完美的,可能某些属性字段上缺值、数据不完整、不准确、含有噪声甚性字段上缺值、数据不完整、不准确、含有噪声甚至是错误的。至是错误的。剪枝是一种克服噪声的基本技术,同时它也
16、能使树剪枝是一种克服噪声的基本技术,同时它也能使树得到简化而变得更容易理解。得到简化而变得更容易理解。有两种基本的剪枝策略:有两种基本的剪枝策略:预先剪枝:在生成树的同时决定是继续对不纯的训练子集进行划分还预先剪枝:在生成树的同时决定是继续对不纯的训练子集进行划分还是停机。是停机。后剪枝:是一种拟合后剪枝:是一种拟合+化简(化简(fitting-and-simplifying)的两阶段方法。)的两阶段方法。step1:生成与训练数据完全拟合的一棵决策树生成与训练数据完全拟合的一棵决策树;step2:从树的叶子开始剪枝,逐步向根的方向剪。剪枝时要用到一个从树的叶子开始剪枝,逐步向根的方向剪。剪枝
17、时要用到一个测试数据集合(测试数据集合(TuningSet或或AdjustingSet)。如果存在某个叶子剪)。如果存在某个叶子剪去后能使得在测试集上的准确度或其他测度不降低(不变得更坏),去后能使得在测试集上的准确度或其他测度不降低(不变得更坏),则剪去该叶子;否则停机。则剪去该叶子;否则停机。理论上讲,后剪枝好于预先剪枝,但计算复杂度大。理论上讲,后剪枝好于预先剪枝,但计算复杂度大。剪枝过程中一般要涉及一些统计参数或阈值(如停机阈值)。剪枝过程中一般要涉及一些统计参数或阈值(如停机阈值)。要防止过分剪枝(要防止过分剪枝(Over-Pruning)带来的副作用。)带来的副作用。nID3算法算
18、法pID3是是J.R.Quinlan提出的一个著名决策树生成方法:提出的一个著名决策树生成方法:决策树中每一个非叶结点对应着一个非类别属性,决策树中每一个非叶结点对应着一个非类别属性,树枝代表这个属性的值。一个叶结点代表从树根树枝代表这个属性的值。一个叶结点代表从树根到叶结点之间的路径对应的记录所属的类别属性到叶结点之间的路径对应的记录所属的类别属性值。值。每一个非叶结点都将与属性中具有最大信息量的每一个非叶结点都将与属性中具有最大信息量的非类别属性相关联。非类别属性相关联。采用信息增益来选择能够最好地将样本分类的属采用信息增益来选择能够最好地将样本分类的属性。性。n信息增益的计算信息增益的计
19、算 信息增益基于信息论中熵的概念。信息增益基于信息论中熵的概念。ID3ID3总是选择具有最高总是选择具有最高信息增益的属性作为当前结点的测试属性。该属性使得对结信息增益的属性作为当前结点的测试属性。该属性使得对结果划分的样本分类所需的信息量最小。这种信息论方法使得果划分的样本分类所需的信息量最小。这种信息论方法使得对一个对象分类所需的期望测试数目达到最小对一个对象分类所需的期望测试数目达到最小,并尽量确保找并尽量确保找到一棵简单的数来刻画相关的信息。到一棵简单的数来刻画相关的信息。设设S是是s个数据样本的集合,假定类标号属性具有个数据样本的集合,假定类标号属性具有m个不个不同的值同的值,定义定
20、义m个不同类个不同类Ci(i=1,2,m),设),设si是是Ci类中类中的样本数。对给定的样本的样本数。对给定的样本S所期望的信息值由下式给出:所期望的信息值由下式给出:其中其中pi是任意样本属于是任意样本属于Ci的概率:的概率:si/s。设属性设属性A具有具有v个不同值个不同值a1,a2,av,可以用属性,可以用属性A将样本将样本S划分为划分为v个子集个子集S1,S2,Sv,其中:,其中:Sj包含包含S中这样一些中这样一些样本,它们在样本,它们在A上具有上具有aj的值。如果的值。如果A作为测试属性,则这作为测试属性,则这些子集对应有包含集合些子集对应有包含集合S的结点生长出来的分支。的结点生
21、长出来的分支。设设sij是是Sj中中Ci类的样本数,则由类的样本数,则由A划分成子集的熵由下式给划分成子集的熵由下式给出:出:其中,期望信息:其中,期望信息:ID3算法例子样本数据样本数据warm_bloodedfeathersfurswimslays_eggs123456101111101100000001010010111100例子中有例子中有6个样本个样本,5个属性个属性,每个属性取值为每个属性取值为0或或1。假设目标分类属性是假设目标分类属性是lays_eggs,有,有4个样本取值为个样本取值为1,2个样本取个样本取值为值为0。为计算每个属性的信息增益,首先计算样本按为计算每个属性的信
22、息增益,首先计算样本按lays_eggslays_eggs分类所需的期望分类所需的期望信息:信息:类似的,类似的,Gain(feathers)=0.459;Gain(fur)=0.316;Gain(swims)=0.044。这种划分的信息增益是:这种划分的信息增益是:接下来计算每个属性的熵。观察接下来计算每个属性的熵。观察warm_bloodedwarm_blooded的每个样本值的分布:的每个样本值的分布:当当warm_blooded=1warm_blooded=1时,有时,有3 3个个lays_eggslays_eggs =1=1,2 2个个lays_eggslays_eggs =0=0,
23、即:,即:当当warm_blooded=0warm_blooded=0时,有时,有1 1个个lays_eggslays_eggs =1=1,0 0个个lays_eggslays_eggs =0=0,即:,即:因此,如果样本按因此,如果样本按warm_blooded划分,对一个给定的样本分类对应划分,对一个给定的样本分类对应的熵为:的熵为:由于由于feathers在在属性中具有最高的信息增益,所以它首先属性中具有最高的信息增益,所以它首先被选作测试属性。并以此创建一个结点,数据集被划分成被选作测试属性。并以此创建一个结点,数据集被划分成两个子集。两个子集。100110011001 Warm_bl
24、oodedfurswimslay_eggsT1=0Feathers?001110101100 Warm_bloodedfurswimslay_eggsT2=1ID3算法的性能分析算法的性能分析ID3算法的假设空间包含所有的决策树,它是关于现有属性的有限离算法的假设空间包含所有的决策树,它是关于现有属性的有限离散值函数的一个完整空间。所以散值函数的一个完整空间。所以ID3算法避免了搜索不完整假设空间算法避免了搜索不完整假设空间的一个主要风险:假设空间可能不包含目标函数。的一个主要风险:假设空间可能不包含目标函数。ID3算法在搜索的每一步都使用当前的所有训练样例,大大降低了对算法在搜索的每一步都使
25、用当前的所有训练样例,大大降低了对个别训练样例错误的敏感性。因此,通过修改终止准则,可以容易地个别训练样例错误的敏感性。因此,通过修改终止准则,可以容易地扩展到处理含有噪声的训练数据。扩展到处理含有噪声的训练数据。ID3算法在搜索过程中不进行回溯。所以,它易受无回溯的爬山搜索算法在搜索过程中不进行回溯。所以,它易受无回溯的爬山搜索中的常见风险影响:收敛到局部最优而不是全局最优。中的常见风险影响:收敛到局部最优而不是全局最优。ID3算法只能处理离散值的属性。算法只能处理离散值的属性。信息增益度量存在一个内在偏置,它偏袒具有较多值的属性。例如,信息增益度量存在一个内在偏置,它偏袒具有较多值的属性。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 分类 方法 new 数据 挖掘 课件
限制150内