分类和预测精选PPT.ppt
《分类和预测精选PPT.ppt》由会员分享,可在线阅读,更多相关《分类和预测精选PPT.ppt(38页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、分类和预测第1页,此课件共38页哦一、分类一、分类p数据分类的步骤:数据分类的步骤:n数据准备数据准备n建立模型建立模型n模型评估模型评估n使用模型分类使用模型分类第2页,此课件共38页哦数据准备数据准备o数据清理:数据清理:消除或减少燥声、处理空缺值消除或减少燥声、处理空缺值o相关性分析:相关性分析:数据中与分类和预测任务不相数据中与分类和预测任务不相关的属性分析关的属性分析o数据变换:数据变换:如连续变成离散(年龄分段、收如连续变成离散(年龄分段、收入分段等),区间变化入分段等),区间变化第3页,此课件共38页哦建立模型建立模型o建立模型,描述预定的数据类,通过分析由属性描述的数建立模型,
2、描述预定的数据类,通过分析由属性描述的数据库元组来构造模型。每个元组属于一个预定义的类,由据库元组来构造模型。每个元组属于一个预定义的类,由一个称为一个称为类标号属性类标号属性的属性确定。的属性确定。o比如将人员数据按信用分成比如将人员数据按信用分成优、良、中、一般、差优、良、中、一般、差五五个类,个类,类标号属性类标号属性为数据库的信用属性。为数据库的信用属性。o对于分类,数据元组也称为对于分类,数据元组也称为样本样本、实例实例或或对象对象。为建。为建立模型而被分析的数据元组组成立模型而被分析的数据元组组成训练数据集训练数据集。训练集中。训练集中的单个元组称作的单个元组称作训练样本训练样本,
3、并随机的由样本群选取。,并随机的由样本群选取。o由于提供了每个训练样本的类标号(即指定了按哪个类属由于提供了每个训练样本的类标号(即指定了按哪个类属性分类),该步也称为性分类),该步也称为有指导的学习有指导的学习。第4页,此课件共38页哦模型评估模型评估o首先评估模型的预测正确率,建立一个首先评估模型的预测正确率,建立一个测试测试集集,测试集中数据从样本集随机取出并独立,测试集中数据从样本集随机取出并独立于训练样本。于训练样本。o模型在给定测试集上的模型在给定测试集上的准确率准确率是正确被模型是正确被模型分类的测试样本的百分比。分类的测试样本的百分比。第5页,此课件共38页哦模型评价指标oa是
4、正确预测到的负例的数量,TrueNegative(TN,0-0)ob是把负例预测成正例的数量,FalsePositive(FP,0-1)oc是把正例预测成负例的数量,FalseNegative(FN,1-0)od是正确预测到的正例的数量,TruePositive(TP,1-1)oa+b是实际上负例的数量,ActualNegativeoc+d是实际上正例的个数,ActualPositiveoa+c是预测的负例个数,PredictedNegativeob+d是预测的正例个数,PredictedPositive第6页,此课件共38页哦模型评价指标p准确(分类)率=正确预测的正反例数/总数Accura
5、cy=truepositiveandtruenegative/totalcasesACC=(TP+TN)/(P+N)p误分类率=错误预测的正反例数/总数Error rate=falsepositiveandfalsenegative/totalcases Error rate=(FP+FN)/(P+N)第7页,此课件共38页哦模型评价指标p正例的覆盖率=正确预测到的正例数/实际正例总数,Recall(True Positive Rate,orSensitivity)=truepositive/totalactualpositiveTPR=TP/P=TP/(TP+FN)ofalsepositiv
6、erate(FPR)等同于:fall-outFPR=FP/N=FP/(FP+TN)第8页,此课件共38页哦模型评价指标p负例的覆盖率=正确预测到的负例个数/实际负例总数Specificity(True Negative Rate)=truenegative/totalactualnegativeSPC=TN/N=TN/(FP+TN)=1-FPRpROC曲线,全称是receiveroperatingcharacteristiccurve,中文叫“接受者操作特性曲线”,纵坐标:truepositivesrate(sensitivity),横坐标falsepositivesrate(1-specif
7、icity)第9页,此课件共38页哦模型评价指标opositivepredictivevalue(PPV)等同于:precisionPPV=TP/(TP+FP)onegativepredictivevalue(NPV)NPV=TN/(TN+FN)ofalsediscoveryrate(FDR)FDR=FP/(FP+TP)oMatthewscorrelationcoefficient(MCC)MCC=(TP*TN-FP*FN)/sqrt(P*N*P1*N1)oF1scoreF1=2*TP/(P+P1)第10页,此课件共38页哦图例图例训练数据训练数据姓名姓名年龄年龄收入收入信用信用张杨张杨=30
8、底底中中张铭张铭40中中中中李杲李杲40中中中中李雷李雷31.40高高良良.分类算法分类算法分类规则分类规则if(年龄年龄=“31.40”&收入收入=“高高”)信用信用=良良类标号属性类标号属性第11页,此课件共38页哦图例测试数据测试数据姓名姓名年龄年龄收入收入信用信用张侃张侃40高高中中张恬张恬40=30是是否否第13页,此课件共38页哦训练数据集第14页,此课件共38页哦概念“buys_computer”的判定树age?overcaststudent?credit rating?noyesfairexcellent40nonoyesyesyes30.40第15页,此课件共38页哦2、使用
9、决策树进行分类过程、使用决策树进行分类过程o决策树生成算法分成两个步骤决策树生成算法分成两个步骤n树的生成树的生成o开始,数据都在根节点开始,数据都在根节点o递归的进行数据分片递归的进行数据分片n树的修剪树的修剪o去掉一些可能是噪音或者异常的数据去掉一些可能是噪音或者异常的数据o决策树使用决策树使用:对未知数据进行分割对未知数据进行分割n按照决策树上采用的分割属性逐层往下,直到按照决策树上采用的分割属性逐层往下,直到一个叶子节点一个叶子节点第16页,此课件共38页哦3、决策树算法、决策树算法o基本算法(贪心算法)基本算法(贪心算法)n自上而下分而治之的方法自上而下分而治之的方法n开始时,所有的
10、数据都在根节点开始时,所有的数据都在根节点n属性都是种类字段属性都是种类字段(如果是连续的,将其离散化如果是连续的,将其离散化)n所有记录用所选属性递归的进行分割所有记录用所选属性递归的进行分割n属性的选择是基于一个启发式规则或者一个统计的度量属性的选择是基于一个启发式规则或者一个统计的度量 o停止分割的条件停止分割的条件n一个节点上的数据都是属于同一个类别一个节点上的数据都是属于同一个类别n没有属性可以再用于对数据进行分割没有属性可以再用于对数据进行分割第17页,此课件共38页哦4、属性选择方法、属性选择方法-最高信息增益法最高信息增益法(ID3/C4.5)o设设S是有是有s个数据样本的集合
11、。假定类标号属性具个数据样本的集合。假定类标号属性具有有m个不同的值,定义个不同的值,定义m个不同类个不同类Ci(i=1,m)。设设si是类是类Ci中的样本数。中的样本数。对一个给定的样本分类所对一个给定的样本分类所需要的期望信息由下式给出:需要的期望信息由下式给出:其中其中pi是任意样本属于是任意样本属于Ci的概率,一般用的概率,一般用si/s估计代替估计代替pi第18页,此课件共38页哦例:假定有例:假定有50个元组作为样本,则个元组作为样本,则s=50。分成买计算机和不买两。分成买计算机和不买两类,这样,类,这样,m=2,C1是买的样本数据集,是买的样本数据集,C2是不买的,若不买的有是
12、不买的,若不买的有20(即即s2=20),则买的则买的为为30(s1=30)第19页,此课件共38页哦计算信息增益 设属性设属性A有有v个不同值个不同值a1,a2,av。可以根据属性值。可以根据属性值将将S划分为划分为v个子集个子集S1,S2,Sv;sij是子集是子集Sj中类中类Ci的样本数。由的样本数。由A划分成子集的熵(期望划分成子集的熵(期望信息)为:信息)为:第20页,此课件共38页哦 例:假定例:假定v=“年龄年龄”,值为,值为a1,a2,a3=40,这样可以将这样可以将50个个样本分成样本分成3个子集合个子集合S1,S2,S3。C1买计算机的样本集合,买计算机的样本集合,C2是不买
13、的。是不买的。如果在如果在C1中中31.40岁的人有岁的人有5个,则个,则s12=5 以以A分枝将获得的信息增益是:分枝将获得的信息增益是:Gain(A)=I(s1,s2,sm)-E(A)决策树如何分枝?计算属性的信息增益,取最大的信息增益分枝决策树如何分枝?计算属性的信息增益,取最大的信息增益分枝第21页,此课件共38页哦例:电器销售顾客训练数据元组,类标号属性例:电器销售顾客训练数据元组,类标号属性买买PC,构造决策树,构造决策树年龄年龄收入收入学生学生信用信用买买PC=30高高n中中n40中中n中中y40低低y中中y40低低y良良n31.40低低y良良y=30中中n中中n40中中y中中y
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 分类 预测 精选 PPT
限制150内