决策树和模型评估课件55523.pptx
《决策树和模型评估课件55523.pptx》由会员分享,可在线阅读,更多相关《决策树和模型评估课件55523.pptx(58页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Data Mining 第四章第四章分类:基本概念、决策树和模型评估分类:基本概念、决策树和模型评估 4.1 预备知识预备知识4.2 解决分类问题的一般方法解决分类问题的一般方法分类例子分类例子l预测癌细胞是良性还是恶性l将信用卡交易分为合法和欺诈l分类:定义分类:定义l给定一个记录集 每个记录包含一个属性集,通常最后一个属性是该记录的分类(class)属性.l目标:找到一个模型(从其余属性值到分类属性的转换函数),实现对未知分类的记录进行尽可能精确地分类。通常,将给定的数据集分为训练集(训练集(training set)和检验集(检验集(test set)。训练集用来创建模型,检验集用来验证
2、模型的有效性。l分类性能度量:预测的类类=1类=0实际的数类=1f11f10类=0f01f00分类过程分类过程训练集训练集检验集检验集学习模型学习模型学习模型学习模型学习算法学习算法模型模型分类技术分类技术l基于决策树的方法 Decision Tree based Methodsl基于规则的方法 Rule-based Methodsl基于记忆的推理 Memory based reasoningl神经网络 Neural Networksl朴素贝叶斯和贝叶斯信念网络 Nave Bayes and Bayesian Belief Networksl支持向量机 Support Vector Machi
3、nes决策树定义决策树定义l决策树是由结点和有向边组成的层次结构。l树中包含三种结点:根结点内部结点叶结点非终结点非终结点。包含属性测试条件测试条件,用于分开不同特性的记录每个叶结点都赋予一个类标号类标号决策树决策树 例例1二元属性二元属性分类属性分类属性连续属性连续属性分类标号分类标号有房产有房产婚姻状况婚姻状况收入收入YESNONONOYesNoMarried Single,Divorced 80K属性划分属性划分训练数据训练数据模型:决策树模型:决策树决策树决策树 例例2MarStRefundTaxIncYESNONONOYesNoMarried Single,Divorced 80K对
4、于相同的数据,能构造多种不对于相同的数据,能构造多种不同的决策树同的决策树决策树应用过程:使用模型测试数据决策树应用过程:使用模型测试数据1RefundMarStTaxIncYESNONONOYesNoMarried Single,Divorced 80K检验数据检验数据从树根开始从树根开始使用模型测试数据使用模型测试数据2RefundMarStTaxIncYESNONONOYesNoMarried Single,Divorced 80KTest Data使用模型测试数据使用模型测试数据3RefundMarStTaxIncYESNONONOYesNoMarried Single,Divorce
5、d 80KTest Data使用模型测试数据使用模型测试数据4RefundMarStTaxIncYESNONONOYesNoMarried Single,Divorced 80KTest Data使用模型测试数据使用模型测试数据5RefundMarStTaxIncYESNONONOYesNoMarried Single,Divorced 80KTest Data使用模型测试数据使用模型测试数据6RefundMarStTaxIncYESNONONOYesNoMarried Single,Divorced 80KTest Data将Cheat赋值为“No”决策树构造算法决策树构造算法l多种算法:H
6、unt 算法(最早方法之一)CART(classification and regression trees)ID3,C4.5SLIQ,SPRINTHunt 算法结构算法结构lHunt算法的思想是将训练记录相继划分将训练记录相继划分成成“较纯较纯”的子集,以递归方式建立决的子集,以递归方式建立决策树。策树。假设t表示结点,Dt 表示与结点t相关联的训练记录集,y=y1,y2,yc是类标号lHunt算法的递归定义:如果Dt 中所有记录都属于同一个类yt,则t就是叶子节点,并用yt标号如果Dt 是一个空集,那么t就是叶子节点,其标号为其父结点上训练记录中的多数类Dt?如果Dt 中包含属于多个类的记
7、录,则选择一个属性测试属性测试条件条件,将记录划分成若干个子集。并对每个子集进行递归分类。例 P93P95 预测拖欠银行贷款的贷款者如何生成决策树?如何生成决策树?l贪婪策略.每次选择属性划分条件时,选择划分数据的最优标准.l决策树归纳的设计问题问题1:如何分裂记录?u1.1定义属性测试条件给不同类型的属性指定测试条件的方法u1.2找到最好的划分方法对每种测试条件进行评估测量问题2:何时停止分裂过程?决策树归纳的设计问题决策树归纳的设计问题1:1.1 定义属性测试条件定义属性测试条件l4.4.3 表示属性测试条件的方法根据属性类型u标称型 Nominalu序数型 Ordinalu连续型 Con
8、tinuous按划分路数u二元划分 2-way splitu多路划分 Multi-way split标称属性的划分方法:标称属性的划分方法:(数据集见数据集见P122习题习题2)l多路划分法多路划分法:划分成几个不同的值输出数取决于该属性不同属性值的个数.l二分法二分法:划分为两个不同的值.(需要找到最佳的划分方法)CarTypeFamilySportsLuxuryCarTypeFamily,LuxurySportsCarTypeSports,LuxuryFamilyORl多路划分法多路划分法l二分法二分法(分组必须保留属性值之间的序关系)注意:第三种划分方法合理吗?序数属性的划分方法:序数属
9、性的划分方法:SizeSmallMediumLargeSizeMedium,LargeSmallSizeSmall,MediumLargeORSizeSmall,LargeMedium连续属性的划分方法连续属性的划分方法l多路划分:多路划分:离散化属性值,每个离散化区间赋予一个新的序数值l二分法:二分法:(A v)or(A v)需要从所有可能的划分点中选择产生最佳划分的点决策树归纳的设计问题决策树归纳的设计问题1:1.2 找到最好划分方法找到最好划分方法 划分前划分前:数据集有数据集有20个记录,标号为个记录,标号为class 0和和class 1的各有的各有10个。哪个划分测试条件最佳?个。
10、哪个划分测试条件最佳?为了度量不同的测试条件,常用划分前和划分后记录的类分布类分布定义:p(i|t)表示结点t中,属于类i的记录所占的比例,常简记为pi。在二元分类问题中,任意结点的类分布可以记作(p0,p1),其中p1=1-p0。选择最佳划分的度量选择最佳划分的度量l选择最佳划分的度量通常是根据划分后子女结点不纯性的程度:不纯的程度越低,类分布就越倾斜,划分就越好。不同类,具有较高的不纯度不同类,具有较高的不纯度同类,具有较低的不纯度同类,具有较低的不纯度结点不纯度的度量方法:结点不纯度的度量方法:l熵 Entropyl基尼指数 Gini Indexl分类差错率 Classification
11、 error计算不纯性方法计算不纯性方法1:熵熵l结点t的熵:其中,c为结点t中不同类标号个数 p(i|t)是给定结点t中属于类i的记录所占比例,简记为pil结点熵值的取值范围:当记录均匀分布于各分类时,将取得最大值(log nc)当所有记录都属于同一分类时,将取得最小值(0)例:分别计算例:分别计算3个结点的熵个结点的熵P(C0)=0/6=0 P(C1)=6/6=1Entropy=0log 0 1log 1=0 0=0 P(C0)=1/6 P(C1)=5/6Entropy=(1/6)log2(1/6)(5/6)log2(5/6)=0.65P(C0)=2/6 P(C1)=4/6Entropy=
12、(2/6)log2(2/6)(4/6)log2(4/6)=0.92练习练习1l已知:数据见课本表4-7(P122 题2),采用熵作为结点的不纯度度量。l问题:整个训练样本集的不纯度是多少?如果对数据按车型车型属性进行多路划分,则u(车型=运动)的结点的不纯度是多少?u(车型=豪华)的结点的不纯度是多少?u(车型=家用)的结点的不纯度是多少?计算不纯性方法计算不纯性方法2:基尼指数(基尼指数(gini)l结点t的吉尼指数:其中,c为结点t中不同类标号个数 p(i|t)是给定结点t中属于类i的记录所占比例,简记为pil结点Gini指数的取值范围:当记录均匀分布于各分类时,将取得最大值(1-1/nc
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 决策树 模型 评估 课件 55523
限制150内