分类与决策树.pptx





《分类与决策树.pptx》由会员分享,可在线阅读,更多相关《分类与决策树.pptx(58页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、分类与预测Vicky银行个人住房贷款审批银行个人住房贷款审批银行个人客户提出住房贷款申请,根据历史数银行个人客户提出住房贷款申请,根据历史数据发现:部分贷款客户不能按时还款。为尽量降据发现:部分贷款客户不能按时还款。为尽量降低这种现象,需要发现不能按时还款客户的特征,低这种现象,需要发现不能按时还款客户的特征,以便对以后住房贷款申请的审批提供依据。以便对以后住房贷款申请的审批提供依据。2006年年底,由年年底,由SAS机构与招商银行启动了全机构与招商银行启动了全行个人住房贷款评分卡开发与推广项目。行个人住房贷款评分卡开发与推广项目。该项目利用客户的历史数据构建评分卡模该项目利用客户的历史数据构
2、建评分卡模型,然后将该模型应用到新客户上,最后决定是型,然后将该模型应用到新客户上,最后决定是否接受新客户的贷款申请。否接受新客户的贷款申请。分析数据集应该包括哪些客户?分析数据集应该包括哪些客户?银行贷款申请IDAgeHas_jobOwn_homeCreditClass1YoungNoNoFairNo2YoungNoNoGoodNo3YoungYesNoGoodYes4YoungYesYesFairYes5YoungNoNoFairNo6MiddleNoNoFairNo7MiddleNoNoGoodNo8MiddleYesYesGoodYes9MiddleNoYesExcellentYes1
3、0MiddleNoYesExcellentYes11OldNoYesExcellentYes12OldNoYesGoodYes13OldYesNoGoodYes14OldYesNoExcellentYes15OldNoNoFairNo分类与预测分类:分类:目标变量为非数值型目标变量为非数值型预测:预测:目标变量目标变量为为数值型数值型根据历史数据集(已知目标变根据历史数据集(已知目标变量),构建模型描述目标变量量),构建模型描述目标变量与输入变量之间的关系,并依与输入变量之间的关系,并依据模型来分类或预测新数据据模型来分类或预测新数据(目标变量值未知(目标变量值未知)。分类模型也称为分类器。分
4、类模型也称为分类器。模模型型应应用用建模建模规则规则1:Ifrefund=noandmarst=marriedthencheat=no模型评估模型评估分类的过程数据集分区数据集分区训练集训练集:建立模型:建立模型验证集验证集:调整和选择模型:调整和选择模型测试集测试集:评估模型的预测能力:评估模型的预测能力建立模型建立模型评估并选择模型评估并选择模型运用模型运用模型 新数据(打分集)新数据(打分集)思考:分类模型在什么情况下不适合用于新数据?思考:分类模型在什么情况下不适合用于新数据?分类方法决策树方法决策树方法贝叶斯分类法贝叶斯分类法LOGISTIC回归回归神经网络方法神经网络方法K近邻分类
5、法近邻分类法SVM分类法分类法.RootLeafNode7决策树(decision tree)规则规则1:Ifrefund=noand(marst=singleormarst=divorced)andtaxincome80kthencheat=yes决策树是一棵二叉或多叉树结构每个内部节点代表一个属性,该节点的分支表示根据该属性的不同测试条件的输出叶子节点表示一个类标决策树一般是自上而下生成的决策树一般是自上而下生成的l决策树基本思想决策树基本思想l建立决策树建立决策树l将决策树转换为决策规则并应用将决策树转换为决策规则并应用l相关问题讨论相关问题讨论内容一、决策树思想将数据集根据某将数据集根
6、据某种种测试条件分为测试条件分为2个或多个个或多个子集,使分裂后的子集子集,使分裂后的子集在目标变量上在目标变量上具有具有更纯的分类更纯的分类纯度与混杂度纯度与混杂度混杂度的常用测度指标混杂度的常用测度指标信息熵信息熵(Entropy)基尼指数(基尼指数(Gini Index)分类误差(分类误差(classification error)Pj 是数据集合中类别是数据集合中类别j的相对比例的相对比例.entropy=12信息熵信息熵(Entropy)什么情况下,熵最小?什么情况下,熵最小?什么情况下,熵最大?什么情况下,熵最大?lentropy=-1 log21-0 log20=0目标变量为二元
7、变量:lentropy=-0.5 log20.5 0.5 log20.5=1IDAgeHas_jobOwn_homeCreditClass1YoungNoNoFairNo2YoungNoNoGoodNo3YoungYesNoGoodYes4YoungYesYesFairYes5YoungNoNoFairNo6MiddleNoNoFairNo7MiddleNoNoGoodNo8MiddleYesYesGoodYes9MiddleNoYesExcellentYes10MiddleNoYesExcellentYes11OldNoYesExcellentYes12OldNoYesGoodYes13Ol
8、dYesNoGoodYes14OldYesNoExcellentYes15OldNoNoFairNo银行贷款数据集银行贷款案例数据集的熵:银行贷款案例数据集的熵:Entropy(T)=6/15*log2(6/15)9/15*log2(9/15)=0.971Gini 指数Pj 是数据集合中类别是数据集合中类别j的相对比例的相对比例.GINI最大最大=?GINI最小最小=?1-1/2(目标变量为二元变量)(目标变量为二元变量)0IDAgeHas_jobOwn_homeCreditClass1YoungNoNoFairNo2YoungNoNoGoodNo3YoungYesNoGoodYes4Youn
9、gYesYesFairYes5YoungNoNoFairNo6MiddleNoNoFairNo7MiddleNoNoGoodNo8MiddleYesYesGoodYes9MiddleNoYesExcellentYes10MiddleNoYesExcellentYes11OldNoYesExcellentYes12OldNoYesGoodYes13OldYesNoGoodYes14OldYesNoExcellentYes15OldNoNoFairNo银行贷款数据集银行贷款案例数据集银行贷款案例数据集的基尼指数:的基尼指数:gini=1-(6/15)2-(9/15)2=0.48分类误差(分类误差(
10、classification error)CE最大最大=?CE最小最小=?1-1/2(目标变量为二元变量)(目标变量为二元变量)0IDAgeHas_jobOwn_homeCreditClass1YoungNoNoFairNo2YoungNoNoGoodNo3YoungYesNoGoodYes4YoungYesYesFairYes5YoungNoNoFairNo6MiddleNoNoFairNo7MiddleNoNoGoodNo8MiddleYesYesGoodYes9MiddleNoYesExcellentYes10MiddleNoYesExcellentYes11OldNoYesExcell
11、entYes12OldNoYesGoodYes13OldYesNoGoodYes14OldYesNoExcellentYes15OldNoNoFairNo银行贷款数据集银行贷款案例数据集银行贷款案例数据集的分类误差:的分类误差:CE=1-9/15=6/15=0.4二、建立二、建立决策树决策树常用常用算法算法ID3-ID5,C4,C4.5,C5.0CART(Classification and Regression Trees分分类与回归树类与回归树)(C&RT)CHAID(chi-squared automatic interaction detection,卡方自动交互检测,卡方自动交互检测
12、)二叉二叉GINI指数指数二叉或多叉二叉或多叉信息熵信息熵二叉或多叉二叉或多叉建立建立决策树决策树树的生长树的生长分裂属性及其条件的选择分裂属性及其条件的选择 何时结束分裂何时结束分裂树的选择树的选择1.裂分目标与属性选择裂分裂分目标目标 使分裂后数据子集的使分裂后数据子集的纯度纯度比裂分前数据集的纯比裂分前数据集的纯度度最大限度的提高最大限度的提高;即不同类别的观测尽量分散在;即不同类别的观测尽量分散在不同的子集中。不同的子集中。指标指标信息增益与信息增益率信息增益与信息增益率GINI指数的下降指数的下降二分指数二分指数卡方检验卡方检验C-SEP、信息增益Information Gain=裂
13、分前数据集的熵裂分前数据集的熵 裂分后各子数据集的裂分后各子数据集的熵加权和熵加权和其中:其中:权重为每个子集中的观测数在裂分前总权重为每个子集中的观测数在裂分前总观测数中所占的比例观测数中所占的比例案例数据集基于own_home属性划分IDAgeHas_jobOwn_homeCreditClass1YoungNoNoFairNo2YoungNoNoGoodNo3YoungYesNoGoodYes4YoungYesYesFairYes5YoungNoNoFairNo6MiddleNoNoFairNo7MiddleNoNoGoodNo8MiddleYesYesGoodYes9MiddleNoYe
14、sExcellentYes10MiddleNoYesExcellentYes11OldNoYesExcellentYes12OldNoYesGoodYes13OldYesNoGoodYes14OldYesNoExcellentYes15OldNoNoFairNo案例数据集基于ownhome属性划分划分后数据集的熵划分后数据集的熵EntropyOwn_home(T)=6/15*Entropy(T1)+9/15*Entropy(T2)=6/15*(6/6*log2(6/6)0/0*log2(0/6)+9/15*(3/9*log2(3/9)6/9*log2(6/9)=0.551 信息增益信息增益Ga
15、in(ownhome)=0.971-0.551=0.42Own_homeYesNoYes:6No:0No:6Yes:3裂分前数据集的熵:裂分前数据集的熵:Entropy(T0)=6/15*log2(6/15)9/15*log2(9/15)=0.971案例数据集基于age属性划分IDAgeHas_jobOwn_homeCreditClass1YoungNoNoFairNo2YoungNoNoGoodNo3YoungYesNoGoodYes4YoungYesYesFairYes5YoungNoNoFairNo6MiddleNoNoFairNo7MiddleNoNoGoodNo8MiddleYesY
16、esGoodYes9MiddleNoYesExcellentYes10MiddleNoYesExcellentYes11OldNoYesExcellentYes12OldNoYesGoodYes13OldYesNoGoodYes14OldYesNoExcellentYes15OldNoNoFairNo案例数据集基于age属性划分裂分后数据集的熵裂分后数据集的熵EntropyAge(T)=5/15*Entropy(T1)+5/15*Entropy(T2)+5/15*Entropy(T3)=5/15*(3/5*log2(3/5)2/5*log2(2/5)+5/15*(3/5*log2(3/5)2/
17、5*log2(2/5)+5/15*(1/5*log2(1/5)4/5*log2(4/5)=0.888 信息增益信息增益Gain(age)=0.971-0.888=0.083AgeYoungMiddleOldYes:2No:3Yes:3No:2No:1Yes:4案例数据集基于其它属性划分根据根据hasjob 和和credit划分后的熵分别为划分后的熵分别为EntropyHas_job(T)=0.647 EntropyCredit(T)=0.608信息增益分别为:信息增益分别为:Gain(hasjob)=0.324 Gain(credit)=0.363Gain(ownhome)=0.42Gain(
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 分类 决策树

限制150内