数据挖掘算法培训讲义分类和预测精品文稿.ppt
《数据挖掘算法培训讲义分类和预测精品文稿.ppt》由会员分享,可在线阅读,更多相关《数据挖掘算法培训讲义分类和预测精品文稿.ppt(66页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据挖掘算法培训讲义分类和预测第1页,本讲稿共66页2022/10/221数据挖掘:概念与技术(翻译 张磊)DM算法-1 分类和预测n什么是分类?什么是预测?n关于分类与预测的问题n通过决策树归纳来分类n贝叶斯分类n通过反向传播来分类n基于关联规则挖掘的概念来分类n其它分类方法n预测n分类准确率n总结第2页,本讲稿共66页2022/10/222数据挖掘:概念与技术(翻译 张磊)n分类:n预测分类标签n基于训练集和分类属性值(分类标签)构造分类模型,然后用该模型分类新数据n预测:n对连续函数建模,即预测未知的或缺失的数据n典型应用n信用审核n目标营销n医疗诊断n治疗效果分析分类与预测第3页,本讲
2、稿共66页2022/10/223数据挖掘:概念与技术(翻译 张磊)分类两步骤过程 n建立一个模型:描述预定的数据类或概念集n假定每个元组/样本可以通过类标签属性来确定它属于某个预定义的类n用于创建模型的元组集合:训练集n模型可以用分类规则,决策树,或数学公式来表达n使用模型:对未知(分类标签的)对象进行分类n模型估计准确率n已知测试样本的分类标签,将其和模型的分类结果比较n模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比n测试集应独立于训练集,否则可能导致过度拟合第4页,本讲稿共66页2022/10/224数据挖掘:概念与技术(翻译 张磊)分类过程(1):模型创建训练数据分类算法I
3、F rank=professorOR years 6THEN tenured=yes 分类器(模型)第5页,本讲稿共66页2022/10/225数据挖掘:概念与技术(翻译 张磊)分类过程(2):使用模型来预测分类器测试数据新数据(Jeff,Professor,4)Tenured?第6页,本讲稿共66页2022/10/226数据挖掘:概念与技术(翻译 张磊)有指导的 vs.无指导的学习n有指导的学习(分类)n指导:模型的学习在被告知每个训练样本属于哪个类的“指导”下进行n基于训练集对新数据进行分类n无指导的学习(聚类)n训练数据的类标签是未知的n给定一组样本,试图建立分类或数据的聚类第7页,本讲
4、稿共66页2022/10/227数据挖掘:概念与技术(翻译 张磊)DM算法-1 分类和预测n什么是分类?什么是预测?n关于分类与预测的问题n通过决策树归纳来分类n贝叶斯分类n通过反向传播来分类n基于关联规则挖掘的概念来分类n其它分类方法n预测n分类准确率n总结第8页,本讲稿共66页2022/10/228数据挖掘:概念与技术(翻译 张磊)分类与预测相关问题(1):数据准备n数据清洗n数据准备是为了减少噪声数据,并处理缺失值n相关分析(特征选取)n删除无关属性和冗余属性n数据转换n数据的泛化和归一化第9页,本讲稿共66页2022/10/229数据挖掘:概念与技术(翻译 张磊)分类与预测的相关问题(
5、2):分类方法的评估n预测准确率n速度和扩展能力n创建模型所需时间n应用模型所需时间n健壮性n可以处理噪声和缺失值n扩展能力n在大型数据库上的处理能力n可解释性n模型能否增强用户对数据的理解和洞察力n是否良好的规则n决策树的大小n分类规则的简洁程度第10页,本讲稿共66页2022/10/2210数据挖掘:概念与技术(翻译 张磊)DM算法-1 分类和预测n什么是分类?什么是预测?n关于分类与预测的问题n通过决策树归纳来分类n贝叶斯分类n通过反向传播来分类n基于关联规则挖掘的概念来分类n其它分类方法n预测n分类准确率n总结第11页,本讲稿共66页2022/10/2211数据挖掘:概念与技术(翻译
6、张磊)通过决策树归纳进行分类n决策树 n类似于流程图的树型结构n内部节点代表对某个属性的一次测试n分支代表测试的输出结果n叶节点代表分类标签或分布n决策树的生成包括两个阶段n树的创建n首先,所有训练样本都位于根节点n递归地基于选择属性来划分样本集n树的修剪n识别并删除那些反映噪声或孤立点的分支n应用决策树:对未知样本进行分类n在决策树上测试样本的各个属性值第12页,本讲稿共66页2022/10/2212数据挖掘:概念与技术(翻译 张磊)训练数据集接下来是Quinlans ID3算法示例第13页,本讲稿共66页2022/10/2213数据挖掘:概念与技术(翻译 张磊)输出输出:预测预测“是否会购
7、买计算机是否会购买计算机”的决策树的决策树age?overcaststudent?credit rating?noyesfairexcellent40nonoyesyesyes30.40第14页,本讲稿共66页2022/10/2214数据挖掘:概念与技术(翻译 张磊)决策树归纳算法n基本算法(贪婪算法)n树的创建是一种自顶向下递归的分而治之方法n首先,所有训练样本都位于根节点n属性都是类别型变量(若为连续值,则需先离散化)n基于选择的属性,对样本进行递归划分n通过启发式搜索或统计量来选取测试属性(例如,信息增益)n停止划分的条件n对于某个给定节点,所有样本都属于同一分类n没有剩余属性可供进一步
8、划分 按照少数服从多数的原则来确定叶节点的分类n所有样本都已分类完毕第15页,本讲稿共66页2022/10/2215数据挖掘:概念与技术(翻译 张磊)属性选取的度量n信息增益(ID3/C4.5)n所有属性应为类别型变量n可以通过改进来处理连续值属性nGini索引(IBM IntelligentMiner)n所有属性应为连续值变量n对于每个属性,假定已存在若干可能的切分点n可能需要其它工具(如聚类)的辅助来获取切分点n可以通过改进来处理类别型属性第16页,本讲稿共66页2022/10/2216数据挖掘:概念与技术(翻译 张磊)信息增益(ID3/C4.5)n选取具有最高信息增益的属性n假定存在两个
9、分类,P 和Nn样本集S中包含p个样本属于类别P,n个样本属于类别Nn用于判别S中任意样本属于类别P 或N 的信息量,定义为第17页,本讲稿共66页2022/10/2217数据挖掘:概念与技术(翻译 张磊)决策树归纳中的信息增益n假定通过属性A可以将样本集S划分为多个集合S1,S2,Sv n如果Si 包含pi 个P 类样本和ni 个N 类样本,熵,或将S所有子树中的对象进行分类所需的期望信息i 定义为n在A上分枝将获得的编码信息是第18页,本讲稿共66页2022/10/2218数据挖掘:概念与技术(翻译 张磊)通过计算信息增益来选取属性g类别P:buys_computer=“yes”g类别N:
10、buys_computer=“no”gI(p,n)=I(9,5)=0.940g计算属性age的熵:因此因此同样的同样的第19页,本讲稿共66页2022/10/2219数据挖掘:概念与技术(翻译 张磊)Gini 索引(IBM IntelligentMiner)n如果数据集T 包含n种类别的样本,gini index,gini(T)定义如下 其中pj 是类别j 在T 中所占的百分比n如果数据集T 被划分为两个子集T1 和T2,大小分别为N1 和N2,该划分的gini index gini(T)定义为n选取具有最小ginisplit(T)的属性,对T进行分裂(对每个属性,需枚举出所有可能的切分点).
11、第20页,本讲稿共66页2022/10/2220数据挖掘:概念与技术(翻译 张磊)从树中抽取分类规则n用IF-THEN规则来作为知识表示n从根节点到叶节点的每条路径,对于于一条规则n路径上的每个(属性-值)对被联合起来n叶节点给出了类别预测n规则非常易懂n示例IF age=“=30”AND student=“no”THEN buys_computer=“no”IF age=“40”AND credit_rating=“excellent”THEN buys_computer=“yes”IF age=“40”AND credit_rating=“fair”THEN buys_computer=“
12、no”第21页,本讲稿共66页2022/10/2221数据挖掘:概念与技术(翻译 张磊)避免分类中的过度训练n生成的树可能会过度拟合了训练数据n分支太多,某些分支其实反映的是特例(由噪声数据或孤立点引起的)n导致预测未知样本的准确率很差n避免过度训练的两种方法n预修剪:尽早中止树的创建当某个分裂会导致优度度量低于给定阈值时,就不再分裂节点n难于确定合适的阈值n后修剪:从“已长成的”树中删除分支得到多个修剪后的树n使用与训练数据不同的验证集来决定哪个是“最佳剪枝树”第22页,本讲稿共66页2022/10/2222数据挖掘:概念与技术(翻译 张磊)决定最终树大小的方法n将数据集的2/3作为训练集,
13、1/3作为测试集n使用交叉验证,例如,10-fold交叉验证n使用全部数据来训练n但运用统计检验(例如,chi-square)来估计对某个节点的分裂或修剪是否能改善整体分布n使用最小描述长度(MDL)原则:n当编码量达到最小时停止树的生长第23页,本讲稿共66页2022/10/2223数据挖掘:概念与技术(翻译 张磊)决策树归纳的改进n允许处理连续值属性n动态地对连续属性值离散化(划分为若干区间)n处理缺失的属性值n赋以最常见的属性值n计算各种取值的概率n属性创建n基于树中很少出现的那些属性,创建新的属性(例如对类别型变量分组,因为信息增益偏向于取值多的属性)n避免碎片(过细的分支),重复(属
14、性在路径上被多次测试)和复制(出现相同子树)第24页,本讲稿共66页2022/10/2224数据挖掘:概念与技术(翻译 张磊)大型数据库中的分类n分类对于分类算法,很多统计学家和机器学习研究者进行了广泛的研究n扩展性:对于具有上百万的样本和数百个属性类别的数据集,分类所需时间可接受n为什么要采用决策树归纳?n比较快的学习速度(和其它分类方法相比)n可以转换为简单易懂的分类规则n可以用SQL查询来实现n分类准确率和其它方法相近第25页,本讲稿共66页2022/10/2225数据挖掘:概念与技术(翻译 张磊)DM算法-1 分类和预测n什么是分类?什么是预测?n关于分类与预测的问题n通过决策树归纳来
15、分类n贝叶斯分类n通过反向传播来分类n基于关联规则挖掘的概念来分类n其它分类方法n预测n分类准确率n总结第26页,本讲稿共66页2022/10/2226数据挖掘:概念与技术(翻译 张磊)贝叶斯分类:为什么?n概率学习:计算假设的先验概率,是处理某些学习问题的常见方法n递增的:每个训练样本可以逐步增加/降低假设正确的概率.已有知识可以与观察数据合并.n概率预测:对多个假设进行预测,根据概率赋于不同权重n标志的:尽管贝叶斯分类方法不容易实施,它们依然可以提供决策制定的优化标准,对其它方法进行评估第27页,本讲稿共66页2022/10/2227数据挖掘:概念与技术(翻译 张磊)贝叶斯定理n给定训练数
16、据D,假设h 的后验概率,P(h|D)满足贝叶斯定理nMAP(最大后验概率)假设n难以实施:需要首先知道多个概率,计算开销大第28页,本讲稿共66页2022/10/2228数据挖掘:概念与技术(翻译 张磊)贝叶斯分类n分类问题被形式化为计算后验概率:n计算P(C|X)=元组X(=)属于类别C的概率n例如 P(类别=N|outlook=sunny,windy=true,)n主要思想:将样本X分类到P(C|X)取最大值的类别标签C第31页,本讲稿共66页2022/10/2231数据挖掘:概念与技术(翻译 张磊)后验概率的估计n贝叶斯定理:P(C|X)=P(X|C)P(C)/P(X)n对于所有类别来
17、说,P(X)是不变的nP(C)=属于类别C的样本占总体的比率n使得P(C|X)取最大值的类别C=使得P(X|C)P(C)取最大值的类别Cn问题:要计算P(X|C)并不容易!第32页,本讲稿共66页2022/10/2232数据挖掘:概念与技术(翻译 张磊)朴素贝叶斯分类n朴素假设:属性无关性P(x1,xk|C)=P(x1|C)P(xk|C)n如果第i个属性是类别型属性:将P(xi|C)估计为类别C中第i个属性取值为xi的样本所占百分比n如果第i个属性是连续型属性:将P(xi|C)估计为其高斯密度函数n两种情况下都容易计算出来第33页,本讲稿共66页2022/10/2233数据挖掘:概念与技术(翻
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 算法 培训 讲义 分类 预测 精品 文稿
限制150内