《数据挖掘》课程PPT-分类和预测资料.ppt
《《数据挖掘》课程PPT-分类和预测资料.ppt》由会员分享,可在线阅读,更多相关《《数据挖掘》课程PPT-分类和预测资料.ppt(37页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、分类 VS. 预测n分类和预测是两种数据分析形式,用于提取描述重要数据类或预测未来的数据趋势 的模型q分类:n预测类对象的分类标号(或离散值)n根据训练数据集和类标号属性,构建模型来分类现有数据,并用来分类新数据q预测:n建立连续函数值模型n比如预测空缺值,或者预测顾客在计算机设备上的花费n典型应用q欺诈检测、市场定位、性能预测、医疗诊断分类和预测-示例n分类q银行贷款员需要分析数据,来弄清哪些贷款申请者是安全的,哪些是有风险的(将贷款申请者分为“安全”和“有风险”两类)n我们需要构造一个分类器来预测类属编号,比如预测顾客属类n预测q银行贷款员需要预测贷给某个顾客多少钱是安全的n构造一个预测器
2、,预测一个连续值函数或有序值,常用方法是回归分析数据分类一个两步过程 (1)n第一步,也成为学习步学习步,目标是建立描述预先定义的数据类或概念集的分类器q分类算法通过分析或从训练集“学习”来构造分类器。q训练集由数据库元组(用n维属性向量表示)和他们相对应的类编号组成;假定每个元组属于一个预定义的类n训练元组训练元组:训练数据集中的单个元组q学习模型可以用分类规则、决策树或数学公式的形式提供数据分类一个两步过程 (2)n第二步,使用模型,对将来的或未知的对象进行分类q首先评估模型的预测准确率n对每个测试样本,将已知的类标号和该样本的学习模型类预测比较n模型在给定测试集上的准确率是正确被模型分类
3、的测试样本的百分比n测试集要独立于训练样本集,否则会出现“过分拟合”的情况第一步建立模型训练数据集NAME RANKYEARS TENUREDMikeAssistant Prof3noMaryAssistant Prof7yesBill Professor2yesJimAssociate Prof7yesDaveAssistant Prof6noAnneAssociate Prof3no分类算法IF rank = professorOR years 6THEN tenured = yes 分类规则第二步用模型进行分类分类规则测试集NAMERANKYEARS TENUREDTomAssistan
4、t Prof2noMerlisa Associate Prof7noGeorge Professor5yesJoseph Assistant Prof7yes未知数据(Jeff, Professor, 4)Tenured?监督学习 VS. 无监督学习n监督学习(用于分类)q模型的学习在被告知每个训练样本属于哪个类的“指导”下进行q新数据使用训练数据集中得到的规则进行分类n无监督学习(用于聚类)q每个训练样本的类编号是未知的,要学习的类集合或数量也可能是事先未知的q通过一系列的度量、观察来建立数据中的类编号或进行聚类数据预测的两步过程n数据预测也是一个两步的过程,类似于前面描述的数据分类q对于预
5、测,没有“类标号属性”q要预测的属性是连续值,而不是离散值,该属性可简称“预测属性”nE.g. 银行贷款员需要预测贷给某个顾客多少钱是安全的n预测器可以看作一个映射或函数y=f(X)q其中X是输入;y是输出,是一个连续或有序的值q与分类类似,准确率的预测,也要使用单独的测试集准备分类和预测的数据n通过对数据进行预处理,可以提高分类和预测过程的准确性、有效性和可伸缩性q数据清理n消除或减少噪声,处理空缺值,从而减少学习时的混乱q相关分析n数据中的有些属性可能与当前任务不相关;也有些属性可能是冗余的;删除这些属性可以加快学习步骤,使学习结果更精确q数据变换与归约n数据可以通过规范化进行变换,将所给
6、属性的所有值按比例进行缩放,使其落入一个较小的指定区间,例 0.0, 1.0(ANN和设计距离的度量方法中常用)n可以将数据概化到较高层概念比较分类方法n使用下列标准比较分类和预测方法q预测的准确率:模型正确预测新数据的类编号的能力q速度:产生和使用模型的计算花销q健壮性:给定噪声数据或有空缺值的数据,模型正确预测的能力q可伸缩性:对大量数据,有效的构建分类器或预测可伸缩性:对大量数据,有效的构建分类器或预测器的能力器的能力q可解释性:学习模型提供的理解和洞察的层次用决策树归纳分类 (1)n什么是决策树?q类似于流程图的树结构q每个内部节点表示在一个属性上的测试q每个分枝代表一个测试输出q每个
7、树叶节点存放一个类编号age?student?credit rating?noyesfairexcellentyouthseniornonoyesyesyesMiddleaged决策树:决策树:Buys_computer用决策树归纳分类 (2)n使用决策树分类q给定一个类标号未知的元组X,在决策树上测试元组的属性值,跟踪一条由根到叶节点的路径,叶节点存放该元组的类预测。q决策树容易转换为分类规则n决策树的生成由两个阶段组成q决策树构建n使用属性选择度量来选择将元组最好的划分为不同的类的属性n递归的通过选定的属性,来划分样本 (必须是离散值)q树剪枝n决策树建立时,许多分枝反映的是训练数据中的噪
8、声和离群点点,树剪枝试图识别并剪去这种分枝,以提高对未知数据分类的准确性决策树归纳策略 (1)n输入q数据划分D是训练元组和对应类标号的集合qattribute_list,候选属性的集合qAttribute_selection_method,指定选择属性的启发性过程算法步骤q树以代表训练样本的单个节点(N)开始q如果样本都在同一个类,则该节点成为树叶,并用该类标记1.否则,算法调用Attribute_selection_method,选择能够最好的将样本分类的属性;确定“分裂准则”,指出“分裂点”或“分裂子集”。决策树归纳策略 (2)n对测试属性每个已知的值,创建一个分支,并以此划分元组n算法
9、使用同样的过程,递归的形成每个划分上的元组决策树。一旦一个属性出现在一个节点上,就不在该节点的任何子节点上出现n递归划分步骤停止的条件划分D(在N节点提供)的所有元组属于同一类没有剩余属性可以用来进一步划分元组使用多数表决没有剩余的样本给定分支没有元组,则以D中多数类创建一个树叶属性选择度量n属性选择度量是一种选择分裂准则,将给定类标号的训练元组最好的进行划分的方法q理想情况,每个划分都是“纯”的,即落在给定划分内的元组都属于相同的类q属性选择度量又称为分裂准则n常用的属性选择度量q信息增益q增益率qGini指标信息增益 (1)nS是一个训练样本训练样本的集合,该样本中每个集合的类编号类编号已
10、知。每个样本为一个元组元组。有个属性用来判定某个训练样本的类编号n假设S中有m个类,总共s个训练样本,每个类Ci有si个样本(i1,2,3.m),那么任意一个样本属于类Ci的概率是si / s,那么用来分类一个给定样本的期望信息期望信息是:sssssssInfoimiim2121log),.,(信息增益 (2)n一个有v个值的属性Aa1,a2,.,av可以将S分成v个子集S1,S2,.,Sv,其中Sj包含S中属性A上的值为aj的样本。假设Sj包含类Ci的sij个样本。根据A的这种划分的期望信息称为A的熵熵nA上该划分的获得的信息增益定义为:n具有高信息增益的属性,是给定集合中具有高区分度的属性
11、。所以可以通过计算S中样本的每个属性的信息增益,来得到一个属性的相关性的排序。),.,(.)(111mjjvjmjjssIsssAE)(),.,()(21AEsssIAGainmageincomestudentcredit_ratingbuys_computeryouthhighnofairnoyouthhighnoexcellentnomiddle_agedhighnofairyesseniormediumnofairyesseniorlowyesfairyesseniorlowyesexcellentnomiddle_agedlowyesexcellentyesyouthmediumnof
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据挖掘 数据 挖掘 课程 PPT 分类 预测 资料
限制150内