第7章--分类与预测--数据挖掘:概念与技术-教学1课件.ppt





《第7章--分类与预测--数据挖掘:概念与技术-教学1课件.ppt》由会员分享,可在线阅读,更多相关《第7章--分类与预测--数据挖掘:概念与技术-教学1课件.ppt(116页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第7章 分类与预测1 分类的任务是通过分析由已知类别数据对象组成的训练数据集,建立描述并区分数据对象类别的分类函数或分类模型(也常常称作分类器)。分类的目的是利用分类模型预测未知类别数据对象的所属类别。2 分类和聚类是两个容易混淆的概念,事实上它们具有显著区别。在分类中,为了建立分类模型而分析的数据对象的类别是已知的,然而,在聚类时处理的所有数据对象的类别都是未知的。因此,分类是有指导的,而聚类是无指导的。3 数据分类与数值预测都是预测问题,都是首先通过分析训练数据集建立模型,然后利用模型预测数据对象。但是,在数据挖掘中,如果预测目标是数据对象在类别属性(离散属性)上的取值(类别),则称为分类
2、;如果预测目标是数据对象在预测属性(连续属性)上的取值或取值区间,则称为预测。例如,对100名男女进行体检,测量了身高和体重,但是事后发现,a和b 两人忘了填写性别,c 和d 两人漏了记录体重。现在根据其他96人的情况,推断a和b 两人的性别是分类,而估计c 和d 两人的体重是预测。4 1.学习阶段(1)建立分类模型:通过分类算法分析训练数据集建立分类模型。训练数据集S 中的元组或记录称为训练样本,每个训练样本由m+1个属性描述,其中有且仅有一个属性称为类别属性,表示训练样本所属的类别。属性集合可用矢量X=(A1,Am,C)表示,其中Ai(1im)对应描述属性,可以具有不同的值域,当一个属性的
3、值域为连续域时,该属性称为连续属性(Numerical Attribute),否则称为离散属性(Discrete Attribute);C 表示类别属性,C=(c1,c2,ck),即训练数据集有k个不同的类别。6 分类算法有决策树分类算法、神经网络分类算法、贝叶斯分类算法、k-最近邻分类算法、遗传分类算法、粗糙集分类算法、模糊集分类算法等。分类算法可以根据下列标准进行比较和评估。1)准确率。涉及分类模型正确地预测新样本所属类别的能力。2)速度。涉及建立和使用分类模型的计算开销。3)强壮性。涉及给定噪声数据或具有空缺值的数据,分类模型正确地预测的能力。4)可伸缩性。涉及给定大量数据,有效地建立分
4、类模型的能力。5)可解释性。涉及分类模型提供的理解和洞察的层次。分类模型有分类规则、判定树等。7(2)评估分类模型的准确率:利用测试数据集评估分类模型的准确率。测试数据集中的元组或记录称为测试样本。分类模型正确分类的测试样本数占总测试样本数的百分比称为该分类模型的准确率。如果分类模型的准确率可以接受,就可以利用该分类模型对新样本进行分类。否则,需要重新建立分类模型。8 2.分类阶段 分类阶段就是利用分类模型对未知类别的新样本进行分类。数值预测过程:与数据分类过程相似。首先通过分析由预测属性取值已知的数据对象组成的训练数据集,建立描述数据对象特征与预测属性之间的相关关系的预测模型,然后利用预测模
5、型对预测属性取值未知的数据对象进行预测。数值预测技术主要采用回归统计技术,例如,一元线性回归、多元线性回归、非线性回归等。107.2 决策树分类 决策树:一棵决策树由一个根节点,一组内部节点和一组叶节点组成。每个内部节点(包括根节点)表示在一个属性上的测试,每个分枝表示一个测试输出,每个叶节点表示一个类,有时不同的叶节点可以表示相同的类。7.2.1 决策树11 建立一棵决策树,需要解决的问题主要有:1)如何选择测试属性?测试属性的选择顺序影响决策树的结构甚至决策树的准确率,一般使用信息增益度量来选择测试属性。2)如何停止划分样本?从根节点测试属性开始,每个内部节点测试属性都把样本空间划分为若干
6、个(子)区域,一般当某个(子)区域的样本同类时,就停止划分样本,有时也通过阈值提前停止划分样本。13 可能出现如下情况,需要停止建立决策(子)树的递归过程。1)某节点对应的训练数据(子)集为空。此时,该节点作为叶节点并用父节点中占多数的样本类别标识。2)某节点没有对应的(剩余)描述属性。此时,该节点作为叶节点并用该节点中占多数的样本类别标识。15 算法:决策树分类算法Generate_decision_tree(S,A)输入:训练数据集S,描述属性集合A 输出:决策树 步骤:(1)创建对应S 的节点Node;(2)if S 中的样本属于同一类别c then 以c 标识Node 并将Node 作
7、为叶节点返回;(3)if A 为空 then 以S 中占多数的样本类别c 标识Node 并将Node 作为叶节点返回;决策树ID3 算法162.信息增益 在决策树分类算法中使用信息增益度量来选择测试属性。从信息论角度看,通过描述属性可以减少类别属性的不确定性。假设有蕃茄、茄子、黄瓜三种蔬菜,现在对某蔬菜分类。在不给任何描述时,该蔬菜可能是蕃茄、茄子、黄瓜三种之一,不确定性大。在给出该蔬菜是“长的”形状描述时,该蔬菜可能是茄子、黄瓜两种之一,不确定性减小。在给出该蔬菜是“紫的”颜色描述时,该蔬菜只可能是茄子了,不确定性为零。18 离散型随机变量X 的无条件熵定义为 式中,p(xi)为X=xi的概
8、率;u 为X 的可能取值个数。根据H(X)的极值性,当 时,即当不确定性最大时,H(X)最大。根据H(X)的确定性,当 时,即当不确定性为零时,H(X)=0。所以,H(X)反映X 的不确定性。19 给定离散型随机变量Y,离散型随机变量X 的条件熵定义为 式中,p(xiyj)为X=xi,Y=yj的联合概率;p(xi/yj)为已知Y=yj时,X=xi的条件概率;u、v分别为X、Y 的可能取值个数。可以证明,H(X/Y)H(X)。所以,通过Y 可以减少X的不确定性。20 假设训练数据集是关系数据表r1,r2,rn,其中描述属性为A1,A2,Am、类别属性为C,类别属性C的无条件熵定义为 式中,u 为
9、C 的可能取值个数,即类别个数,类别记为c1,c2,cu;si为属于类别ci的记录集合,|si|即为属于类别ci的记录总数。21 给定描述属性Ak(1km),类别属性C 的条件熵定义为 式中,v 为Ak的可能取值个数,取值记为a1,a2,av;sj为Ak=aj的记录集合,|sj|即为Ak=aj的记录数目;sij为Ak=aj且属于类别ci的记录集合,|sij|即为Ak=aj且属于类别ci的记录数目。22 采用类别属性的无条件熵与条件熵的差(信息增益)来度量描述属性减少类别属性不确定性的程度。给定描述属性Ak(1km),类别属性C 的信息增益定义为:G(C,Ak)=E(C)-E(C,Ak)可以看出
10、,G(C,Ak)反映Ak减少C 不确定性的程度,G(C,Ak)越大,Ak对减少C 不确定性的贡献越大。24 例如,假设蔬菜数据表如表7.1所示,“颜色”、“形状”是描述属性,“蔬菜”是类别属性,分别求给定“颜色”、“形状”属性时,“蔬菜”属性的信息增益。表7.1 蔬菜数据表 颜色 形状 蔬菜红 圆 蕃茄紫 长 茄子绿 长 黄瓜结论属性条件属性25解:颜色 形状 蔬菜红 圆 蕃茄紫 长 茄子绿 长 黄瓜共有3个记录,蕃茄、茄子和黄瓜各计一个记录。26颜色 形状 蔬菜红 圆 蕃茄紫 长 茄子绿 长 黄瓜按形状分类,再按蔬菜分类,圆形状只有一种蔬菜,而长形状有两种蔬菜。28则有:G(蔬菜,颜色)1.
11、5850-0=1.5850G(蔬菜,形状)1.5850-0.6667=0.9183说明颜色对蔬菜分类的不确定性小,而形状对蔬菜分类的不确定性大。信息熵反映不确定的程度,为1时表示最大不确定性,为0时表示最小不确定性。信息增益G(C,A)=E(C)-E(C,A)反映属性A 减少C不确定性的程度,G(C,A)越大,属性A 对减少C 不确定性的贡献越大。29 例如,假设顾客数据表如下表所示,“购买计算机”属性是类别属性,其余属性是描述属性,建立决策树。年龄 收入 学生 信誉 购买计算机30 高 否 中 是30 高 否 优 否31.40 高 否 中 是41 中 否 中 是41 低 是 中 是41 低
12、是 优 否31.40 低 是 优 是30 中 否 中 否30 低 是 中 是41 中 是 中 是30 中 是 优 是31.40 中 否 优 是31.40 高 是 中 是41 中 否 优 否31解:考虑根节点:G(购买计算机,年龄)=0.246G(购买计算机,收入)=0.029G(购买计算机,学生)=0.151G(购买计算机,信誉)=0.048 所以根节点的测试属性为“年龄”32 考虑分枝“年龄=30”节点G(购买计算机,收入)=0.571G(购买计算机,学生)=0.971G(购买计算机,信誉)=0.02 所以分枝“年龄=30”节点的测试属性为“学生”。年龄 收入 学生 信誉 购买计算机30 高
13、 否 中 是30 高 否 优 否30 中 否 中 否30 低 是 中 是30 中 是 优 是33 考虑分枝“年龄=3140”节点 因为所有记录属于同一类别 是,所以分枝“年龄=3140”节点为叶节点。年龄 收入 学生 信誉 购买计算机31.40 高 否 中 是31.40 低 是 优 是31.40 中 否 优 是31.40 高 是 中 是34 考虑分枝“年龄=41”节点 G(购买计算机,收入)=0.02 G(购买计算机,学生)=0.02 G(购买计算机,信誉)=0.971 所以分枝“年龄=41”节点的测试属性为“信誉”年龄 收入 学生 信誉 购买计算机41 中 否 中 是41 低 是 中 是41
14、 低 是 优 否41 中 是 中 是41 中 否 优 否35 考虑分枝“学生=否”节点 因为所有记录属于同一类别 否,所以分枝“学生=否”节点为叶节点。年龄 收入 学生 信誉 购买计算机41 中 否 中 是41 中 否 优 否36 考虑分枝“学生=是”节点 因为所有记录属于同一类别 是 所以分枝“学生=是”节点为叶节点。考虑分枝“信誉=优”节点 因为所有记录属于同一类别 否 所以分枝“信誉=否”节点为叶节点。考虑分枝“信誉=中”节点 因为所有记录属于同一类别 是 所以分枝“信誉=是”节点为叶节点。建立的决策树如下图所示。37一棵决策树 购买计算机年龄?是3031.4041否 是 否 是否是 优
15、 中学生?信誉?387.2.3 提取分类规则建立了决策树之后,可以对从根节点到叶节点的每条路径创建一条IF-THEN 分类规则,即沿着路径,每个内部属性-值对(内部节点-分枝对)形成规则前件(IF部分)的一个合取项,叶节点形成规则后件(THEN 部分)。例如,沿着从根节点到叶节点的每条路径,上图的决策树可以转换成以下IF-THEN 分类规则:IF 年龄=30 AND 学生=否 THEN 购买计算机=否IF 年龄=30 AND 学生=是 THEN 购买计算机=是IF 年龄=3140 THEN 购买计算机=是IF 年龄=41 AND 信誉=优 THEN 购买计算机=否IF 年龄=41 AND 信誉
16、=中 THEN 购买计算机=是397.2.4 对新样本分类 假如现在来了一位新顾客,他是一名教师,年龄为45岁,收入较低但信誉很好。商场需要判断该顾客是否会购买计算机?即将该顾客划分到“购买计算机”类呢?还是将他划分到“不购买计算机”类?很显然,利用上面的分类规则,可以判定该顾客不会购买计算机。407.2.5 C4.5 算法Quinlan 建议将E(C,Ak)改为:GRatio=E(C,Ak)/SplitE(C,Ak),其中:SplitE(C,Ak)=I(|T1|/|T|,|T2|/|T|,|Tn|/|T|),而T1,T2,Tn 表示以C 的取值分割T 所产生的T 的子集。I 的定义若给定的概
17、率分布P=(p1,p2,pn),则由该分布传递的信息量称为P 的熵,即:I(P)=-(p1*log2p1+p2*log2p2+pn*log2pn)原描述属性Ak(1km),类别属性C 的条件熵定义为:41 前馈神经网络是分层网络模型,具有一个输入层和一个输出层,输入层和输出层之间有一个或多个隐藏层。每个层具有若干单元,前一层单元与后一层单元之间通过有向加权边相连。7.3.1 前馈神经网络7.3 前馈神经网络分类42 输入层单元的数目与训练样本的描述属性数目对应,通常一个连续属性对应一个输入层单元,一个p值离散属性对应p个输入层单元;输出层单元的数目与训练样本的类别数目对应,当类别数目为2时,输
18、出层可以只有一个单元;目前,隐藏层的层数及隐藏层的单元数尚无理论指导,一般通过实验选取。在输入层,各单元的输出可以等于输入,也可以按一定比例调节,使其值落在1和+1 之间。43 在隐藏层、输出层,每个单元的输入都是前一层各单元输出的加权和,输出是输入的某种函数,称为激活函数。隐藏层、输出层任意单元j 的输入为 式中,wij是单元j 与前一层单元i 之间的连接权值;Oi是单元i 的输出;为改变单元j 活性的偏置,一般在区间 1,1 上取值。44 单元j 的输出为Oj=f(netj)如果f 采用S 型激活函数,即 则 45计算隐藏层、输出层任意单元j 的输出的过程46例如,定义蔬菜分类的前馈神经网
19、络结构。表7.1 蔬菜数据表 颜色 形状 蔬菜红 圆 蕃茄紫 长 茄子绿 长 黄瓜47两层前馈神经网络结构 因为离散属性“颜色”有三个取值、“形状”有两个取值,分别采用3位、2位编码,所以输入层有5个单元。因为类别属性“蔬菜”有三个取值,采用3位编码,所以输出层有3个单元。如果只用一个具有4个单元的隐藏层并且采用全连接,则两层前馈神经网络结构如下图所示。487.3.2 学习前馈神经网络 确定了网络结构(网络层数,各层单元数)之后,应该确定各单元的偏置及单元之间的连接权值。学习过程就是调整这组权值和偏置,使每个训练样本在输出层单元上获得期望输出。学习目的就是找出一组权值和偏置,这组权值和偏置能使
20、所有训练样本在输出层单元上获得期望输出。49 误差后向传播的基本思想是:首先赋予每条有向加权边初始权值、每个隐藏层与输出层单元初始偏置;然后迭代地处理每个训练样本;输入它的描述属性值,计算输出层单元的实际输出;比较实际输出与期望输出(类别属性值),将它们之间的误差从输出层经每个隐藏层到输入层“后向传播”;根据误差修改每条有向加权边的权值及每个隐藏层与输出层单元的偏置,使实际输出与期望输出之间的误差最小。50 对于某个训练样本,实际输出与期望输出的误差Error 定义为 式中,c 为输出层的单元数目;Tk为输出层单元k的期望输出;Ok为输出层单元k的实际输出。希望Error 越小越好!51 首先
21、考虑输出层单元k与前一层单元j 之间的权值wjk的修改量wjk、单元k的偏置 的修改量。式中,l 为避免陷入局部最优解的学习率,一般在区间0,1 上取值。这里采用的是梯度下降法。52 求解上式可以得到权值、偏置的修改量为 式中,Oj为单元j 的输出;Errk是误差Error 对单元k的输入netk的负偏导数,即 53 类似地,隐藏层单元j 与前一层单元i 之间的权值wij 的修改量wij、单元j 的偏置j 的修改量j 为 式中,l 为学习率;Oi为单元i 的输出;Oj为单元j 的输出;Errk为与单元j 相连的后一层单元k的误差;wjk为单元j 与单元k相连的有向加权边的权值。54 权值、偏置
22、的修改公式为 权值、偏置的更新有两种策略:1)处理一个训练样本更新一次,称为实例更新,一般采用这种策略。2)累积权值、偏置,当处理所有训练样本后再一次更新,称为周期更新。55 一般,在训练前馈神经网络时,误差后向传播算法经过若干周期以后,可以使误差Error 小于设定阈值,此时认为网络收敛,结束迭代过程。此外,也可以定义如下结束条件:1)前一周期所有的权值变化都很小,小于某个设定阈值;2)前一周期预测的准确率很大,大于某个设定阈值;3)周期数大于某个设定阈值。56 算法:误差后向传播算法 输入:训练数据集S,前馈神经网络NT,学习率l 输出:经过训练的前馈神经网络NT 步骤:(1)在区间-1,
23、1 上随机初始化NT 中每条有向加权边的权值、每个隐藏层与输出层单元的偏置(2)while 结束条件不满足(2.1)for S 中每个训练样本s57(2.1.1)for 隐藏层与输出层中每个单元j/从第一个隐藏层开始向前传播输入(2.1.2)for 输出层中每个单元k Errk=Ok(1-Ok)(Tk-Ok)58(2.1.3)for 隐藏层中每个单元j/从最后一个隐藏层开始向后传播误差(2.1.4)for NT 中每条有向加权边的权值wij wij=wij+lErrjOi(2.1.5)for 隐藏层与输出层中每个单元的偏置j j=j+lErrj59 误差后向传播算法要求输入层单元的输入是连续值
24、,并对连续值进行规格化以便提高训练的效率与质量。如果训练样本的描述属性是离散属性,则需要对其编码,编码方法有两种:1)p值离散属性:可以采用p位编码。假设p值离散属性的可能取值为a1,a2,ap,当某训练样本的该属性值为a1时,则编码为1,0,0;当某训练样本的该属性值为a2时,则编码为0,1,0;依次类推。2)二值离散属性:除采用2位编码外还可以采用1位编码。当编码为1时表示一个属性值;当编码为0时表示另一个属性值。60 例如,假设训练样本s 的描述属性值与类别属性值分别为1,0,1 与1,前馈神经网络NT 如下图所示,NT 中每条有向加权边的权值、每个隐藏层与输出层单元的偏置如表7.3所示
25、,学习率为0.9。写出输入s 训练NT 的过程。一个前馈神经网络NT61NT 中边的权值、单元的偏置 x1 x2 x3 w14 w15 w24 w25 w34 w35 w46 w56 4 5 6 1 0 1 0.2 0.3 0.4 0.1 0.5 0.2 0.3 0.2 0.4 0.2 0.1 wij和j是随机产生的,l 0.962隐藏层与输出层中单元的输入、输出 单元j 输入netj 输出Oj 4 0.2*1+0.4*0+(0.5)*1+(0.4)=0.7 1/(1+e(0.7)=0.332 5(0.3)*1+0.1*0+(0.2)*1+0.2=0.1 1/(1+e 0.1)=0.525 6
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 分类 预测 数据 挖掘 概念 技术 教学 课件

限制150内