《数据挖掘分类.pptx》由会员分享,可在线阅读,更多相关《数据挖掘分类.pptx(53页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1Classification 主要用于对离散的数据进行预测分为两步:根据训练集,构造分类模型(训练集中每个元组的分类标号事先已经知道)估计分类模型的准确性,如果其准确性可以接受的话,则利用它来对未来数据进行分类Prediction:构造、使用模型来对某个样本的值进行估计,例如预测某个不知道的值或者缺失值主要用于对连续或有序的数据进行预测Typical applications信誉评估医学诊断性能预测Classification vs.Prediction第1页/共53页2ClassificationA Two-Step Process 模型构造阶段:describing a set of p
2、redetermined classes假定每个元组/样本都属于某个预定义的类,这些类由分类标号属性所定义用来构造模型的元组/样本集被称为训练集(training set)模型一般表示为:分类规则,决策树或者数学公式模型使用阶段:for classifying future or unknown objects估计模型的准确性用一些已知分类标号的测试集和由模型进行分类的结果进行比较两个结果相同所占的比率称为准确率测试集和训练集必须不相关如果准确性可以接受的话,使用模型来对那些不知道分类标号的数据进行分类。第2页/共53页3Classification Process(1):Model Cons
3、tructionTrainingDataClassificationAlgorithmsIFrank=professorORyears6THENtenured=yesClassifier(Model)第3页/共53页4Classification Process(2):Use the Model in PredictionClassifierTestingDataUnseenData(Jeff,Professor,4)Tenured?第4页/共53页5分类和预测相关问题分类和预测相关问题(1):数据预处理数据预处理数据清洗对数据进行预处理,去掉噪声,对缺失数据进行处理(用某个最常用的值代替或者
4、根据统计用某个最可能的值代替)相关分析(特征选择)去掉某些不相关的或者冗余的属性数据转换对数据进行概括(如将连续的值离散成若干个区域,将街道等上升到城市)对数据进行规范化,将某个属性的值缩小到某个指定的范围之内第5页/共53页6分类和预测相关问题分类和预测相关问题(2):对分类方法进行评对分类方法进行评价价准确性:分类准确性和预测准确性速度和可伸缩性构造模型的时间(训练时间)使用模型的时间(分类/预测时间)鲁棒性能够处理噪声和缺失数据可伸缩性对磁盘级的数据库有效 易交互性模型容易理解,具有较好的洞察力第6页/共53页12 二月 20237Visualization of a Decision
5、Tree 第7页/共53页8Supervised vs.Unsupervised LearningSupervised learning(classification)Supervision:The training data(observations,measurements,etc.)are accompanied by labels indicating the class of the observationsNew data is classified based on the training setUnsupervised learning(clustering)The clas
6、s labels of training data is unknownGiven a set of measurements,observations,etc.with the aim of establishing the existence of classes or clusters in the data第8页/共53页9简单例子简单例子分类两岁宝宝,给他看几个水果,并告诉他:红的圆的是苹果,橘黄的圆的是橘子 (建模型)拿一个水果问宝宝:这个水果,红的圆的,是什么?(用模型)聚类两岁宝宝,给他一堆水果,告诉他:根据颜色分成两堆。宝宝会将苹果分成一堆,橘子分成一堆。假如告诉他:根据大小
7、分成3堆,则宝宝会根据大小分成3堆,苹果和橘子可能会放在一起。第9页/共53页10 主要内容主要内容分类和预测贝叶斯分类、神经网络分类预测第10页/共53页11Bayesian Classification是一种基于统计的分类方法,用来预测诸如某个样本属于某个分类的概率有多大基于Bayes理论研 究 发 现,Nave Bayes Classifier在 性 能 上 和Decision Tree、Neural Network classifiers 相当。在应用于大数据集时,具有较高的准确率和速度Nave Bayes Classifier假设属性值之间是独立的,因此可以简化很多计算,故称之为Na
8、ve。当属性值之间有依赖关系时,采用Bayesian Belief Networks进行分类。第11页/共53页12Bayesian Theorem:Basics假设X是未知分类标号的样本数据H代表某种假设,例如X属于分类C P(H|X):给定样本数据X,假设 H成立的概率例如,假设样本数据由各种水果组成,每种水果都可以用形状和颜色来描述。如果用X代表红色并且是圆的,H代表X属于苹果这个假设,则P(H|X)表示,已知X是红色并且是圆的,则X是苹果的概率。第12页/共53页13Bayesian Theorem:BasicsP(H):拿出任一个水果,不管它什么颜色,也不管它什么形状,它属于苹果的概
9、率P(X):拿出任一个水果,不管它是什么水果,它是红色并且是圆的概率P(X|H):一个水果,已知它是一个苹果,则它是红色并且是圆的概率。第13页/共53页14Bayesian Theorem:Basics现在的问题是,知道数据集里每个水果的颜色和形状,看它属于什么水果,求出属于每种水果的概率,选其中概率最大的。也就是要算:P(H|X)但事实上,其他三个概率,P(H)、P(X)、P(X|H)都可以由已知数据得出,而P(H|X)无法从已知数据得出Bayes理论可以帮助我们:第14页/共53页15Nave Bayes Classifier每个数据样本用一个n维特征向量表示,描述由属性对样本的n个度量
10、。假定有m个类。给定一个未知的数据样本X(即,没有类标号),分类法将预测X属于具有最高后验概率(条件X下)的类。即,朴素贝叶斯分类将未知的样本分配给类Ci,当且仅当:这样,我们最大化。其最大的类Ci称为最大后验假定。根据贝叶斯定理:第15页/共53页16Nave Bayes Classifier由于P(X)对于所有类为常数,只需要最大即可。如果类的先验概率未知,则通常假定这些类是等概率的;即,。并据此只对最大化。否则,我们最大化。类的先验概率可以用计算;其中,si是类C中的训练样本数,而s是训练样本总数。第16页/共53页17Nave Bayes Classifier给定具有许多属性的数据集,
11、计算的开销可能非常大。为降低计算的开销,可以朴素地假设属性间不存在依赖关系。这样,概率,可以由训练样本估计,其中,(a)如果Ak是分类属性,则;其中sik 是在属性Ak 上具有值xk 的类Ci 的训练样本数,而si 是Ci中的训练样本数(b)如果是连续值属性,则通常假定该属性服从高斯分布。因而,其中,给定类Ci的训练样本属性Ak的值,是属性Ak的高高斯斯密密度度函函数数,而分别为平均值和标准差。第17页/共53页18Nave Bayes Classifier为对未知样本X分类,对每个类Ci,计算。样本X被指派到类Ci,当且仅当:换言之,X被指派到其最大的类Ci。第18页/共53页19Train
12、ing datasetClass:C1:buys_computer=yesC2:buys_computer=noData sample X=(age=30,Income=medium,Student=yesCredit_rating=Fair)第19页/共53页20Nave Bayesian Classifier:An ExampleCompute P(X|Ci)for each class X=(age=30,income=medium,student=yes,credit_rating=fair)P(X|Ci):P(X|Ci)*P(Ci):Therefore,X belongs to cl
13、ass“buys_computer=yes”第20页/共53页21Nave Bayesian Classifier:Comments优点易于实现 多数情况下结果较满意缺点假设:属性间独立,丢失准确性实际上,属性间存在依赖 处理依赖Bayesian Belief Networks 第21页/共53页22 主要内容主要内容分类和预测贝叶斯分类、神经网络分类预测第22页/共53页23神经网络神经网络神经网络是以模拟人脑神经元的数学模型为基础而建立的,它由一系列神经元组成,单元之间彼此连接。第23页/共53页24神经网络神经网络神经网络有三个要素:拓扑结构、连接方式、学习规则可以从这三方面对神经网络进
14、行分类第24页/共53页25神经网络的拓扑神经网络的拓扑神经网络的拓扑结构:神经网络的单元通常按照层次排列,根据网络的层次数,可以将神经网络分为单层神经网络、两层神经网络、三层神经网络等结构简单的神经网络,在学习时收敛的速度快,但准确度低。神经网络的层数和每层的单元数由问题的复杂程度而定。问题越复杂,神经网络的层数就越多。例如,两层神经网络常用来解决线性问题,而多层网络就可以解决多元非线性问题第25页/共53页26神经网络的连接神经网络的连接神经网络的连接:包括层次之间的连接和每一层内部的连接,连接的强度用权来表示。根据层次之间的连接方式,分为:前馈式网络:连接是单向的,上层单元的输出是下层单
15、元的输入,如反向传播网络反馈式网络:除了单项的连接外,还把最后一层单元的输出作为第一层单元的输入,如Hopfield网络根据连接的范围,分为:全连接神经网络:每个单元和相邻层上的所有单元相连局部连接网络:每个单元只和相邻层上的部分单元相连第26页/共53页27神经网络的学习神经网络的学习神经网络的学习根据学习方法分:感知器:有监督的学习方法,训练样本的类别是已知的,并在学习的过程中指导模型的训练认知器:无监督的学习方法,训练样本类别未知,各单元通过竞争学习。根据学习时间分:离线网络:学习过程和使用过程是独立的在线网络:学习过程和使用过程是同时进行的根据学习规则分:相关学习网络:根据连接间的激活
16、水平改变权系数纠错学习网络:根据输出单元的外部反馈改变权系数自组织学习网络:对输入进行自适应地学习第27页/共53页28基于神经网络的分类方法基于神经网络的分类方法神经网络经常用于分类神经网络的分类知识体现在网络连接上,被隐式地存储在连接的权值中。神经网络的学习就是通过迭代算法,对权值逐步修改的优化过程,学习的目标就是通过改变权值使训练集的样本都能被正确分类。第28页/共53页29基于神经网络的分类方法基于神经网络的分类方法神经网络特别适用于下列情况的分类问题:数据量比较小,缺少足够的样本建立模型数据的结构难以用传统的统计方法来描述分类模型难以表示为传统的统计模型第29页/共53页30基于神经
17、网络的分类方法基于神经网络的分类方法缺点:需要很长的训练时间,因而对于有足够长训练时间的应用更合适。需要大量的参数,这些通常主要靠经验确定,如网络拓扑。可解释性差。该特点使得神经网络在数据挖掘的初期并不看好。第30页/共53页31基于神经网络的分类方法基于神经网络的分类方法优点:分类的准确度高并行分布处理能力强分布存储及学习能力高对噪音数据有很强的鲁棒性和容错能力最流行的基于神经网络的分类算法是80年代提出的后向传播算法。第31页/共53页32后向传播算法后向传播算法后向传播算法在多路前馈神经网络上学习。第32页/共53页33定义网络拓扑定义网络拓扑 在开始训练之前,用户必须说明输入层的单元数
18、、隐藏层数(如果多于一层)、每一隐藏层的单元数和输出层的单元数,以确定网络拓扑。第33页/共53页34定义网络拓扑定义网络拓扑 对训练样本中每个属性的值进行规格化将有助于加快学习过程。通常,对输入值规格化,使得它们落入0.0和1.0之间。离散值属性可以重新编码,使得每个域值一个输入单元。例如,如果属性A的定义域为(a0,a1,a2),则可以分配三个输入单元表示A。即,我们可以用I0,I1,I2作为输入单元。每个单元初始化为0。如果A=a0,则I0置为1;如果A=a1,I1置1;如此下去。一个输出单元可以用来表示两个类(值1代表一个类,而值0代表另一个)。如果多于两个类,则每个类使用一个输出单元
19、。第34页/共53页35定义网络拓扑定义网络拓扑隐藏层单元数设多少个“最好”,没有明确的规则。网络设计是一个实验过程,并可能影响准确性。权的初值也可能影响准确性。如果某个经过训练的网络的准确率太低,则通常需要采用不同的网络拓扑或使用不同的初始权值,重复进行训练。第35页/共53页36后向传播后向传播算法算法后向传播算法学习过程:迭代地处理一组训练样本,将每个样本的网络预测与实际的类标号比较。每次迭代后,修改权值,使得网络预测和实际类之间的均方差最小。这种修改“后向”进行。即,由输出层,经由每个隐藏层,到第一个隐藏层(因此称作后向传播)。尽管不能保证,一般地,权将最终收敛,学习过程停止。算法终止
20、条件:训练集中被正确分类的样本达到一定的比例,或者权系数趋近稳定。第36页/共53页37后向传播后向传播算法算法后向传播算法分为如下几步:初始化权 向前传播输入 向后传播误差 第37页/共53页38后向传播后向传播算法算法初始化权初始化权网络的权通常被初始化为很小的随机数(例如,范围从-1.0到1.0,或从-0.5到0.5)。每个单元都设有一个偏置(bias),偏置也被初始化为小随机数。对于每一个样本X,重复下面两步:向前传播输入向后传播误差第38页/共53页39向前传播输入向前传播输入计算各层每个单元的输入和输出。输入层:输出=输入=样本X的属性;即,对于单元j,Oj=Ij=Xj 隐藏层和输
21、出层:输入=前一层的输出的线性组合,即,对于单元j,Ij=wijOi+j i输出=第39页/共53页40向后传播误差向后传播误差计算各层每个单元的误差。向后传播误差,并更新权和偏置计算各层每个单元的误差。输出层单元j,误差Oj是单元j的实际输出,而Tj是j的真正输出。隐藏层单元j,误差wjk是由j到下一层中单元k的连接的权Errk是单元k的误差第40页/共53页41向后传播误差向后传播误差更新权和偏差,以反映传播的误差。权由下式更新:其中,wij是权wij的改变。l是学习率学习率,通常取0和1之间的值。偏置由下式更新:其中,j是偏置j的改变。第41页/共53页后向传播后向传播算法算法Outpu
22、t nodesInput nodesHidden nodesOutput vectorInput vector:xiwij第42页/共53页12 二月 202343Example设学习率为。训练样本X=1,0,1 类标号为1x1x2x3w14w15w24w25W34w35w46w564561010.2-0.30.40.1-0.50.2-0.3-0.2-0.40.20.1单元j净输入Ij输出Oj4 45 56 60.2+0-0.5-0.4=-0.70.2+0-0.5-0.4=-0.7-0.3+0+0.2+0.2=0.1-0.3+0+0.2+0.2=0.1(-0.3)(0.332)-(0.2)(0
23、.525)+0.1=-0.105(-0.3)(0.332)-(0.2)(0.525)+0.1=-0.1051+(1+e1+(1+e0.70.7)=0.332)=0.3321+(1+e1+(1+e-0.1-0.1)=0.525)=0.5251+(1+e1+(1+e-0.105-0.105)=0.474)=0.474单元jErrj654(0.474)(1-0.474)(1-0.474)=0.1311(0.525)(1-0.525)(0.1311)(-0.2)=-0.0065(0.332)(1-0.332)(0.1311)(-0.3)=-0.02087权或偏差新值w46w56w14w15w24w25
24、w34w35 6 5 4-0.3+(0.9)(0.1311)(0.332)=-0.261-0.2+(0.9)(0.1311)(0.525)=-0.1380.2+(0.9)(-0.0087)(1)=0.192-0.3+(0.9)(0.0065)(1)=-0.3060.4+(0.9)(-0.0087)(0)=0.40.1+(0.9)(-0.0065)(0)=0.1-0.5+(0.9)(-0.0087)(1)=-0.5080.2+(0.9)(-0.0065)(1)=0.1940.1+(0.9)(0.1311)=0.2180.2+(0.9)(-0.0065)=0.194-0.4+(0.9)(-0.00
25、87)=-0.408第43页/共53页44 主要内容主要内容分类和预测贝叶斯分类、神经网络分类预测第44页/共53页45What Is Prediction?Prediction is similar to classificationFirst,construct a modelSecond,use model to predict unknown valueMajor method for prediction:regressionLinear and multiple regressionNon-linear regressionPrediction is different from
26、classificationClassification refers to predict categorical class labelPrediction models continuous-valued functions第45页/共53页46有一些软件包解决回归问题。例如:SAS()SPSS()S-Plus()。第46页/共53页47Linear regression在线性回归线性回归中,数据用直线建模。是最简单的回归形式。双变量回归将一个随机变量Y(称作响应变量响应变量)视为另一个随机变量X(称为预测变量预测变量)的线性函数。即:Y=+X 其中,和是回归系数回归系数 建模的过程主要
27、是求回归系数,常用的方法:最小二乘法第47页/共53页48用最小二乘法求回归系数用最小二乘法求回归系数给定s个样本或形如(x1,y1),(x2,y2),(xs,ys)的数据点,回归系数和可以用下式计算:其中,是x1,x2,.,xs的平均值,而 是y1,y2,.,ys的平均值。与其它复杂的回归方法相比,线性回归常常给出很好的近似。第48页/共53页49用最小二乘法求回归系数用最小二乘法求回归系数:例子例子第49页/共53页50n用方程Y=+X表示年薪和工作年数之间的关系。n给定左图数据,计算出 ,。用最小二乘法求回归系数用最小二乘法求回归系数:例子例子第50页/共53页51multiple regression多元回归多元回归是线性回归的扩展,涉及多个预测变量。响应变量Y可以是一个多维特征向量的线性函数。基于两个预测属性或变量X1和X2的多元回归模型的例子是最小二乘法同样可以用在这里求解,1和2 第51页/共53页52Non-linear regression通过在基本线性模型上添加多项式项,多项式回归多项式回归可以用于建模。通过对变量进行变换,可以将非线性模型转换成线性的,然后用最小二乘法求解。例 下面的三次多项式 通过定义如下新变量:X1=X X 2=X 2 X 3=X 3 可以转换成线性形式,结果为:第52页/共53页感谢您的观看!第53页/共53页
限制150内