多元统计分析讲义(第三章)(共26页).doc
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《多元统计分析讲义(第三章)(共26页).doc》由会员分享,可在线阅读,更多相关《多元统计分析讲义(第三章)(共26页).doc(26页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上注意电子文档使用范围Equation Chapter 1 Section 1多 元 统 计 分 析Multivariate Statistical Analysis主讲:统计学院 许启发(xuqifa1975)统计学院应用统计学教研室School of Statistics2004年9月第三章 判别分析【教学目的】1 让学生了解判别分析的背景、基本思想;2 掌握判别分析的基本原理与方法;3 掌握判别分析的操作步骤和基本过程;4 学会应用聚类分析解决实际问题。【教学重点】1 注意判别分析与聚类分析的关系(联系与区别);2 阐述各种判别分析方法。1 概述一、 什么是判别分
2、析1研究背景科学研究中,经常会遇到这样的问题:某研究对象以某种方式(如先前的结果或经验)已划分成若干类型,而每一类型都是用一些指标来表征的,即不同类型的的观测值在某种意义上有一定的差异。当得到一个新样本观测值(或个体)的关于指标的观测值时,要判断该样本观测值(或个体)属于这几个已知类型中的哪一个,这类问题通常称为判别分析。也就是说,判别分析(discriminant analysis)是根据所研究个体的某些指标的观测值来推断该个体所属类型的一种统计方法。判别分析的应用十分广泛。例如,在工业生产中,要根据某种产品的一些非破坏性测量指标判别产品的质量等级;在经济分析中,根据人均国民收入,人均工农业
3、产值,人均消费水平等指标判断一个国家的经济发展程度;在考古研究中,根据挖掘的古人头盖骨的容量,周长等判断此人的性别;在地质勘探中,根据某地的地质结构,化探和物探等各项指标来判断该地的矿化类型;在医学诊断中,医生要根据某病人的化验结果和病情征兆判断病人患哪一种疾病,等等。值得注意的是,作为一种统计方法,判别分析所处理的问题一般都是机理不甚清楚或者基本不了解的复杂问题,如果样本观测值的某些观测指标和其所属类型有必然的逻辑关系,也就没有必要应用判别分析方法了。2基本思想及意义用统计的语言来描述判别分析,就是已知有个总体(每个总体可认为是属于的指标取值的全体),它们的分布函数均为p维函数,对于任一给定
4、的新样本观测值关于指标的观测值,我们要判断该样本观测值应属于这g 个总体中的哪一个。在实际应用中,通常由取自各总体的关于指标的样本为该总体的代表,该样本称为训练样本。判别分析即提取训练样本中各总体的信息以构造一定的准则来决定新样本观测值的归属问题。训练样本往往是历史上对某现象长期观测或者是用昂贵的试验手段得到的,因此对当前的新样本观测值,我们自然希望将其指标值中的信息同各总体训练样本中的信息作比较,使可在一定程度上判定新样本观测值的所属类型。概括起来,下述几个方面体现了判别分析的重要意义。第一,为未来的决策和行动提供参考。例如,以前对一些公司在破产前两年观测到某些重要的金融指标值。现在,要根据
5、另一个同类型公司的这些指标的观测值,预测该公司两年后是否将濒临破产的危险,这便是一种判别,其结论可以帮助该公司决策人员及早采取措施,防止将来可能破产的结局。第二,避免破产的破坏。例如,一只灯泡的寿命只有将它用坏时才能得知;一种材料的强度只有将它压坏时才能获得。一般地,我们希望根据一些非破坏性的测量指标,便可将产品分出质量等级,这也要用到判别分析。第三,减少获得直接分类信息的昂贵代价。例如在医学诊断中,一些疾病可用代价昂贵的化验和手术得到确诊,但通常人们往往更希望通过便于观测(从而也可能导致误诊)的一些外部症状来诊断,以避免过大的开支和对患有不必要的损伤。第四,在直接分类信息不能获得的情况下可用
6、判别分析。例如,要判断某未署名的文学作品是否出自某已故作家之手,很显然,我们不能直接去问他。这时可以用这位已故作家署名作品的写作特点(用一些变量描述)为训练样本,用判别分析方法在一定程度上判定该未署名作品是否由该作家所作。从以上例子也可以清楚地看到,如果不是利用直接明确的分类信息来判断某样本观测值的归属问题,难免会出现误判的情况。判别分析的任务是依据训练样本所提供的信息,建立在某种意义下最优(如误判概率最小,或误判损失最小等)的准则来判定一个新样本属于哪一个总体。根据判别准则的不同,我们主要介绍距离判别、Fisher判别和Bayes判别。二、 判别分析的分类及准则1分类(1)按照判别组数分:两
7、组判别和多组判别;(2)按照所用的数学模型分:线性判别和非线性判别;(3)按照处理度量的方法分:逐步判别和序贯判别。2准则主要有:马氏距离最小准则,Fisher准则,平均损失最小准则,最小平方准则,最大似然准则,最大概率准则。并可由此提出判别方法:距离判别法,Fisher判别法,Bayes判别法,逐步判别法。三、 判别分析与聚类分析判别分析是用以判别个体所属群体的一种统计分析方法,产生于20世纪30年代。判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知样品进行判别分类。聚类分析,一批给定样品要划分的类型事先并不
8、知道,正需要通过聚类分析来给以确定类型。判别分析与聚类分析经常结合使用:通过聚类分析首先确定出几个类型,对难以分类的样品再使用判别分析,确定其类别归属。2 距离判别法距离判别是通过定义样本指标的观测值(p维)到各总体的距离,以其大小判定样本观测值属于哪个总体。常用的距离是Mahalanobis距离(简称马氏距离),其定义如下:设G是p维总体,均值向量为,协方差矩阵为,定义p维样本到总体G的马氏距离为一、 基本思想首先根据已知分类的数据,分别计算各类的重心即分组(类)的均值。判别准则是对任给的一次观测,若它与第类的重心距离最近,就认为它来自第类。距离判别法对各类总体分类并无特殊的要求。二、 两个
9、总体的距离判别法设有两个总体(或称两类)、,其均值向量和协差阵分别为和,从第一个总体中抽取个样品,从第二个总体中抽取个样品,每个样品测量个指标。总体 总体变量样品变量样品均值均值任取一样品(待判),实测指标值为,问应归并为哪一类?1计算到总体和的距离,分别记为:和;2判别3距离的定义(马氏距离)(1)当时此时,考察样品到两总体的马氏距离的平方差,由于其中,。令,则判别准则可以简化为:更进一步,令,则可表示为:上式表明,当和均已知时,是的线性函数,称之为线性判别,称之为判别系数。线性判别函数因其使用方便而得到广泛的应用。但在实际问题中,和通常是未知的,我们所具有的资料只是来自两个总体的训练样本。
10、这时,可以通过训练样本对及作估计。设为来自的样本(每个均为维列向量),则 式中,为样本的协差阵。和为无偏估计。这时,判别函数的估计为其中,。则NOTE:对于当维时,若两个总体的分布分别为和,属于多维的一种特例。教材P105给出该特例形式,并且给出了错判的概率。(2)当时正如本节开始所述,可由和的大小判定属于哪个总体,或令作为判别函数,这时判别函数是的二次函数。实际应用中,若和未知,可用总体的训练样本对它们作估计,从而得到判别函数的估计为其中,与表达同上。三、 多个总体的距离判别 将两个总体的情况推广到多个总体。设有个p维总体,均值向量分别为,协方差矩阵分别为,从每个总体中抽取个样品,每个样品测
11、量个指标()。类似两总体的距离差别,计算新样本观测值到各总体的距离,比较这个距离,判定属于其距离最短的总体(若最短距离不惟一,则可将归于具有最短距离总体中的任一个,因此,不妨设最短距离惟一)。下面仍就各协方差矩阵相等和不等的情况予以详细讨论。1当时此时,由前面的马氏距离定义知:,则判别函数为:则到的距离最小等价于对所有的,有,从而判别准则可以写为当和通常是未知的,可以利用各总体的训练样本对其进行估计,得到估计的判别函数。设为来自的样本(每个均为维列向量),则 式中,为的样本离差阵。和为无偏估计。2当不全相等时这时只需直接计算,若,则判。同样地,若和是未知的,则可以用它们的估计量和计算得到到各总
12、体的距离,从而进行判断。或者,可以构造判别函数判别准则同上。四、 判别准则的评价当一个判别准则提出以后,很自然的问题就是它们的优良性如何。通常,一个判别准则的优劣,用它的误判概率来衡量。以两总体为例,一个判别准则的误判概率即属于而判归或者相反的概率。但只有当总体的分布完全已知时,才有可能精确计算误判概率。在实际应用中,这种情况是很少见的,因为在大多数情况下,我们可利用的资料只是来自各总体的训练样本,而总体的分布是未知的。下面我们以两个总体为例,介绍两种以训练样本为基础的评价判别准则优劣的方法。它们也很容易推广到多个总体的情况。1貌似误判率方法当利用各总体的训练样本构造出判别准则后,评价此准则优
13、劣的一个可行的办法是通过对训练样本中的各样本逐个回判(即将各样本观测值代入判别准则中进行再判别),利用回判的误判率来衡量判别准则的效果,具体方法如下:设和为两个总体,为来自和的容量分别为和的训练样本,以此按一定方法(如距离判别法)构造一个判别准则(或判别函数),以全体训练样本作为个新样本,逐个代入已建立的判别准则中判别其归属,这个过程称为回判。为明了起见,将回判结果连同其实际分类列成如下的四格表3.1。表3.1 两总体回判结果回判情况实际归类合计其中,代表属于的样品被正确判归的个数;代表属于的样品被正确判归的个数;代表属于的样品被正确判归的个数;代表属于的样品被正确判归的个数。定义貌似误判率为
14、回归中判错样品的比例,记为,即在一定程度上反映了某判别准则的误判率且对任何误判准则都易于计算。但是,是由建立判别函数的数据反过来又用作评估准则优劣的数据而得到的,因此作为真实误判率的估计是有偏的,往往要比真实的误判率来的小。但作为误判概率的一种近似,当训练样本容量较大时,还是具有一定的参考价值。2.刀切法刀切法也称为Lachenbruch删除法或交差确认法(Cross-Validation)。其基本思想是每次剔除训练样本中的一个样本,利用其余容量为的训练样本建立判别准则(或判别函数),再用所建立的判别准则对删除的那个样本观测值作判断,对训练样本中的每个样本观测值重复上述步骤,以其误判的比例作为
15、误判概率的估计。具体地说:(1)从总体的容量的训练样本开始,剔除其中的一个样本观测值,用剩余的容量为的训练样本和总体的容量为的训练样本建立判别函数;(2)用(1)中建立的判别函数对删除的那个样本观测值作判别;(3)重复步骤(1)和(2),直到的训练样本中的个样本观测值依次被删除和判别,用记误判的样本观测值个数;(4)对总体的训练样本重复步骤(1),(2)和(3),并用记误判的样本观测值个数。则总的误判比例为可以证明它是实际误判概率的渐近无偏估计。刀切法比貌似误判率法要更合理些,但缺点是计算量较大。在SAS等统计软件中有专门的计算程序,因此借助计算机的威力,刀切法还是值得推荐的一种评价判别准则优
16、良性的方法。最后需要指出的是,判别准则的误判率在一定的程度上还依赖于所考虑的各总体之间的分离程度。各总体之间相互离得越远,就越有可能建立有效的判别准则,否则,某些总体靠得很近,使用判别分析本身就意义不大,更不用说建立有效的判别准则了。另外,各总体的协方差矩阵是否相等,严格地说也需要进行统计检验。当各总体服从多元正态分布时,我们可以对各总体的均值向量是否相等进行统计检验以确定使用判别分析是否有意义。同时,也可对各总体的协方差阵是否相等进行检验以确定是采用线性判别函数还是二次判别函数(具体检验方法可参看文献8第五章)。但这些检验方法往往十分复杂,在实际应用中,我们可就协方差矩阵相等和不相等情况下,
17、分别利用线性判别函数和二次判别函数作分析,通过貌似误判率方法或刀切法估计各情况下判别准则的优劣,以选择一个较优的判别准则。SAS软件包含了检验协方差阵相等的程序,因此借助统计软件,可以进行更深入的统计分析。五、 应用举例例3.1 P108。例3.2 P111。3 费歇(Fisher)判别法这种判别法是历史上最早提出的判别方法之一,也叫线性判别法,该方法对总体的分布无须作出具体的要求。一、 判别原理(基本思想)设是来自第类(组)的样本数据阵,其中的行表示样本点,列表示变量(值),。任给一个样本点,要判断应该属于哪个组别,需要找到的线性判别函数现在的问题是按照什么样的原则选择向量呢?因为向量表示维
18、空间中的一个方向,如果按照这个方向做一条直线(建立一个一维坐标系),那么表示向量在这条直线上投影坐标。同样,将各组样本均值投影到这条直线,得到各组样本均值在这条直线上的投影坐标。显然这些坐标值相距越大,越容易分辨究竟属于哪个组。如图3.1所示,若判别函数选择,由于三个组的重心在的投影相距较远,比较容易判别待判样本点属于哪一个组。反之,若判别函数选择,由于三个组的重心在的投影相距较远,不容易判别待判样本点的归属。Fisher判别法就是要找到一个由个变量组成的线性函数,使得各自组内点的函数值尽可能接近,而不同组之间点的函数值尽可能疏远。具体地,Fisher判别法就是要求的选择能使之间的离差平方和尽
19、量大,使得各组内离差平方和尽量小。其中,因此,可以构造函数选择适当的使得达到最大值。根据极值的必要条件,令由知,于是当成立时,有写成矩阵形式,上式变为其中。上式告诉我们,向量是的特征根对应的单位特征向量。由于有个特征根及单位特征向量,按主成分分析的思想,自然应取最大特征根及相应的单位特征向量,这样构成的判别函数 这里给出的是一维Fisher判别函数。在有些问题中,仅用一个线性判别函数不能很好地区分各个类(组)别,可以利用前若干个特征所对应的单位正交特征向量构造个判别函数,并称为多维判别。可使达到极大。由于的大小可以衡量判别函数的判别效果,故称为判别效率。二、 两总体的Fisher判别1基本原理
20、从两个总体中抽取具有个指标的样品观测数据,借助方差分析的思想构造一个判别函数或判别式:,其中系数确定的原则是使两组间的区别最大,而使每个组内部的离差最小。有了判别式以后,对于一个新样品,将它的个指标代入判别式中求出的值,然后与判别临界值(分界点)进行比较,就可以判别它应属于哪一个总体。2判别函数的导出(1)找到判别式不妨设已经建立了判别式:,则可以得到变换后的两组的重心。第一组样品的重心:第二组样品的重心:组间变差:组内变差:可以构造指标的选取原则就是使得极大化 利用微积分中求极值的必要条件可求出使达到最大的,详细过程见教材P117。其中,。(2)设置判别准则有了判别函数之后,要得到判别准则还
21、要确定临界值(分界点),在两总体先验概率相等的假设下,一般常取为与的加权平均值,即判别准则:当时,若,则判定;若,则判定当时,若,则判定;若,则判定3计算步骤其基本步骤归纳如下:STEP01:建立判别式;STEP02:计算临界值,设置判别准则;STEP03:检验判别效果不妨设两个总体服从正态分布且具有相同的协差阵。构造原假设和备择假设:,构造检验统计量:其中,得出结论:当被拒绝时,认为判别有效;否则,认为判别无效。3应用举例例3.1:教材P121。三、 多总体的Fisher判别其讨论同前,注意和两总体判别之间的关系。4 贝叶斯(Bayes)判别法统计学中现在有两个主要的学派:频率学派与贝叶斯学
22、派,贝叶斯学派是在与频率学派的争论中逐步发展起来的。争论的问题主要有:未知参数是否可以看作随机变量?事件的概率是否一定要有频率解释?概率是否可以用经验来确定?一、 贝叶斯统计概述为了说明二者的异同,简单介绍三种信息。1总体信息即总体分布或总体所属分布族给我们的信息,譬如,“总体是正态分布”这一句话就给我们带来很多信息:它的密度函数是条钟形曲线;它的切阶矩都存在;有关正态变量的一些事件的概率可以计算;有正态分布可以导出卡方分布、t分布和F分布等重要分布;还有许多成熟的点估计、区间估计和假设检验方法可供我们选用。总体信息是很重要的信息,为了获取此种信息往往耗资巨大。美国军界为了获得某种新的电子元器
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 统计分析 讲义 第三 26
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内