2022年多元统计分析教案0.pdf
《2022年多元统计分析教案0.pdf》由会员分享,可在线阅读,更多相关《2022年多元统计分析教案0.pdf(22页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第一章绪论1 多元统计分析的概念多元统计分析就是利用统计学和数学方法,将隐没在大规模原始数据群体中的重要信息集中提炼出来,简明扼要的把握系统的本质特征,分析数据系统中的内在规律性。利用多元分析中不同的方法还可以对研究对象进行分类和简化。多元分析是实现做定量分析的有效工具。2 多元分析的起源和发展1)1928 年, Wishart 发表多元正态总体样本协差阵的精确分布,是多元统计分析的开端;2)20 世纪 30 年代多元分析在理论上得到迅速发展;3)20 世纪 40 年代应用于心理、教育、生物等方面 ;但由于计算量太大,其发展受到影响;4)50 年代中期 ,由于电子计算机的出现和发展,使多元分析
2、方法得到广泛应用;5)60 年代由于新理论、新方法不断涌现使多元分析方法的应用范围更加扩大;6) 多元统计在我国发展较晚,70 年代初在我国才受到各个领域的极大关注,应用日益广泛。3 多元分析能解决的实际问题多元分析在工业、农业、医学、经济学、教育学、体育科学、生态学、地质学、社会学、考古学、环境保护、军事科学、甚至文学中都有广泛应用,足见其应用的深度和广度。4 多元分析课程讲授的主要内容本课程重点介绍多元分析中常用的六种方法:聚类分析; 判别分析; 主成分分析; 因子分析;对应分析;典型相关分析我们这门课重点在于应用,参考课本中的公式推导为次要内容,大致了解即可,对每一种分析方法我们要清楚掌
3、握它解决哪类问题、前提条件和局限性,以及它们相互之间的区别与联系;会用 SAS 、SPSS 等数学软件实现上述过程,对所研究的问题能做出合理推断和科学评价。5 原始资料阵及其标准化1)原始资料阵:设有n个样品,p项指标(变量),组成矩阵11121212221212(,)pppnnnpxxxxxxXx xxxxxLLLMMOML,2)第j项指标均值11njijixxn,3)指标的协方差阵()ijppSs,其中11()()1nijiijjsxxxxn精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 1 页,共
4、22 页 - - - - - - - - - - 4)原始指标(变量)的标准化ijjijjjxxxs第二章聚类分析1 什么是聚类分析聚类分析的概念聚类分析又称群分析、点群分析,是定量研究样品或指标分类问题的一种多元统计方法。其中类指相似元素的集合。聚类分析的基本思想认为所研究的样品或指标之间存在着程度不同的相似性,根据一批样品的多个观测指标,找出能够度量样品或变量之间相似程度的统计量,并以此为依据,采用某种聚类法,将所有的样品或变量分别聚合到不同的类中,使同一类中的个体有较大的相似性,不同类中的个体差异较大。2 距离与相似系数聚类分析的目的是将研究对象进行分类。它是在事先不知类别的情况下对数据
5、进行分类的分析方法。分类的依据有两类:距离与相似系数。变量的类型1)间隔尺度变量:连续量,如速度,重量等。2)间隔尺度变量:等级,有次序关系,如一级品、二级品等。3)间隔尺度变量:无等级也无数量关系,如性别,产品型号。常用的距离有以下几种:1)明考夫斯基距离:11( )qpqijikjkkdqxx2)绝对距离:(1)ijd3)欧氏距离:(2)ijd4)切比雪夫距离:1()maxijikjkkpdxx5)马氏距离:1()()()ijijijdMxxSxx,其中12(,)iiiipxxxxL,()ijp pSs为协方差阵6)兰氏距离:1( )pikjkijkikjkxxdLxx常用的相似系数有以下
6、几种:精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 2 页,共 22 页 - - - - - - - - - - 1)夹角余弦 :12211(1)nkikjkijnnkikjkkx xcxx2)相关系数 :12211()()(2)()()nkiikjjkijnnkiikjjkkxxxxcxxxx聚类分析根据所用方法不同可分为系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法等等;根据分类对象不同又分为对样品聚类(又称Q 型聚类分析)以及对变量进行聚类(又称R 型聚类分析)。对前者聚类多用距离,而后者聚类
7、时多用相似系数。3 系统聚类法系统聚类法的基本思路就近原则 :首先,将n 个样品看成n 类,定义各样品之间的距离(此时其亦为类间距离);其次,按照某种原则将最接近的两类合并为一个新类,于是得到n-1 类,定义并计算各类间距离,然后再从中找出最接近的两类合并成一个新类,重复以上步骤,直到全部样品合并成一类为止,将上述合并过程画成聚类谱系图,据此图可将全部样品分类。八种系统聚类方法正如样品之间的距离可以有不同的定义方法一样,类与类之间的距离也有各种定义。类与类之间用不同的方法定义距离,就产生了不同的系统聚类方法,系统聚类方法包括最短距离法最长距离法类平均法重心法WARD 法等八种不同的方法,但这些
8、方法聚类的步骤是完全一样的。当采用欧氏距离时,八种并类方法可归结为统一的递推公式。设KG,LG,MKLGGG,JG1)最短距离法 :,minKLiji KjLDd;min.MJKJLJDDD2)最长距离法 :,maxKLiji KjLDd;max.MJKJLJDDD3)类平均法:22,1,KLiji Kj LKLDdn n;222.KLMJKJLJMMnnDDDnn4)WARD 法(离差平方和):2() (),KLKLKLKLMn nDxxxxn;2222.JKJLJMJKJLJKLJMJMJMnnnnnDDDDnnnnnn谱系图及利用谱系图进行分类精品资料 - - - 欢迎下载 - - -
9、- - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 3 页,共 22 页 - - - - - - - - - - 根据谱系图确定分类个数的准则:Bemirmen 于 1972 年提出了应根据研究的目的来确定适当的分类方法,并提出了一些根据谱系图来分析的准则。准则 A:各类重心之间的距离必须很大;准则 B:确定的类中,各类所包含的元素都不要太多;准则 C:类的个数必须符合实用目的;准则 D:若采用几种不同的聚类方法处理,则在各自的聚类图中应发现相同的类。应该指出,关于类的个数如何确定的问题,至今还没有一个合适的标准,也就是说对任何观测数据都没有唯一正确的
10、分类方法。分类个数的确定(2R统计量法)总离差平方和 :1() ()njjjWxxxx,组内离差平方和:() ()iijijijGWxxxx,2R统计量;211kiiRW W,2(0,1)R,2R越大聚类效果越好。当2R在第1m类时迅速下降时,确定为m类。第三章判别分析1 什么是判别分析判别分析的基本思想判别分析是用于判断个体所属类别的一种统计方法。根据已知观测对象的分类和若干表明观测对象特征的变量值,建立判别函数和判别准则,并使其错判率最小,对于一个未知分类的样本,将所测指标代入判别方程,从而判断它来自哪个总体。当然,这种准则在某种意义上是最优的,如错判概率最小或错判损失最小等。其前提是总体
11、均值有显着差异,否则错分率大,判别分析无意义。判别分析与聚类分析的关系1.2.1 区别判别分析是在研究对象分类已知的情况下,根据样本数据推导出一个或一组判别函数,同时指定一种判别准则,用于确定待判样品的所属类别,使错判率最小。聚类分析预先不知道分类,它要解决的问题, 正是对给定的未知分类的样品进行分类,它是一种纯统计技术,只要有多指标存在,就能根据各观测的变量值近似程度排序,只是描述性的统计,而判别分析能对未知分类观测判别分类,带有预测性质。精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 4 页,共 22
12、 页 - - - - - - - - - - 1.2.2 联系两者都是研究分类问题,两种方法往往联合起来使用。样品聚类是进行判别分析之前的必要工作,根据样品聚类的结果进行判别分析。2 距离判别法距离判别法的基本思想如果事先已有m 类的先验知识,将每一类视为一个总体,计算各样品与各总体之间的距离,将各样品分别归入与其距离最近的类。两总体距离判别设有两个总体1G、2G、x为一样品,定义x到两总体的距离分别为1( ,)d x G和2( ,)d x G判别准则为:11221212, ( ,)( ,), ( ,)( ,)( ,)( ,).xG d x Gd x GxG d x Gd x Gd x Gd
13、x G;待判,判别准则的直观表述即样品离哪个总体最近,则判该样品属于哪个总体。与上述准则等价的想法,就是算出样品到各总体间距离的差,根据差值来判断样品的归属。多总体距离判别设有k个总体(组)12,kG GGL、 它们的均值12,kL它们的协方差阵12,kL(均为正定),x为一样品,x到总体iG的距离1( ,)()()ijiiiidx Gxx.判别准则为:1,( ,)min( ,)llii kxGd x Gd x G ;分为协方差阵相同和协方差阵不同两种情况,它们的判别函数有差异,而判别准则无差异。3 费歇判别法费歇判别法的基本思想从k类总体中抽取具有p个指标的样品的观测数据,iG的原始资料阵1
14、11122221212iiiiiiniiinpppiiinxxxxxxxxxLLMMOML,1,2,ikL.其第j个样品的观测值12(,) ,1,2,1,2, .pijijijijixxxxjn ikLLL借助于方差分析的思想构造一个判别函数,即ijijya x,其中系数12(,)paa aaL,的确定原则是使两组间的区别达到最大,而使两组内部的离差达到最小。精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 5 页,共 22 页 - - - - - - - - - - 组间离差平方和:2211()()kki
15、iiiiiSSTRn yyn a xa xa Ba,1()()kiiiiBn xxxx,其中ix和x依次为iG组内平均和总平均组内离差平方和:221111()()iiknknijiijiijijSSEyya xa xa Ea,111(1),()()(1)ikniiiijiijiijiEnS Sxxxxn选择a,使( )maxSSTRa BaaSSEa Ea,由代数知( )a的最大值,就是a取1E B的最大特征值所对应的特征向量.判别函数费歇准则下的线性判别函数1,piiiya xa x其中12(,)paa aaL,12(,)pxx xxL.的解应为方程()0iBE t1E B的特征根120sL
16、所对应的(单位)特征向量12,stttL.min(1,)skp,累计贡献率1,.(0.750.95).rpiiiicc第一判别式11,yt x第二判别式22,yt x .第r判别式,rryt x判别准则22111,()min()rrjjljjijjjikxGyyyy,其中11,inijjiijjiyt xxn为第j判别式在iG的样本均值 .21()rjljjyy为y到前r判别式在iG的样本均值12(,)iiiiryyyyL的(欧氏)距离平方.两个总体(组)12,G G的判别1)判别函数112()pyxxS x,1212pSEnn称为联合协方差阵。2)判别规则112212,() 2,() 2.x
17、G yyyxGyyy;,其中11121()pyxxS x;12122()pyxxS x精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 6 页,共 22 页 - - - - - - - - - - 误判概率与误判代价x来自jG而误判为iG的概率记为()P i j;误判概率的估计?()i jjnP i jn,其中jn为jG的个数;i jn为把jG的元素误判为iG的元素的个数 .x来自jG而误判为iG的代价记为()c i j;特别的()0c i i.4 贝叶斯判别法贝叶斯判别法的基本思想贝叶斯判别法是源于贝叶斯
18、统计思想的一种判别分析法。这种方法先假定对研究对象已有一定的认识,这种认识以先验概率来描述,然后取得一个样本,用样本来修正已有的认识,得到后验概率分布,利用后验概率分布进行统计推断。判别规则4.2.1 后验概率最大设有k个总体(组)12,kG GGL,iG的概率密度( )ifx;x来自iG的(先验)概率为(),iiP xGp11kiip.后验概率 :1( )(),( )iiikjjjp fxP G xp fx判别准则为:1,()max()llii kxG P G xP G x ;4.2.2 错判的平均损失最小判别准则为:111,( ) ()min( ) ()kkljjjji kjjj lj i
19、xGp fx c l jp fx c i j5 逐步判别法从模型中没有任何变量开始,每一步都对模型进行检验,将模型外对模型的判别贡献大的变量加入到模型中去,同时也检验在模型中是否存在由于新变量的引入而对判别贡献不太显着的变量,如果有,将其从模型中删除,直到模型中的所有变量都符合引入模型的条件,而模型外的变量都不符合引入模型的条件为止,整个过程结束。整个筛选过程实质就是作假设检验,通过检验引入显着性变量,剔除不显着变量。反映在输出结果上,通常可以用F值的大小作为变量引入模型的标准,即一个变量是否能进入模型主要取决于协方差分析的F 检验的显着水平。 逐步判别过程本身并不建精品资料 - - - 欢迎
20、下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 7 页,共 22 页 - - - - - - - - - - 立判别函数,筛选出重要变量后,可用前面所讲的方法建立判别函数和判别准则,对新样品进行判别归类。第四章主成分分析1 主成分分析及基本思想主成分分析的概念主成分分析的工作对象是样本点 *定量变量类型的数据表。 主成分分析的工作目标,就是要对这种多变量的平面数据表进行最佳综合简化。也就是说,要在力保数据信息丢失最少的原则下,对高维变量空间进行降维处理。很显然, 在一个低维空间分析问题要比在一个高维空间中分析容易的多。英国统计学家
21、斯格特( scott)在 1961 年对 157 个英国城镇发展水平进行调查时,原始测量的变量有57 个。通过主成分分析发现,只需5 个新的综合变量(他们是原变量的线性组合),就可以95%的精度表示原数据的变异情况,这样,对问题的研究一下子从57 维降到了 5 维。可以想象,在5 维空间对系统进行任何分析,都比在 57 维中更加快捷和有效。另一项十分着名的工作是美国的统计学家斯通( STONE )在 1947 年关于国民经济的研究。他曾利用美国1929-1938 年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴消费资料和生产资料纯公共支出净增库存股息利息和外贸平衡等。在进行
22、主成分分析后,竟以%的精度,用3 个新变量就取代了原17 个变量。根据经济学知识,斯通给这三个新变量分别命名为总收入总收入变化率和经济发展或衰退的趋势。这样,用3 个综合变量取代了原来的17 个变量,问题得到了极大的简化。一个多变量的高维系统如何进行降维处理,可以用几个最直观的例子来说明主成分分析的工作思路。假设有一个二维数据表,表中数据点的分布如图所示,重心为g,很显然,在长轴方向上,数据的离差最大,因此,所反映的数据信息也最多,这个方向被称为数据变异的最大方向。如果将原点平移到g,并且做旋转变换,便得到一个正交坐标系。可以看出,若省略短轴,将数据点在长轴上投影,就会得到一个简化的一维数据系
23、统。因此,降维处理的核心思想,就是省却变异不大的变量方向。又如,一个三维数据群点的分布是球形的,假若这个球是饼状的,其变异较大的方向为u1 和u2,而 u3 方向的变异很小,即在该方向上各样本点取值没有很大的差别,就可以不考虑u3 方向,三维空间的数据点就可以在二维平面图上得以显示。达到降维的目的。从中也可以看出主成分分析从几何上看是寻找p 维空间中椭球体的主轴问题。主成分分析是考察多个定量(数值)变量间相关性的一种多元统计方法。它是研究如何通过少数几个主成分来解释多变量的方差协方差结构,其功能在于简化原有的变量群。具体地说,就是设法将原来多个指标重新组合成一组新的相互无关的综合指标,来代替原
24、来指标,同时根据实际需精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 8 页,共 22 页 - - - - - - - - - - 要从中可取几个较少的综合指标尽可能多的反映原来指标的信息。这些综合指标是原来指标的线性组合,我们称之为主成分。通过这种方法可以降低数据维数,消除原始变量之间的相关性以便进一步利用其他方法对数据进行分析。主成分分析的基本思想各指标间既然有一定的相关性,就必然存在着起支配作用的共同因素,根据这一点,通过对原始变量相关矩阵内部结构关系的研究,找出影响某一过程的几个综合指标,使综合指
25、标为原来变量的线性组合,并使其尽可能多的反映原来指标的信息,综合指标反映的信息量用其方差来表达,即综合指标的方差越大,表示其包含的信息越多。在所有的线性组合中方差最大的称为第一主成分,如果第一主成分不足以代表原来P 个指标的信息,再选取第二个线性组合作为第二主成分,第一主成分已有的信息就不需要再出现在第二主成分中,依次可造出P 个主成分。这些主成分之间不仅不相关,而且它们的方差依次递减。在解决实际问题时,一般不是取P 个主成分,而是根据累计贡献率的大小取前几个最大主成分,既保留了原指标大部分的信息,又达到降维的目的。2 主成分分析模型及几何解释主成分分析的数学模型设原始变量为12(,)pXx
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022 多元 统计分析 教案
限制150内