最新多元统计分析ppt课件精品课件.ppt
多元统计分析多元统计分析pptppt课件课件距离和相似系数v相似性度量:距离和相似系数。v距离常用来度量样品之间的相似性,相似系数常用来度量变量之间的相似性。v样品之间的距离和相似系数有着各种不同的定义,而这些定义与变量的类型有着非常密切的关系。系统聚类法v系统聚类法是聚类分析诸方法中用得最多的一种。v基本思想是:开始将个样品各自作为一类,并规定样品之间的距离和类与类之间的距离,然后将距离最近的两类合并成一个新类,计算新类与其他类的距离;重复进行两个最近类的合并,每次减少一类,直至所有的样品合并为一类。 常用的系统聚类方法v一、最短距离法 v二、最长距离法v三、中间距离法v四、类平均法v五、重心法v六、离差平方和法(Ward方法) 最短距离法v定义类与类之间的距离为两类最近样品间的距离,即,minKLKLiji Gj GDd最短距离法的聚类步骤v(1) 规定样品之间的距离,计算 个样品的距离矩阵 ,它是一个对称矩阵。v(2) 选择 中的最小元素,设为 ,则将 和 合并成一个新类,记为 ,即v(3) 计算新类 与任一类 之间距离的递推公式为n 0D 0DKLDKGLGMGMKLGGGMGJG,minminmin, minmin,MJKJLJMJijijiji Gj Gi Gj Gi Gj GKJLJDdddDD最短距离法的聚类步骤v在 中, 和 所在的行和列合并成一个新行新列,对应 ,该行列上的新距离值由上式求得,其余行列上的距离值不变,这样就得到新的距离矩阵,记作 。v(4) 对 重复上述对 的两步得 ,如此下去直至所有元素合并成一类为止。v如果某一步 中最小的元素不止一个,则称此现象为结(tie),对应这些最小元素的类可以任选一对合并或同时合并。 0DMGKGLG 1D 1D 0D 2D mDv一般来说,只要聚类的样品数目不是太少,各种聚类方法所产生的聚类结果一般是不同的,甚至会有大的差异。单调性v令 是系统聚类法中第 次并类时的距离,如果一种系统聚类法能满足 ,则称它具有单调性。这种单调性符合系统聚类法的思想,先合并较相似的类,后合并较疏远的类。v最短距离法、最长距离法、可变法、类平均法、可变类平均法和离差平方和法都具有单调性,但中间距离法和重心法不具有单调性。iDi123DDD类的个数v如果能够分成若干个很分开的类,则类的个数就比较容易确定;反之,如果无论怎样分都很难分成明显分开的若干类,则类个数的确定就比较困难了。v确定类个数的常用方法有: 1.给定一个阈值T。 2.观测样品的散点图。 3.使用统计量。包括: 统计量,半偏 统计量, 伪 统计量和伪 统计量。2R2RF2t动态聚类法v动态聚类法的基本思想是,选择一批凝聚点或给出一个初始的分类,让样品按某种原则向凝聚点凝聚,对凝聚点进行不断的修改或迭代,直至分类比较合理或迭代稳定为止。类的个数k可以事先指定,也可以在聚类过程中确定。选择初始凝聚点(或给出初始分类)的一种简单方法是采用随机抽选(或随机分割)样品的方法。v动态聚类法有许多种方法,我们只讨论一种比较流行的动态聚类法k均值法。k均值法是由麦奎因(MacQueen,1967)提出并命名的一种算法。k均值法的基本步骤v(1)选择k个样品作为初始凝聚点,或者将所有样品分成k个初始类,然后将这k个类的重心(均值)作为初始凝聚点。v(2)对除凝聚点之外的所有样品逐个归类,将每个样品归入凝聚点离它最近的那个类(通常采用欧氏距离),该类的凝聚点更新为这一类目前的均值,直至所有样品都归了类。v(3)重复步骤(2),直至所有的样品都不能再分配为止。v最终的聚类结果在一定程度上依赖于初始凝聚点或初始分类的选择。经验表明,聚类过程中的绝大多数重要变化均发生在第一次再分配中。主成分分析v主成分分析(或称主分量分析,principal component analysis)由皮尔逊(Pearson,1901)首先引入,后来被霍特林(Hotelling,1933)发展了。v主成分分析是一种通过降维技术把多个变量化为少数几个主成分(即综合变量)的统计分析方法。这些主成分能够反映原始变量的绝大部分信息,它们通常表示为原始变量的某种线性组合。v主成分分析的一般目的是:(1)变量的降维;(2)主成分的解释。主成分的定义及导出v设 为一个 维随机向量, , 。考虑如下的线性变换 希望在约束条件 下寻求向量 ,使 得 达到最大, 就称为第一主成分。v设 为 的特征值, 为相应的单位特征向量,且相互正交。则可求得第一主成分为 它的方差具有最大值 。 12( ,)px xxxp111 121211ppya xa xa x a x1 11a a1a111V y a a1y120p12,iiipitttt1,2,ip111 121211ppyt xt xt xt x1 Ex Vxv如果第一主成分所含信息不够多,还不足以代表原始的 个变量,则需考虑再使用一个综合变 量 ,为使 所含的信息与 不重叠,应要求 我们在此条件和约束条件 下寻求向量 ,使得 达到最大,所求的 称为第二主成分。求得的第二主成分为 其方差为 。 v一般来说, 的第 主成分是指:在约束条件 和 下寻求 ,使 得 达到最大。第 主成分为p22y a x2y1y12Cov,0y y221a a2a222V y a a2y212 122222ppyt xt xtxt x2xi1iia aCov,0,1,2,1kiyykiiaiiiV y a ai1122,1,2,iiipipiyt xt xt xipt x主成分的性质v1.主成分向量的协方差矩阵 其中 ,即 ,且 互不相关。v2.主成分的总方差 由于 故 或 Vy12diag,p ,1,2,iiV yip12,py yy trtrtrtrAT TTT11ppiiiii 11ppiiiiV yV xv总方差中属于第 主成分 (或被 所解释)的比例为 称为主成分 的贡献率。v第一主成分 的贡献率最大,表明它解释原始变量 的能力最强,而 的解释能力依次递减。v主成分分析的目的就是为了减少变量的个数,因而一般是不会使用所有 个主成分的,忽略一些带有较小方差的主成分将不会给总方差带来大的影响。 iiy1piiiiyiy1y12,px xx23,pyyypv前 个主成分的贡献率之和 称为主成分 的累计贡献率,它表明 解释 的能力。v通常取(相对于 )较小的 ,使得累计贡献达到一个较高的百分比(如8090)。此时, 可用来代替 ,从而达到降维的目的,而信息的损失却不多。m11pmiiii12,my yy12,my yy12,px xxpm12,my yy12,px xxv3.原始变量 与主成分 之间的相关系数 v在实际应用中,通常我们只对 与 的相关系数感兴趣。,1,2,kikikiix yti kp(1,2, )ix ip(1,2,)ky kmixky从相关阵出发求主成分 样本的主成分v我们可以从协差阵 或相关阵 出发求得主成分。但在实际问题中, 或 一般都是未知的,需要通过样本来进行估计。设数据矩阵为 则样本协差阵和样本相关阵分别为RR11121121222212ppnnnpnxxxxxxxxxxxXx 11()()1niiijisnSxx xx ,ijijijiijjsrrssR 样本的主成分v一、样本主成分的定义v二、从 出发求主成分v三、从 出发求主成分v四、主成分分析的应用v五、若干补充及应用中需注意的问题SR一、样本主成分的定义v若向量 在约束条件 下,使得的样本方差 达到最大,则称线性组合 为第一样本主成分。若向量 在约束条件 和的样本协方差1a1 11a a2111111111111njjnjjjnna xa xaxxxxaa Sa11 y a x2a221a a 1121122212,nna x a xa x a xa x a x 下,使得 的样本方差 达到最大,则称线性组合 为第二样本主成分。一般地,若向量 在约束条件 和 的样本协方差112211212111101njjjnjjjnna xa xa xa xaxxxx aa Sa21222,na x a xa x22222111njjna xa xa Sa22 y a xia1iia a110,1,2,11nkjkijikijkina xa xa xa xa Sa 1122,kikiknina x a xa x a xa x a x 下,使得的样本方差 达到最大,则称线性组合 为第 样本主成分, 。v需要指出的是,样本主成分是使样本方差而非方差达到最大,是使样本协方差而非协方差为零。2111nijiiijna xa xa Saiiy a xi1,2,ipS主成分得分v在实际应用中,我们常常让 减去 ,使样本数据中心化。这不影响样本协差阵 ,在前面的论述中惟一需要变化的是,将第 主成分改写成中心化的形式,即v若将各观测值 代替上式中的观测值向量 ,则第主成分的值 称之为观测值 的第 主成分得分。所有观测值的平均主成分得分jxxSijxxijxi,1,2,iiyiptxx,1,2,jiijyiptxx11110,1,2,nnijiijjjyynipnntxx三、从 出发求主成分v设样本相关阵 的 个特征值为 , 为相应的正交单位特征向量,则第 样本主成分v其中 是各分量经(样本)标准化了的向量,即RRp*12p*12 ,pt tti*,1,2,iiyipt x*x*1xDxx1122diag,ppsssDv令 这是 的各分量数据经标准化后的数据向量,将其代替上述样本主成分公式中的 ,即得观测值 在第 主成分上的得分 所有观测值的平均主成分得分*1jjxDxxjx*xjxi*,1,2,jiijyipt x*11110,1,2,nnijiijjjyyipnntx四、主成分分析的应用v在主成分分析中,我们首先应保证所提取的前几个主成分的累计贡献率达到一个较高的水平(即变量降维后的信息量须保持在一个较高水平上),其次对这些被提取的主成分必须都能够给出符合实际背景和意义的解释(否则主成分将空有信息量而无实际含义)。v主成分的解释其含义一般多少带有点模糊性,不像原始变量的含义那么清楚、确切,这是变量降维过程中不得不付出的代价。因此,提取的主成分个数m通常应明显小于原始变量个数p(除非p本身较小),否则维数降低的“利”可能抵不过主成分含义不如原始变量清楚的“弊”。v如果原始变量之间具有较高的相关性,则前面少数几个主成分的累计贡献率通常就能达到一个较高水平,也就是说,此时的累计贡献率通常较易得到满足。v主成分分析的困难之处主要在于要能够给出主成分的较好解释,所提取的主成分中如有一个主成分解释不了,整个主成分分析也就失败了。v主成分分析是变量降维的一种重要、常用的方法,简单的说,该方法要应用得成功,一是靠原始变量的合理选取,二是靠“运气”。例v在制定服装标准的过程中,对128名成年男子的身材进行了测量,每人测得的指标中含有这样六项:身高( )、坐高( )、胸围( )、手臂长( )、肋围( )和腰围( )。所得样本相关矩阵列于下表。 2x1x3x4x5x6xv 经计算,相关阵 的前三个特征值、相应的特征向量以及贡献率列于下表。Rv前三个主成分分别为v从上述表中可以看到,前两个主成分的累计贡献率已达78.2,前三个主成分的累计贡献率达85.9,因此可以考虑只取前面两个或三个主成分,它们能够很好地概括原始变量。v第一主成分 对所有(标准化)原始变量都有近似相等的正载荷,故称第一主成分为(身材)大小成分。 *11234560.4690.4040.3940.4080.3370.427yxxxxxx*21234560.3650.3970.3970.3650.5690.308yxxxxxx *31234560.0920.6130.2790.7050.1640.119yxxxxxx1 yv第二主成分 在 上有中等程度的正载荷,而在 上有中等程度的负载荷,称第二主成分为形状成分(或胖瘦成分)。v第三主成分 在 上有大的正载荷,在 上有大的负载荷,而在其余变量上的载荷都较小,可称第三主成分为臂长成分。v由于第三主成分的贡献率不高(7.65)且实际意义也不太重要,因此我们一般可考虑取前两个主成分。 v由于 非常小,所以存在共线性关系:2 y*356,x x x*124,x x x3 y*2x*4x660.126,( 0.786,0.433, 0.125,0.371,0.034,0.179) t6*1234560.7860.4430.1250.3710.0340.1790 xxxxxx因子分析v主成分分析的成功需满足如下两点:(1)前(少数)几个主成分具有较高的累计贡献率;(通常较易得到满足)(2)对主成分给出符合实际背景和意义的解释 。(往往正是主成分分析的困难之处)v因子分析的用途与主成分分析类似,它也是一种降维方法。由于因子往往比主成分更易得到解释,故因子分析比主成分分析更容易成功,从而有更广泛的应用。v从方法上来说,因子分析比主成分分析更为精细,自然理论上也就更为复杂。主成分分析只涉及一般的线性变换,不涉及模型,仅需假定二阶矩存在。而因子分析需建立一个数学模型,并作一定的假定。v因子分析起源于20世纪初,K.皮尔逊(Pearson)和C.斯皮尔曼(Spearman)等学者为定义和测定智力所作的努力,主要是由对心理测量学有兴趣的科学家们培育和发展了因子分析。v因子分析的目的是为了降维,降维的方式是试图用少数几个潜在的、不可观测的随机变量来描述原始变量间的协方差关系。例v林登(Linden)根据他收集的来自139名运动员的比赛数据,对第二次世界大战以来奥林匹克十项全能比赛的得分作了因子分析研究。这十个全能项目为:100米跑( ),跳远( ),铅球( ),跳高( ),400米跑( ),110米跨栏( ),铁饼( ),撑杆跳高( ),标枪( ),1500米跑( )。经标准化后所作的因子分析表明,十项得分基本上可归结于他们的短跑速度、爆发性臂力、爆发性腿力和耐力这四个方面,每一方面都称为一个因子。十项得分与这四个因子之间的关系可以描述为如下的因子模型: 其中 表示四个因子,称为公共因子, 称为 在因子 上的载荷, 是 的均值, 是 不能被四个公共因子解释的部分,称之为特殊因子。1x2x3x4x5x6x7x8x9x10 x1 1223344,1,2,10iiiiiiixa fa fa fa fi1234,ffffijaixjfixiiix正交因子模型v一、数学模型 v二、正交因子模型的性质v三、因子载荷矩阵的统计意义一、数学模型v设有 维可观测的随机向量 ,其均值为 ,协差阵为 。因子分析的一般模型为v其中 为公共因子, 为特殊因子,它们都是不可观测的随机变量。公共因子出现在每一个原始变量的表达式中,可理解为原始变量p12( ,)px xxx12(,)p ij1111 1122112221 1222221 122mmmmpppppmmpxa fa fafxa fafafxafafaf12,mfff12,p v共同具有的公共因素;每个公共因子 一般至少对两个原始变量有作用,否则它将归入特殊因子。每个特殊因子 仅仅出现在与之相应的第 个原始变量 的表达式中,它只对这个原始变量有作用。上式可用矩阵表示为v式中 为公共因子向量, 为特殊因子向量, 称为因子载荷矩阵。通常假定1,2,jfjm1,2,iipiixxAf12,mffff12,p :ijapmAv该假定和上述关系式构成了正交因子模型。由上述假定可以看出,公共因子彼此不相关且具有单位方差,特殊因子也彼此不相关且和公共因子也不相关。 22212diag,Cov,pEEVVEf00fIDf f0二、正交因子模型的性质v1. 的协差阵 的分解 故得 如果 为各分量已标准化了的随机向量,则 就是相关阵 ,即有x Cov,Cov,Cov,VVVVVVxAfAf AfAf AAf f AAf AAADxxijRRAADv若取 ,则有分解式 此时 ,没有达到降维目的,故所作的因子分析没有意义。v出于降维的需要,我们常常希望m要比p小得多,这样分解通常只能近似成立,即有 近似程度越好,表明因子模型拟合得越佳。一般来说, m选取得越小,上述近似效果就越差,即因子模型拟合得越不理想。拟合得太差的因子模型是没有什么实际意义的。12,AD01122 0mpAAD参数估计v一、主成分法v二、主因子法v三、极大似然法一、主成分法*1121*2122*3123*4124*5125*6126*71271000.8170.531000.8670.4324000.9150.2338000.9490.01215000.9590.131000.9380.292100000.9440.287xffxffxffxffxffxffxff(米)(2米)(米)(米)(米)(50米)(米)*81280.8800.411xff(m a拉松)因子得分 v一、加权最小二乘法v二、回归法一、加权最小二乘法 v采用类似于回归分析中加权最小二乘估计的想法将 估计为 在实际应用中,用估计值 、 和 分别代替上述公式中的 、 和 ,并将每个样品的数据代入,便可得到相应的因子得分12,mffff-11-1fA D AA DxxADAD-11ii-1fAD AADxx二、回归法v在因子模型 中,假设 服从 元正态 分布,用回归预测方法可将 估计为 在实际应用中,可用 、 和 分别代替上述公式中的 、 和 来得到因子得分。样品 的因子得分12,mffff1fA xxAA fmpix1iifA Sxx