最新多元统计分析ppt课件精品课件.ppt
《最新多元统计分析ppt课件精品课件.ppt》由会员分享,可在线阅读,更多相关《最新多元统计分析ppt课件精品课件.ppt(77页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、多元统计分析多元统计分析pptppt课件课件距离和相似系数v相似性度量:距离和相似系数。v距离常用来度量样品之间的相似性,相似系数常用来度量变量之间的相似性。v样品之间的距离和相似系数有着各种不同的定义,而这些定义与变量的类型有着非常密切的关系。系统聚类法v系统聚类法是聚类分析诸方法中用得最多的一种。v基本思想是:开始将个样品各自作为一类,并规定样品之间的距离和类与类之间的距离,然后将距离最近的两类合并成一个新类,计算新类与其他类的距离;重复进行两个最近类的合并,每次减少一类,直至所有的样品合并为一类。 常用的系统聚类方法v一、最短距离法 v二、最长距离法v三、中间距离法v四、类平均法v五、重
2、心法v六、离差平方和法(Ward方法) 最短距离法v定义类与类之间的距离为两类最近样品间的距离,即,minKLKLiji Gj GDd最短距离法的聚类步骤v(1) 规定样品之间的距离,计算 个样品的距离矩阵 ,它是一个对称矩阵。v(2) 选择 中的最小元素,设为 ,则将 和 合并成一个新类,记为 ,即v(3) 计算新类 与任一类 之间距离的递推公式为n 0D 0DKLDKGLGMGMKLGGGMGJG,minminmin, minmin,MJKJLJMJijijiji Gj Gi Gj Gi Gj GKJLJDdddDD最短距离法的聚类步骤v在 中, 和 所在的行和列合并成一个新行新列,对应
3、,该行列上的新距离值由上式求得,其余行列上的距离值不变,这样就得到新的距离矩阵,记作 。v(4) 对 重复上述对 的两步得 ,如此下去直至所有元素合并成一类为止。v如果某一步 中最小的元素不止一个,则称此现象为结(tie),对应这些最小元素的类可以任选一对合并或同时合并。 0DMGKGLG 1D 1D 0D 2D mDv一般来说,只要聚类的样品数目不是太少,各种聚类方法所产生的聚类结果一般是不同的,甚至会有大的差异。单调性v令 是系统聚类法中第 次并类时的距离,如果一种系统聚类法能满足 ,则称它具有单调性。这种单调性符合系统聚类法的思想,先合并较相似的类,后合并较疏远的类。v最短距离法、最长距
4、离法、可变法、类平均法、可变类平均法和离差平方和法都具有单调性,但中间距离法和重心法不具有单调性。iDi123DDD类的个数v如果能够分成若干个很分开的类,则类的个数就比较容易确定;反之,如果无论怎样分都很难分成明显分开的若干类,则类个数的确定就比较困难了。v确定类个数的常用方法有: 1.给定一个阈值T。 2.观测样品的散点图。 3.使用统计量。包括: 统计量,半偏 统计量, 伪 统计量和伪 统计量。2R2RF2t动态聚类法v动态聚类法的基本思想是,选择一批凝聚点或给出一个初始的分类,让样品按某种原则向凝聚点凝聚,对凝聚点进行不断的修改或迭代,直至分类比较合理或迭代稳定为止。类的个数k可以事先
5、指定,也可以在聚类过程中确定。选择初始凝聚点(或给出初始分类)的一种简单方法是采用随机抽选(或随机分割)样品的方法。v动态聚类法有许多种方法,我们只讨论一种比较流行的动态聚类法k均值法。k均值法是由麦奎因(MacQueen,1967)提出并命名的一种算法。k均值法的基本步骤v(1)选择k个样品作为初始凝聚点,或者将所有样品分成k个初始类,然后将这k个类的重心(均值)作为初始凝聚点。v(2)对除凝聚点之外的所有样品逐个归类,将每个样品归入凝聚点离它最近的那个类(通常采用欧氏距离),该类的凝聚点更新为这一类目前的均值,直至所有样品都归了类。v(3)重复步骤(2),直至所有的样品都不能再分配为止。v
6、最终的聚类结果在一定程度上依赖于初始凝聚点或初始分类的选择。经验表明,聚类过程中的绝大多数重要变化均发生在第一次再分配中。主成分分析v主成分分析(或称主分量分析,principal component analysis)由皮尔逊(Pearson,1901)首先引入,后来被霍特林(Hotelling,1933)发展了。v主成分分析是一种通过降维技术把多个变量化为少数几个主成分(即综合变量)的统计分析方法。这些主成分能够反映原始变量的绝大部分信息,它们通常表示为原始变量的某种线性组合。v主成分分析的一般目的是:(1)变量的降维;(2)主成分的解释。主成分的定义及导出v设 为一个 维随机向量, ,
7、。考虑如下的线性变换 希望在约束条件 下寻求向量 ,使 得 达到最大, 就称为第一主成分。v设 为 的特征值, 为相应的单位特征向量,且相互正交。则可求得第一主成分为 它的方差具有最大值 。 12( ,)px xxxp111 121211ppya xa xa x a x1 11a a1a111V y a a1y120p12,iiipitttt1,2,ip111 121211ppyt xt xt xt x1 Ex Vxv如果第一主成分所含信息不够多,还不足以代表原始的 个变量,则需考虑再使用一个综合变 量 ,为使 所含的信息与 不重叠,应要求 我们在此条件和约束条件 下寻求向量 ,使得 达到最大
8、,所求的 称为第二主成分。求得的第二主成分为 其方差为 。 v一般来说, 的第 主成分是指:在约束条件 和 下寻求 ,使 得 达到最大。第 主成分为p22y a x2y1y12Cov,0y y221a a2a222V y a a2y212 122222ppyt xt xtxt x2xi1iia aCov,0,1,2,1kiyykiiaiiiV y a ai1122,1,2,iiipipiyt xt xt xipt x主成分的性质v1.主成分向量的协方差矩阵 其中 ,即 ,且 互不相关。v2.主成分的总方差 由于 故 或 Vy12diag,p ,1,2,iiV yip12,py yy trtrt
9、rtrAT TTT11ppiiiii 11ppiiiiV yV xv总方差中属于第 主成分 (或被 所解释)的比例为 称为主成分 的贡献率。v第一主成分 的贡献率最大,表明它解释原始变量 的能力最强,而 的解释能力依次递减。v主成分分析的目的就是为了减少变量的个数,因而一般是不会使用所有 个主成分的,忽略一些带有较小方差的主成分将不会给总方差带来大的影响。 iiy1piiiiyiy1y12,px xx23,pyyypv前 个主成分的贡献率之和 称为主成分 的累计贡献率,它表明 解释 的能力。v通常取(相对于 )较小的 ,使得累计贡献达到一个较高的百分比(如8090)。此时, 可用来代替 ,从而
10、达到降维的目的,而信息的损失却不多。m11pmiiii12,my yy12,my yy12,px xxpm12,my yy12,px xxv3.原始变量 与主成分 之间的相关系数 v在实际应用中,通常我们只对 与 的相关系数感兴趣。,1,2,kikikiix yti kp(1,2, )ix ip(1,2,)ky kmixky从相关阵出发求主成分 样本的主成分v我们可以从协差阵 或相关阵 出发求得主成分。但在实际问题中, 或 一般都是未知的,需要通过样本来进行估计。设数据矩阵为 则样本协差阵和样本相关阵分别为RR11121121222212ppnnnpnxxxxxxxxxxxXx 11()()1
11、niiijisnSxx xx ,ijijijiijjsrrssR 样本的主成分v一、样本主成分的定义v二、从 出发求主成分v三、从 出发求主成分v四、主成分分析的应用v五、若干补充及应用中需注意的问题SR一、样本主成分的定义v若向量 在约束条件 下,使得的样本方差 达到最大,则称线性组合 为第一样本主成分。若向量 在约束条件 和的样本协方差1a1 11a a2111111111111njjnjjjnna xa xaxxxxaa Sa11 y a x2a221a a 1121122212,nna x a xa x a xa x a x 下,使得 的样本方差 达到最大,则称线性组合 为第二样本主成
12、分。一般地,若向量 在约束条件 和 的样本协方差112211212111101njjjnjjjnna xa xa xa xaxxxx aa Sa21222,na x a xa x22222111njjna xa xa Sa22 y a xia1iia a110,1,2,11nkjkijikijkina xa xa xa xa Sa 1122,kikiknina x a xa x a xa x a x 下,使得的样本方差 达到最大,则称线性组合 为第 样本主成分, 。v需要指出的是,样本主成分是使样本方差而非方差达到最大,是使样本协方差而非协方差为零。2111nijiiijna xa xa Sa
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 最新 多元 统计分析 ppt 课件 精品
限制150内