最新十九章节聚类分析ClusteringAnalysis幻灯片.ppt
《最新十九章节聚类分析ClusteringAnalysis幻灯片.ppt》由会员分享,可在线阅读,更多相关《最新十九章节聚类分析ClusteringAnalysis幻灯片.ppt(40页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Content Similarity coefficient Hierarchical clustering analysis Dynamic clustering analysis Ordered sample clustering analysis 第二节第二节 系统聚类系统聚类 系统聚类(hierarchical clustering analysis)是将相似的样品或变量归类的最常用方法,聚类过程如下: 1)开始将各个样品(或变量)独自视为一类,即各类只含一个样品(或变量),计算类间相似系数矩阵,其中的元素是样品(或变量)间的相似系数。相似系数矩阵是对称矩阵; 2)将相似系数最大(距离
2、最小或相关系数最大)的两类合并成新类,计算新类与其余类间相似系数; 重复第二步,直至全部样品(或变量)被并为一类。一、类间相似系数的计算 系统聚类的每一步都要计算类间相似系数,当两类各自仅含一个样品或变量时,两类间的相似系数即是两样品或变量间的相似系数或,按第一节的定义计算。 当类内含有两个或两个以上样品或变量时,计算类间相似系数有多种方法可供选择,下面列出5种计算方法。用分别表示两类,各自含有个样品或变量。1最大相似系数法 类中的个样品或变量与类中的个样品或变量两两间共有个相似系数,以其中最大者定义为与的类间相似系数。注意距离最小即相似系数最大。2最小相似系数法 类间相似系数计算公式为3重心
3、法(仅用于样品聚类) 用分别表示的均值向量(重心),其分量是各个指标类内均数,类间相似系数计算公式为,Min () , 19-7Max ( ) , pqpqpqiji Gj Gpqiji Gj GDdrr样品聚类()指标聚类,Max () , 19-8Min ( ) , pqpqpqiji Gj Gpqiji Gj GDdrr样品聚类()指标聚类 (19-9)pqpqDdX X 4类平均法(仅用于样品聚类) 对类中的个样品与类中的个样品两两间的个平方距离求平均,得到两类间的相似系数类平均法是系统聚类方法中较好的方法之一,它充分反映了类内样品的个体信息。221 (19-10)pqijp qDdn
4、 n5离差平方和法 又称Ward法,仅用于样品聚类。 此法效仿方差分析的基本思想,即合理的分类使得类内离差平方和较小,而类间离差平方和较大。假定n个样品已分成g类,是其中的两类。此时有个样品的第k类的离差平方和定义为:,其中为类内指标的均数。所有g类的合并离差平方和为。如果将与合并,形成g-1类,它们的合并离差平方和。由于并类引起的合并离差平方和的增量定义为两类间的平方距离。显然,当n个样品各自成一类时,n类的合并离差平方和为0。例19-1 测量了3454名成年女子身高(X1)、下肢长(X2)、腰围(X3)和胸围(X4),计算得相关矩阵:试用系统聚类法将这4个指标聚类。本例是R型(指标)聚类,
5、相似系数选用简单相关系数,类间相似系数采用最大相似系数法计算。 732. 0174. 0234. 0055. 0099. 0852. 0432321)0(XXXXXXR聚类过程如下:(1)各个指标独自成一类G1=X1,G2=X2,G3=X3,G4=X4,共4类。(2)将相似系数最大的两类合并成新类,由于G1和G2类间相似系数最大,等于0.852,将两类合并成G5=X1 , X2,形成3类。计算G5与G3、G4间的类间相似系数 G3,G4,G5的类间相似矩阵351323Max(,)Max(0.099,0.055)0.099rrr451424Max(,)Max(0.234,0.174)0.234r
6、rr234. 0099. 0732. 05443)1(GGGGR(3)由于G3和G4类间相似系数最大,等于0.732,将两类合并成G6=G3 , G4,形成两类。计算G6与G5间的类间相似系数。(4)最终将G5 ,G6合并成G7=G5 , G6,所有指标形成一大类。563545Max(,)Max(0.099,0.234)0.234rrr根据聚类过程,绘制出系统聚类图(见图19-1)。图中显示分成两类较好:X1,X2,X3,X4,即长度指标归为一类,围度指标归为另一类。图19-1 4 个指标聚类系统聚类图 身高下肢长腰围胸围图19-1 4个指标聚类的系统聚类图0.0850.7320.234例19
7、-2 今测得6名运动员4个运动项目(样品)的能耗、糖耗的均数见表19-1,欲对运动项目归类,以便提供相应的膳食标准,提高运动成绩。试用样品系统聚类法将运动项目归类。表19-1 4个运动项目的测定值运动项目名称能耗 X1(焦耳/分、m2)糖耗 X2(%)负重下蹲G127.89261.421.3150.688引体向上G223.47556.830.1740.088俯 卧 撑G318.92445.13-1.001-1.441仰卧起坐G420.91361.25-0.4880.665本例选用欧氏距离,类间距离选用最小相似系数法。为了克服变量量纲的影响,分析前先将变量标准化, 分别是Xi的样本均数与标准差。
8、变换后的数据列在表19-1的 , 列。, iiiiiiXXXXSS 、1X2X聚类过程如下:(1)计算4个样品间的相似系数矩阵,样品聚类中又称为距离矩阵。负重下蹲与引体向上之间的距离按公式(19-3)计算得同样负重下蹲与俯卧撑之间的距离同理,计算出距离矩阵22221211211222()()(1.3150.174)(0.6880.088)1.289dXXXX22221311311232()()(1.3151.001)(0.6881.441)3.145dXXXX168. 2878. 0803. 1928. 1145. 3289. 1432321)0(GGGGGGD(2)G2,G4间距离最小,将G
9、2,G4并成一新类G5= G2,G4。应用最小相似系数法,按公式(19-8)计算G5与其他各类之间的距离G1,G3,G5的距离矩阵(3)G1,G5间距离最小,将G1,G5并成一新类G6= G1,G5。计算G6 与G3之间的距离(4)最终将G1 ,G6合并成G7=G1 , G6,所有指标形成一大类。168. 2803. 1145. 35331)1 (GGGGD361335Max(,)Max(3.145,2.168)3.145ddd351323Max(,)Max(0.099,0.055)0.099rrr451424Max(,)Max(0.234,0.174)0.234rrr 根据聚类过程,绘制出系
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 最新 十九 章节 聚类分析 ClusteringAnalysis 幻灯片
限制150内