统计章聚类分析.pptx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《统计章聚类分析.pptx》由会员分享,可在线阅读,更多相关《统计章聚类分析.pptx(39页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、会计学1统计统计(tngj)章章 聚类分析聚类分析 第一页,共39页。表19-3 沥青工和焦炉工的生物标志物检测及聚类分析结果工人编号(样品号)年龄工龄吸烟支/d血清P21P21倍数P53SCE染色体畸变数染色体畸变细胞数聚类结果14625521381.680.358.11441235122035102.761.436.84331352252027842.190.544.1133143272024511.930.4711.4596153822032472.560.8011.68551651313037102.920.3711.6022174091031942.510.4011.40551834
2、172046583.670.4611.3533195029050193.950.4713.4510811042202074825.890.1213.110021157301538002.990.1910.762211236152024781.950.2510.00001133712038273.010.8210.50441145232029842.350.1611.153311552321037492.950.7211.45111011642273049413.890.7313.807611744272039483.110.3313.6516141184021533602.640.3711.4
3、0001193821529362.310.6911.401112044272068515.390.9912.28762214327039263.090.4711.95001222610343813.450.5211.807512337182071425.620.8511.81552242892026122.060.3711.65111252593026382.080.7812.251112634142043223.400.4115.005512750322028622.250.698.80221第2页/共39页第二页,共39页。判别分析判别分析判别分析判别分析:在已知分为若干个类的前提下,获得
4、判在已知分为若干个类的前提下,获得判在已知分为若干个类的前提下,获得判在已知分为若干个类的前提下,获得判别模型,并用来判定观察对象的归属。别模型,并用来判定观察对象的归属。别模型,并用来判定观察对象的归属。别模型,并用来判定观察对象的归属。聚类分析聚类分析聚类分析聚类分析:将随机现象归类的统计学方法,在不知将随机现象归类的统计学方法,在不知将随机现象归类的统计学方法,在不知将随机现象归类的统计学方法,在不知道应分多少类合适的情况下,试图借助数理统计道应分多少类合适的情况下,试图借助数理统计道应分多少类合适的情况下,试图借助数理统计道应分多少类合适的情况下,试图借助数理统计的方法用已收集到的资料
5、的方法用已收集到的资料的方法用已收集到的资料的方法用已收集到的资料(zlio)(zlio)找出研究对象找出研究对象找出研究对象找出研究对象的适当归类方法。已成为发掘海量基因信息的首的适当归类方法。已成为发掘海量基因信息的首的适当归类方法。已成为发掘海量基因信息的首的适当归类方法。已成为发掘海量基因信息的首选工具。选工具。选工具。选工具。二者都是研究分类问题的多元统计分析方法。二者都是研究分类问题的多元统计分析方法。二者都是研究分类问题的多元统计分析方法。二者都是研究分类问题的多元统计分析方法。第3页/共39页第三页,共39页。聚类分析属于探索性统计分析方法,按照分类目聚类分析属于探索性统计分析
6、方法,按照分类目聚类分析属于探索性统计分析方法,按照分类目聚类分析属于探索性统计分析方法,按照分类目的可分为两大类。的可分为两大类。的可分为两大类。的可分为两大类。例如测量了例如测量了例如测量了例如测量了n n个病例(样品)的个病例(样品)的个病例(样品)的个病例(样品)的mm个变量(指个变量(指个变量(指个变量(指标),可进行标),可进行标),可进行标),可进行(jnxng)(jnxng):(1 1)R R型聚类型聚类型聚类型聚类:又称指标聚类,是指将又称指标聚类,是指将又称指标聚类,是指将又称指标聚类,是指将mm个指标个指标个指标个指标归类的方法,其目的是将指标降维从而选择有代归类的方法,
7、其目的是将指标降维从而选择有代归类的方法,其目的是将指标降维从而选择有代归类的方法,其目的是将指标降维从而选择有代表性的指标。表性的指标。表性的指标。表性的指标。(2 2)QQ型聚类型聚类型聚类型聚类:又称样品聚类,是指将又称样品聚类,是指将又称样品聚类,是指将又称样品聚类,是指将n n个样品个样品个样品个样品归类的方法,其目的是找出样品间的共性。归类的方法,其目的是找出样品间的共性。归类的方法,其目的是找出样品间的共性。归类的方法,其目的是找出样品间的共性。第4页/共39页第四页,共39页。无论是无论是无论是无论是R R型聚类或是型聚类或是型聚类或是型聚类或是QQ型聚类的关型聚类的关型聚类的
8、关型聚类的关键是如何定义相似性,即如何把相似键是如何定义相似性,即如何把相似键是如何定义相似性,即如何把相似键是如何定义相似性,即如何把相似性数量化。聚类的第一步需要给出两性数量化。聚类的第一步需要给出两性数量化。聚类的第一步需要给出两性数量化。聚类的第一步需要给出两个个个个(li(li n n )指标或两个指标或两个指标或两个指标或两个(li(li n n )样品间相似性的度量样品间相似性的度量样品间相似性的度量样品间相似性的度量相似系数相似系数相似系数相似系数(similarity coefficientsimilarity coefficient)的定义。)的定义。)的定义。)的定义。第
9、5页/共39页第五页,共39页。第一节第一节第一节第一节 相似系数相似系数相似系数相似系数1 1R R型(指标型(指标型(指标型(指标(zh(zh bio)bio))聚类的相似系数)聚类的相似系数)聚类的相似系数)聚类的相似系数 X1X1,X2X2,XmXm表示表示表示表示mm个变量,个变量,个变量,个变量,R R型聚类常用简单相关系数的绝对型聚类常用简单相关系数的绝对型聚类常用简单相关系数的绝对型聚类常用简单相关系数的绝对值定义变量与间的相似系数:值定义变量与间的相似系数:值定义变量与间的相似系数:值定义变量与间的相似系数:绝对值越大表明两变量间相似程度越高。绝对值越大表明两变量间相似程度越
10、高。绝对值越大表明两变量间相似程度越高。绝对值越大表明两变量间相似程度越高。同样也可考虑用同样也可考虑用同样也可考虑用同样也可考虑用SpearmanSpearman秩相关系数定义非正态变量与间的相似秩相关系数定义非正态变量与间的相似秩相关系数定义非正态变量与间的相似秩相关系数定义非正态变量与间的相似系数。当变量均为定性变量时,最好用列联系数定义类间的相似系数。系数。当变量均为定性变量时,最好用列联系数定义类间的相似系数。系数。当变量均为定性变量时,最好用列联系数定义类间的相似系数。系数。当变量均为定性变量时,最好用列联系数定义类间的相似系数。第6页/共39页第六页,共39页。2 2QQ型(样品
11、)聚类常用相似系数型(样品)聚类常用相似系数型(样品)聚类常用相似系数型(样品)聚类常用相似系数 将将将将n n例(样品)看成是例(样品)看成是例(样品)看成是例(样品)看成是mm维空间的维空间的维空间的维空间的n n个点,用两点间的距离定义个点,用两点间的距离定义个点,用两点间的距离定义个点,用两点间的距离定义(dngy)(dngy)相似系数,距离越小表明两样品间相似程度越高。相似系数,距离越小表明两样品间相似程度越高。相似系数,距离越小表明两样品间相似程度越高。相似系数,距离越小表明两样品间相似程度越高。(1 1)欧氏距离)欧氏距离)欧氏距离)欧氏距离:欧氏距离(欧氏距离(欧氏距离(欧氏距
12、离(Euclidean distanceEuclidean distance)(2 2)绝对距离:绝对距离()绝对距离:绝对距离()绝对距离:绝对距离()绝对距离:绝对距离(Manhattan distanceManhattan distance)(3 3)MinkowskiMinkowski距离:距离:距离:距离:绝对距离是绝对距离是绝对距离是绝对距离是q=1q=1时的时的时的时的MinkowskiMinkowski距离;欧氏距离是距离;欧氏距离是距离;欧氏距离是距离;欧氏距离是q=2q=2时的时的时的时的MinkowskiMinkowski距离。距离。距离。距离。MinkowskiMink
13、owski距离的优点是定义距离的优点是定义距离的优点是定义距离的优点是定义(dngy)(dngy)直观,计直观,计直观,计直观,计算简单;缺点是没有考虑到变量间的相关关系。基于此引进马算简单;缺点是没有考虑到变量间的相关关系。基于此引进马算简单;缺点是没有考虑到变量间的相关关系。基于此引进马算简单;缺点是没有考虑到变量间的相关关系。基于此引进马氏距离。氏距离。氏距离。氏距离。第7页/共39页第七页,共39页。(4 4)马氏距离:用表示)马氏距离:用表示)马氏距离:用表示)马氏距离:用表示mm个变量间的样本协方差矩阵,马氏距离个变量间的样本协方差矩阵,马氏距离个变量间的样本协方差矩阵,马氏距离个
14、变量间的样本协方差矩阵,马氏距离(Mahalanobis distanceMahalanobis distance)的计算公式为)的计算公式为)的计算公式为)的计算公式为 其中向量其中向量其中向量其中向量 。不难看出,当(单位矩阵。不难看出,当(单位矩阵。不难看出,当(单位矩阵。不难看出,当(单位矩阵)时,马氏距离就是欧氏距离的平方。)时,马氏距离就是欧氏距离的平方。)时,马氏距离就是欧氏距离的平方。)时,马氏距离就是欧氏距离的平方。以上定义的以上定义的以上定义的以上定义的4 4种距离适用于定量变量,对于定性变量和有序变量种距离适用于定量变量,对于定性变量和有序变量种距离适用于定量变量,对于定
15、性变量和有序变量种距离适用于定量变量,对于定性变量和有序变量必须必须必须必须(bx)(bx)在数量化后方能应用。在数量化后方能应用。在数量化后方能应用。在数量化后方能应用。第8页/共39页第八页,共39页。第二节第二节第二节第二节 系统聚类系统聚类系统聚类系统聚类 系统聚类(系统聚类(系统聚类(系统聚类(hierarchical clustering analysishierarchical clustering analysis)是将相)是将相)是将相)是将相似的样品或变量归类的最常用似的样品或变量归类的最常用似的样品或变量归类的最常用似的样品或变量归类的最常用(chn(chn yn yn)
16、方法,聚类方法,聚类方法,聚类方法,聚类过程如下:过程如下:过程如下:过程如下:1 1)开始将各个样品(或变量)独自视为一类,即各类)开始将各个样品(或变量)独自视为一类,即各类)开始将各个样品(或变量)独自视为一类,即各类)开始将各个样品(或变量)独自视为一类,即各类 只含一个样品(或变量),计算类间相似系数矩阵,其只含一个样品(或变量),计算类间相似系数矩阵,其只含一个样品(或变量),计算类间相似系数矩阵,其只含一个样品(或变量),计算类间相似系数矩阵,其中的元素是样品(或变量)间的相似系数。相似系数矩中的元素是样品(或变量)间的相似系数。相似系数矩中的元素是样品(或变量)间的相似系数。相
17、似系数矩中的元素是样品(或变量)间的相似系数。相似系数矩阵是对称矩阵;阵是对称矩阵;阵是对称矩阵;阵是对称矩阵;2 2)将相似系数最大(距离最小或相关系数最大)的两)将相似系数最大(距离最小或相关系数最大)的两)将相似系数最大(距离最小或相关系数最大)的两)将相似系数最大(距离最小或相关系数最大)的两类合并成新类,计算新类与其余类间相似系数;类合并成新类,计算新类与其余类间相似系数;类合并成新类,计算新类与其余类间相似系数;类合并成新类,计算新类与其余类间相似系数;重复第二步,直至全部样品(或变量)被并为一类。重复第二步,直至全部样品(或变量)被并为一类。重复第二步,直至全部样品(或变量)被并
18、为一类。重复第二步,直至全部样品(或变量)被并为一类。第9页/共39页第九页,共39页。一、类间相似系数的计算一、类间相似系数的计算一、类间相似系数的计算一、类间相似系数的计算 系统聚类的每一步都要计算类间相似系数系统聚类的每一步都要计算类间相似系数系统聚类的每一步都要计算类间相似系数系统聚类的每一步都要计算类间相似系数(即:新形成的类别与其他类之间的类间相似(即:新形成的类别与其他类之间的类间相似(即:新形成的类别与其他类之间的类间相似(即:新形成的类别与其他类之间的类间相似系数的确定),当两类各自仅含一个样品或变系数的确定),当两类各自仅含一个样品或变系数的确定),当两类各自仅含一个样品或
19、变系数的确定),当两类各自仅含一个样品或变量量量量(binling)(binling)时,两类间的相似系数即是两样时,两类间的相似系数即是两样时,两类间的相似系数即是两样时,两类间的相似系数即是两样品或变量品或变量品或变量品或变量(binling)(binling)间的相似系数或,按第一间的相似系数或,按第一间的相似系数或,按第一间的相似系数或,按第一节的定义计算。节的定义计算。节的定义计算。节的定义计算。第10页/共39页第十页,共39页。当类内含有两个或两个以上样品或变量时,计算类间相似系数有多种方法可供当类内含有两个或两个以上样品或变量时,计算类间相似系数有多种方法可供当类内含有两个或两
20、个以上样品或变量时,计算类间相似系数有多种方法可供当类内含有两个或两个以上样品或变量时,计算类间相似系数有多种方法可供选择,下面列出选择,下面列出选择,下面列出选择,下面列出5 5种计算方法。用分别表示两类,各自含有个样品或变量。种计算方法。用分别表示两类,各自含有个样品或变量。种计算方法。用分别表示两类,各自含有个样品或变量。种计算方法。用分别表示两类,各自含有个样品或变量。(np(np与与与与nqnq分别代表分别代表分别代表分别代表G pG p与与与与GqGq两类的样品或变量数两类的样品或变量数两类的样品或变量数两类的样品或变量数)1 1最大相似系数法最大相似系数法最大相似系数法最大相似系
21、数法 类中的个样品或变量与类中的个样品或变量两两间类中的个样品或变量与类中的个样品或变量两两间类中的个样品或变量与类中的个样品或变量两两间类中的个样品或变量与类中的个样品或变量两两间(li(li n n jin)jin)共有个相似系数,以其中最大者定义为与的类间相似系数。共有个相似系数,以其中最大者定义为与的类间相似系数。共有个相似系数,以其中最大者定义为与的类间相似系数。共有个相似系数,以其中最大者定义为与的类间相似系数。注意距离最小即相似系数最大。注意距离最小即相似系数最大。注意距离最小即相似系数最大。注意距离最小即相似系数最大。2 2最小相似系数法最小相似系数法最小相似系数法最小相似系数
22、法 类间相似系数计算公式为类间相似系数计算公式为类间相似系数计算公式为类间相似系数计算公式为3 3重心法(仅用于样品聚类)重心法(仅用于样品聚类)重心法(仅用于样品聚类)重心法(仅用于样品聚类)用分别表示的均值向量(重心),其分量是各个用分别表示的均值向量(重心),其分量是各个用分别表示的均值向量(重心),其分量是各个用分别表示的均值向量(重心),其分量是各个指标类内均数,类间相似系数计算公式为指标类内均数,类间相似系数计算公式为指标类内均数,类间相似系数计算公式为指标类内均数,类间相似系数计算公式为第11页/共39页第十一页,共39页。4 4类平均类平均类平均类平均(pngjn)(pngjn
23、)法(仅用于样品聚类)法(仅用于样品聚类)法(仅用于样品聚类)法(仅用于样品聚类)对对对对G p G p 类中的类中的类中的类中的 np np 个样品与个样品与个样品与个样品与GqGq类中的类中的类中的类中的nqnq个样品两两间的个平个样品两两间的个平个样品两两间的个平个样品两两间的个平方距离求平均方距离求平均方距离求平均方距离求平均(pngjn)(pngjn),得到两类间的相似系数,得到两类间的相似系数,得到两类间的相似系数,得到两类间的相似系数类平均类平均类平均类平均(pngjn)(pngjn)法是系统聚类方法中较好的方法之法是系统聚类方法中较好的方法之法是系统聚类方法中较好的方法之法是系
24、统聚类方法中较好的方法之一,它充分反映了类内样品的个体信息。一,它充分反映了类内样品的个体信息。一,它充分反映了类内样品的个体信息。一,它充分反映了类内样品的个体信息。第12页/共39页第十二页,共39页。5 5离差平方和法离差平方和法离差平方和法离差平方和法 又称又称又称又称WardWard法,仅用于样品聚类。法,仅用于样品聚类。法,仅用于样品聚类。法,仅用于样品聚类。此法效仿方此法效仿方此法效仿方此法效仿方差分析的基本思想,即合理的分类使得差分析的基本思想,即合理的分类使得差分析的基本思想,即合理的分类使得差分析的基本思想,即合理的分类使得(sh(sh de)de)类内离差平方和类内离差平
25、方和类内离差平方和类内离差平方和较小,而类间离差平方和较大。假定较小,而类间离差平方和较大。假定较小,而类间离差平方和较大。假定较小,而类间离差平方和较大。假定n n个样品已分成个样品已分成个样品已分成个样品已分成g g类,是其类,是其类,是其类,是其中的两类。此时有个样品的第中的两类。此时有个样品的第中的两类。此时有个样品的第中的两类。此时有个样品的第k k类的离差平方和定义为:,其类的离差平方和定义为:,其类的离差平方和定义为:,其类的离差平方和定义为:,其中为类内指标的均数。所有中为类内指标的均数。所有中为类内指标的均数。所有中为类内指标的均数。所有g g类的合并离差平方和为。如果将类的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计 聚类分析
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内