第十三章 聚类分析优秀PPT.ppt
《第十三章 聚类分析优秀PPT.ppt》由会员分享,可在线阅读,更多相关《第十三章 聚类分析优秀PPT.ppt(65页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第十三章 聚类分析第一页,本课件共有65页例13-1 为研究辽宁等5省区1991年城镇居民生活费的分布规律,根据调查资料做类型划分。指标名称及原始数据见下表。X1 人均粮食支出 X5 人均衣着商品支出X2 人均副食支出 X6 人均日用品支出X3 人均烟、酒、茶支出 X7 人均燃料支出X4 人均其他副食支出 X8 人均非商品支出X1X2X3X4X5X6X7X8辽宁浙江河南甘肃青海7.907.689.429.1610.0639.7750.3727.9327.9828.648.4911.358.209.0110.5212.9413.308.149.3210.0519.2719.2516.1715.9
2、916.1811.0514.599.429.108.392.022.751.551.821.9613.2914.879.7611.3510.81第二页,本课件共有65页第一节 聚类分析的基本概念一、聚类分析的基本思想 我们分析的样本或指标之间存在着程度不同的相似性(亲疏关系)。于是根据一批样本的多个观测指标,具体找出一些能够度量样本或指标之间相似程度的统计量,以这些统计量为划分类型的依据,把一些相似程度较大的样本(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样本(或指标)又聚合为另一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到所有的样本(或指标)都聚合完
3、毕,把不同的类型一一划分出来,形成一个由小到大的分类系统,最后在把所有的样品(或指标)间的亲疏关系表示出来,这种方法称为系统聚类分析法。第三页,本课件共有65页二、聚类分析法的分类 聚类分析根据分类对象的不同分为Q型和 R 型两大类。Q型聚类分析是对样本进行分类处理的,R 型聚类分析是对变量(指标)进行分类处理的。1.R型聚类分析的特点 (1)R型聚类分析不但可以了解个别变量之间的亲疏程度,而且可以了解各个变量组合之间的亲疏程度。(2)根据变量的分类结果以及它们之间的关系,可以选择主要变量进行回归分析。第四页,本课件共有65页2.Q型聚类分析的特点 (1)可以综合利用多个变量的信息对样本进行分
4、类。(2)分类结果是直观的,聚类谱系图非常清楚地表现其数值分类结果。(3)聚类分析所得到的结果比传统的分类方法更细致,全面,合理。第五页,本课件共有65页第二节 距离和相似系数 对样本进行聚类时,我们将样本的“靠近”程度由某种距离来刻画;对指标的聚类,往往用某种相似系数来刻画。一、距离 设我们研究的分类对象有p个指标,现选择n个样本,由p个指标和n个样本就可以获得一个n p的数据矩阵第六页,本课件共有65页该矩阵的元素 表示第 个样品的第 个指标。在矩阵中,每个样本有p个指标,故每个样本可以看成为 p 维空间中的一个点,n个样本就组成 p 维空间中的n个点,此时自然用距离来度量样本之间接近的程
5、度。1.绝对值距离第七页,本课件共有65页2.欧氏距离3.明考斯基距离第八页,本课件共有65页二、相似系数1.相似系数 刻画两个指标之间的相似程度的大小,用 表示第 个指标与第 个指标间的相似系数。2.相似系数的特点 的绝对值越接近于1,表示指标与指标间的关系越密切;值的绝对值越接近于0,表示指标与指标间的关系越疏远。第九页,本课件共有65页3.相似系数的计算(1)夹角余弦第十页,本课件共有65页(2)相关系数第十一页,本课件共有65页第三节 系统聚类法系统聚类法的基本步骤(1)计算n个样本间的距离 ,记作 ;(2)构造n个类,每个类只包含一个样本;(3)合并距离最近的两类为一新类;(4)计算
6、新类与当前各类的距离,若类的个数等于1,转到步骤(5),否则回到步骤(3);(5)画聚类图;(6)决定类的个数和类。第十二页,本课件共有65页例13-1 为研究辽宁等5省区1991年城镇居民生活费的分布规律,根据调查资料做类型划分。指标名称及原始数据见下表。X1 人均粮食支出 X5 人均衣着商品支出X2 人均副食支出 X6 人均日用品支出X3 人均烟、酒、茶支出 X7 人均燃料支出X4 人均其他副食支出 X8 人均非商品支出X1X2X3X4X5X6X7X8辽宁浙江河南甘肃青海7.907.689.429.1610.0639.7750.3727.9327.9828.648.4911.358.209
7、.0110.5212.9413.308.149.3210.0519.2719.2516.1715.9916.1811.0514.599.429.108.392.022.751.551.821.9613.2914.879.7611.3510.81第十三页,本课件共有65页 将表中的每个省区看成一个样本,先计算5省区之间的欧氏距离,用D(0)表示各样本之间的距离矩阵。第十四页,本课件共有65页一、最短距离法例13-1中开始有五类:即这五类之间的距离等于5个样本之间的距离。第十五页,本课件共有65页第十六页,本课件共有65页其各类之间元素的最近距离是:第十七页,本课件共有65页得到各类之间的距离矩阵
8、为D(1)第十八页,本课件共有65页D(1)中类间最小距离是d65=2.21,合并类G6和G5,得新类再利用第十九页,本课件共有65页得到各类之间的距离矩阵为D(2)第二十页,本课件共有65页第二十一页,本课件共有65页D(2)中类间最小距离是d12=11.67,合并类G1和G2,得新类这时我们有两个类G7=3,4,5和G8=1,2,它们的最近距离第二十二页,本课件共有65页得到各类之间的距离矩阵到D(3)第二十三页,本课件共有65页河南3甘肃4青海5辽宁1浙江2051015 把上述谱系聚类过程作图表示,即成谱系图13-1。从图13-1上可以清楚地看到各个类在不同距离水平上聚集和归并的过程。图
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第十三章 聚类分析优秀PPT 第十三 聚类分析 优秀 PPT
限制150内