实用统计方法—— 聚类分析.pptx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《实用统计方法—— 聚类分析.pptx》由会员分享,可在线阅读,更多相关《实用统计方法—— 聚类分析.pptx(50页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、实用统计方法实用统计方法 聚类分析聚类分析引言引言引言引言距离的度量距离的度量距离的度量距离的度量k-k-均值聚类及均值聚类及均值聚类及均值聚类及SPSSSPSS实现实现实现实现分层聚类及分层聚类及分层聚类及分层聚类及SPSSSPSS实现实现实现实现附录(聚类的相关附录(聚类的相关附录(聚类的相关附录(聚类的相关MatlabMatlab命令)命令)命令)命令)第1页/共50页引言引言物以类聚、人以群分;物以类聚、人以群分;物以类聚、人以群分;物以类聚、人以群分;但根据什么分类呢?但根据什么分类呢?但根据什么分类呢?但根据什么分类呢?如要想把中国的县分类,就有多种方法如要想把中国的县分类,就有多
2、种方法如要想把中国的县分类,就有多种方法如要想把中国的县分类,就有多种方法可以按照自然条件来分,比如考虑降水、可以按照自然条件来分,比如考虑降水、可以按照自然条件来分,比如考虑降水、可以按照自然条件来分,比如考虑降水、土地、日照、湿度等,土地、日照、湿度等,土地、日照、湿度等,土地、日照、湿度等,也可考虑收入、教育水准、医疗条件、基也可考虑收入、教育水准、医疗条件、基也可考虑收入、教育水准、医疗条件、基也可考虑收入、教育水准、医疗条件、基础设施等指标;础设施等指标;础设施等指标;础设施等指标;既可以用某一项来分类,也可以同时考虑既可以用某一项来分类,也可以同时考虑既可以用某一项来分类,也可以同
3、时考虑既可以用某一项来分类,也可以同时考虑多项指标来分类。多项指标来分类。多项指标来分类。多项指标来分类。第2页/共50页聚类分析聚类分析对对一一个个数数据据,既既可可以以对对变变量量(指指标标)进进行行分分类类(相相当当于于对对数数据据中中的的列列分分类类),也也可可以以对对观观测测值值(事事件件,样样品品)来来分分类类(相当于对数据中的行分类相当于对数据中的行分类)。当当然然,不不一一定定事事先先假假定定有有多多少少类类,完完全可以按照数据本身的规律来分类。全可以按照数据本身的规律来分类。本本讲讲要要介介绍绍的的分分类类的的方方法法称称为为聚聚类类分分析析(cluster analysis
4、)。对对变变量量的的聚聚类类称称为为R型型聚聚类类,而而对对观观测测值值聚聚类类称称为为Q型型聚聚类类。它它们们在在数数学学上上是是无无区区别别的。的。第3页/共50页饮料数据(饮料数据(drink.txt)1616种饮料的热量、咖啡因、钠及价格四种变量种饮料的热量、咖啡因、钠及价格四种变量种饮料的热量、咖啡因、钠及价格四种变量种饮料的热量、咖啡因、钠及价格四种变量 第4页/共50页如何度量距离远近如何度量距离远近?如如果果想想要要对对100个个学学生生进进行行分分类类,而而仅仅知知道道他他们们的的数数学学成成绩绩,则则只只好好按按照照数数学学成成绩绩分分类类;这这些些成成绩绩在在直直线线上上
5、形形成成100个个点点。这这样样就就可可以以把把接近的点放到一类。接近的点放到一类。如如果果还还知知道道他他们们的的物物理理成成绩绩,这这样样数数学学和和物物理理成成绩绩就就形形成成二二维维平平面面上上的的100个个点点,也也可可以以按按照照距距离离远远近近来分类。来分类。第5页/共50页如何度量距离远近如何度量距离远近?三三维维或或者者更更高高维维的的情情况况也也是是类类似似;只只不不过过三三维维以以上上的的图图形形无无法法直直观观地地画出来而已。画出来而已。在在饮饮料料数数据据中中,每每种种饮饮料料都都有有四四个个变变量量值值。这这就就是是四四维维空空间间点点的的问问题题了。了。第6页/共
6、50页两个距离概念两个距离概念按按照照远远近近程程度度来来聚聚类类需需要要明明确确两两个个概概念念:一一个个是是点点和和点点之之间间的的距距离,一个是离,一个是类和类之间类和类之间的距离。的距离。点点间间距距离离有有很很多多定定义义方方式式。最最简简单的是欧氏距离。单的是欧氏距离。当当然然还还有有一一些些和和距距离离相相反反但但起起同同样样作作用用的的概概念念,比比如如相相似似性性等等,两两点点相相似似度度越越大大,就就相相当当于于距距离离越短。越短。第7页/共50页两个距离概念两个距离概念由由一一个个点点组组成成的的类类是是最最基基本本的的类类;如如果果每每一一类类都都由由一一个个点点组组成
7、成,那那么么点点间间的的距距离离就就是是类类间间距距离离。但但是是如如果果某某一一类类包包含含不不止止一一个个点点,那那么么就就要要确确定定类类间距离,间距离,类类间间距距离离是是基基于于点点间间距距离离定定义义的的:比比如如两两类类之之间间最最近近点点之之间间的的距距离离可可以以作作为为这这两两类类之之间间的的距距离离,也也可可以以用用两两类类中中最最远远点点之之间间的的距距离离或或各各类类的的中中心心之之间的距离来作为类间距离。间的距离来作为类间距离。第8页/共50页两个距离概念两个距离概念在在计计算算时时,各各种种点点间间距距离离和和类类间间距距离离的的选选择择是是通通过过统统计计软软件
8、件的的选选项项实实现现的的。不不同同的的选选择择它它的的结结果果会会不不同同,但但一一般不会差太多。般不会差太多。第9页/共50页向量向量向量向量x=(xx=(x1 1,x,xp p)与与与与y=(yy=(y1 1,y,yp p)之间的距离或相似系数之间的距离或相似系数之间的距离或相似系数之间的距离或相似系数:欧氏距离欧氏距离:Euclidean平方欧氏距离平方欧氏距离:Squared Euclidean夹角余弦夹角余弦(相似系数相似系数1):cosinePearson correlation(相似系数相似系数2):Chebychev:Maxi|xi-yi|Block(绝对距离绝对距离):S
9、Si|xi-yi|Minkowski:Lance距距离离第10页/共50页类类类类GGp p与类与类与类与类GGq q之间的距离之间的距离之间的距离之间的距离D Dpqpq(d(xd(xi i,x,xj j)表示点表示点表示点表示点x xi i G Gp p和和和和x xj j G Gq q之间的距离之间的距离之间的距离之间的距离)最短距离法最短距离法:最长距离最长距离法法:重心法重心法:离差平方和离差平方和:(Wald)类平均法类平均法:在用欧氏距离时在用欧氏距离时,有统一的递推公式有统一的递推公式第11页/共50页最短距离(Nearest Neighbor)x21x12x22x11第12页
10、/共50页最长距离(Furthest Neighbor)x11x21第13页/共50页组间平均连接(Between-group Linkage)第14页/共50页 组内平均连接法(Within-group Linkage)x21x12x22x11第15页/共50页重心法(Centroid clustering):均值点的距离第16页/共50页离差平方和法连接2,41,56,5第17页/共50页红绿(2,4,6,5)8.75 离差平方和增加8.752.56.25 黄绿(6,5,1,5)14.75离差平方和增加14.758.56.25黄红(2,4,1,5)10100故按该方法的连接和黄红首先连接。
11、第18页/共50页有了上面的点间距离和类有了上面的点间距离和类间距离的概念,就可以介间距离的概念,就可以介绍聚类的方法了。绍聚类的方法了。第19页/共50页事先不用确定分多少类:分层聚类事先不用确定分多少类:分层聚类 分分层层聚聚类类或或系系统统聚聚类类(hierarchical cluster)。开开始始时时,有有多多少少点点就就是是多多少类。少类。它它第第一一步步先先把把最最近近的的两两类类(点点)合合并并成成一一类类,然然后后再再把把剩剩下下的的最最近近的的两两类类合并成一类;合并成一类;这这样样下下去去,每每次次都都少少一一类类,直直到到最最后后只只有有一一大大类类为为止止。越越是是后
12、后来来合合并并的的类类,距离就越远。距离就越远。第20页/共50页例例例例:为研究辽宁、浙江、河南、甘肃、青海为研究辽宁、浙江、河南、甘肃、青海为研究辽宁、浙江、河南、甘肃、青海为研究辽宁、浙江、河南、甘肃、青海5 5省份省份省份省份19911991年城年城年城年城镇居民生活消费的分布规律,需要利用调查资料对这镇居民生活消费的分布规律,需要利用调查资料对这镇居民生活消费的分布规律,需要利用调查资料对这镇居民生活消费的分布规律,需要利用调查资料对这5 5个省个省个省个省分类。变量名称及原始数据如下表:分类。变量名称及原始数据如下表:分类。变量名称及原始数据如下表:分类。变量名称及原始数据如下表:
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 实用统计方法 聚类分析 实用 统计 方法
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内