实用统计方法—— 聚类分析课件.pptx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《实用统计方法—— 聚类分析课件.pptx》由会员分享,可在线阅读,更多相关《实用统计方法—— 聚类分析课件.pptx(50页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、引言距离的度量k-均值聚类及SPSS实现分层聚类及SPSS实现附录(聚类的相关Matlab命令)第1页/共50页引言物以类聚、人以群分;但根据什么分类呢?如要想把中国的县分类,就有多种方法可以按照自然条件来分,比如考虑降水、土地、日照、湿度等,也可考虑收入、教育水准、医疗条件、基础设施等指标;既可以用某一项来分类,也可以同时考虑多项指标来分类。第2页/共50页聚类分析对一个数据,既可以对变量(指标)进行分类(相当于对数据中的列分类),也可以对观测值(事件,样品)来分类(相当于对数据中的行分类)。当然,不一定事先假定有多少类,完全可以按照数据本身的规律来分类。本讲要介绍的分类的方法称为聚类分析(
2、cluster analysis)。对变量的聚类称为R型聚类,而对观测值聚类称为Q型聚类。它们在数学上是无区别的。第3页/共50页饮料数据(drink.txt)16种饮料的热量、咖啡因、钠及价格四种变量 第4页/共50页如何度量距离远近?如果想要对100个学生进行分类,而仅知道他们的数学成绩,则只好按照数学成绩分类;这些成绩在直线上形成100个点。这样就可以把接近的点放到一类。如果还知道他们的物理成绩,这样数学和物理成绩就形成二维平面上的100个点,也可以按照距离远近来分类。第5页/共50页如何度量距离远近?三维或者更高维的情况也是类似;只不过三维以上的图形无法直观地画出来而已。在饮料数据中,
3、每种饮料都有四个变量值。这就是四维空间点的问题了。第6页/共50页两个距离概念按照远近程度来聚类需要明确两个概念:一个是点和点之间的距离,一个是类和类之间的距离。点间距离有很多定义方式。最简单的是欧氏距离。当然还有一些和距离相反但起同样作用的概念,比如相似性等,两点相似度越大,就相当于距离越短。第7页/共50页两个距离概念由一个点组成的类是最基本的类;如果每一类都由一个点组成,那么点间的距离就是类间距离。但是如果某一类包含不止一个点,那么就要确定类间距离,类间距离是基于点间距离定义的:比如两类之间最近点之间的距离可以作为这两类之间的距离,也可以用两类中最远点之间的距离或各类的中心之间的距离来作
4、为类间距离。第8页/共50页两个距离概念在计算时,各种点间距离和类间距离的选择是通过统计软件的选项实现的。不同的选择它的结果会不同,但一般不会差太多。第9页/共50页向量x=(x1,xp)与y=(y1,yp)之间的距离或相似系数:欧氏距离欧氏距离:Euclidean平方欧氏距离平方欧氏距离:Squared Euclidean夹角余弦夹角余弦(相似系数相似系数1):cosinePearson correlation(相似系数相似系数2):Chebychev:Maxi|xi-yi|Block(绝对距离绝对距离):S Si|xi-yi|Minkowski:Lance距离距离第10页/共50页类Gp与
5、类Gq之间的距离Dpq(d(xi,xj)表示点xi Gp和xj Gq之间的距离)最短距离法最短距离法:最长距离法最长距离法:重心法重心法:离差平方和离差平方和:(Wald)类平均法类平均法:在用欧氏距离时在用欧氏距离时,有统一的递推公式有统一的递推公式第11页/共50页最短距离(Nearest Neighbor)x21x12x22x11第12页/共50页最长距离(Furthest Neighbor)x11x21第13页/共50页组间平均连接(Between-group Linkage)第14页/共50页 组内平均连接法(Within-group Linkage)x21x12x22x11第15页
6、/共50页重心法(Centroid clustering):均值点的距离第16页/共50页离差平方和法连接2,41,56,5第17页/共50页红绿(2,4,6,5)8.75 离差平方和增加8.752.56.25 黄绿(6,5,1,5)14.75离差平方和增加14.758.56.25黄红(2,4,1,5)10100故按该方法的连接和黄红首先连接。第18页/共50页有了上面的点间距离和类间距离的概念,就可以介绍聚类的方法了。第19页/共50页事先不用确定分多少类:分层聚类 分层聚类或系统聚类(hierarchical cluster)。开始时,有多少点就是多少类。它第一步先把最近的两类(点)合并成
7、一类,然后再把剩下的最近的两类合并成一类;这样下去,每次都少一类,直到最后只有一大类为止。越是后来合并的类,距离就越远。第20页/共50页例:为研究辽宁、浙江、河南、甘肃、青海5省份1991年城镇居民生活消费的分布规律,需要利用调查资料对这5个省分类。变量名称及原始数据如下表:变量变量省份省份X1X2X3X4X5X6X7X8辽宁辽宁7.9039.778.4912.9419.2711.052.0413.29浙江浙江7.6850.3711.3513.3019.2514.592.7514.87河南河南9.4227.938.208.2416.179.421.559.76甘肃甘肃9.1627.989.0
8、19.3215.999.101.8211.35青海青海10.0628.6410.5210.0516.188.391.9610.81其中,X1:人均粮食支出,X2:人均副食支出,X3:人均烟酒茶支出,等。第21页/共50页计算两组间的欧式距离,如:D12=D21=(7.90-7.68)2+(39.77-50.37)2+(13.29-14.87)2第22页/共50页Lance和和Williams给出给出(对欧氏距离对欧氏距离)统一统一递推递推公式公式:D2(k,r)=a apD2(k,p)+a aqD2(k,q)+b bD2(p,q)+g g|D2(k,p)-D2(k,q)|前面方法的递推公式可选
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 实用统计方法 聚类分析课件 实用 统计 方法 聚类分析 课件
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内