MATLAB数据分析方法-(5).ppt
《MATLAB数据分析方法-(5).ppt》由会员分享,可在线阅读,更多相关《MATLAB数据分析方法-(5).ppt(112页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第6章章 聚类分析聚类分析普通高等院校计算机课程规划普通高等院校计算机课程规划教材教材MATLAB数据分析方法数据分析方法李柏年 吴礼斌 主编 张孔生 丁 华 参编 2/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第6章章 聚类分析聚类分析第六章第六章聚类分析聚类分析“人人以以类类聚聚,物物以以群群分分”。对对事事物物进进行行分分类类,是
2、是人人们们认认识识事事物物的的出出发发点点,也也是是人人们们认认识识世世界界的的一一种种重重要要方方法法。因因此此,分分类类学学已已成成为为人人们们认认识识世世界界的的一一门门基基础础学学科科。聚聚类类分分析析又又称称群群分分析析,它它是是研研究究(样样品品或或指指标标)分分类类问问题题的的一一种种多多元元统统计计方方法法,所所谓谓类类,通通俗俗地地说说,就就是是指指相相似似元元素素的的集集合合。本本章章主主要要介介绍绍谱谱系系聚聚类类、K均均值值聚聚类类、模模糊糊均均值值聚聚类类和和模模糊糊减减法法聚聚类类及及其其MATLAB实现实现3/24MATLABMATLAB数据分析方法(机械工业出版
3、社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第6章章 聚类分析聚类分析第第2章章数据描述性分析数据描述性分析数据描述性分析是从样本数据出发,概括分析数据数据描述性分析是从样本数据出发,概括分析数据的集中位置、分散程度、相互关联关系等,分析数据分的集中位置、分散程度、相互关联关系等,分析数据分布的正态或偏态特征布的正态或偏态特征.描述性分析是进行数据进一步分描述性分析是进行数据进一步分析的基础析的基础.对不同类型量纲的数据有时还要进行变换,对不同类型量纲的数据有时还要进行变换,然后再作出合理分析然后再作出合理分析.本章主要介绍样本数据的基本统本
4、章主要介绍样本数据的基本统计量、数据的可视化、数据分布检验及数据变换等内容计量、数据的可视化、数据分布检验及数据变换等内容.2.1基本统计量与数据可视化基本统计量与数据可视化2.1.1样本数据的基本统计量样本数据的基本统计量描述数据基本特征主要为集中位置和分散程度。描述数据基本特征主要为集中位置和分散程度。设从所研究的对象设从所研究的对象(即总体即总体)X中观测得到中观测得到n个观测值个观测值4/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第6章章 聚类分析聚类分析6.1.1聚类的思想聚类
5、的思想在社会经济领域中存在着大量分类问题,比如对我国在社会经济领域中存在着大量分类问题,比如对我国30个省市自治区独立核算工业企业经济效益进行分析,个省市自治区独立核算工业企业经济效益进行分析,一般不是逐个省市自治区去分析,而较好地做法是选取一般不是逐个省市自治区去分析,而较好地做法是选取能反映企业经济效益的代表性指标,如百元固定资产实能反映企业经济效益的代表性指标,如百元固定资产实现利税、资金利税率、产值利税率、百元销售收入实现现利税、资金利税率、产值利税率、百元销售收入实现利润、全员劳动生产率等等,根据这些指标对利润、全员劳动生产率等等,根据这些指标对30个省市个省市自治区进行分类,然后根
6、据分类结果对企业经济效益进自治区进行分类,然后根据分类结果对企业经济效益进行综合评价,就易于得出科学的分析。又比如若对某些行综合评价,就易于得出科学的分析。又比如若对某些大城市的物价指数进行考察,而物价指数很多,有农用大城市的物价指数进行考察,而物价指数很多,有农用生产物价指数、服务项目价指数、食品消费物价指数、生产物价指数、服务项目价指数、食品消费物价指数、建材零售价格指数等等。建材零售价格指数等等。6.1距离聚类距离聚类5/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第6章章 聚类分析
7、聚类分析由于要考察的物价指数很多,通常先对这些物价指数进由于要考察的物价指数很多,通常先对这些物价指数进行分类。总之,需要分类的问题很多,因此聚类分析这行分类。总之,需要分类的问题很多,因此聚类分析这个有用的数学工具越来越受到人们的重视,它在许多领个有用的数学工具越来越受到人们的重视,它在许多领域中都得到了广泛的应用。域中都得到了广泛的应用。聚类问题的一般提法是:设有聚类问题的一般提法是:设有个样品的个样品的元观测数元观测数据组成一个数据矩阵据组成一个数据矩阵6/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(
8、机械工业出版社)第第6章章 聚类分析聚类分析其其中中每每一一行行表表示示一一个个样样品品,每每一一列列表表示示一一个个指指标标,表表示示第第个个样样品品关关于于第第项项指指标标的的观观测测值值,要要根根据据观观测测值值矩矩阵阵X对对样样品品或或指指标标进进行行分分类类。一一种种分分类类的的思思想想是是:在在样样品品之之间间定定义义距距离离,在在指指标标之之间间定定义义相相似似系系数数.样样品品距距离离表表明明样样品品之之间间的的相相似似度度,指指标标之之间间的的相相似似系系数数刻刻画画指指标标之之间间的的相相似似度度.将将样样品品(或或变变量量)按按相相似似度度的的大大小小逐逐一一归归类类,关
9、关系系密密切切的的聚聚集集到到较较小小的的一一类类,关关系系疏疏远远的的聚聚集集到到较较大大的的一一类类,直直到到所所有有的的样样品品(或或变变量量)都都聚聚集集完完毕毕。上上述述思思想正是聚类分析的基本思想。想正是聚类分析的基本思想。7/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第6章章 聚类分析聚类分析值值得得注注意意的的是是:第第4章章介介绍绍的的判判别别分分析析和和聚聚类类分分析析是是两两种种不不同同目目的的的的分分类类方方法法,它它们们所所起起的的作作用用是是不不同同的的。判判
10、别别分分析析方方法法假假定定组组(或或类类)已已事事先先分分好好,判判别别新新样样品品应应归归属属哪哪一一组组,对对组组的的事事先先划划分分有有时时也也可可以以通通过过聚聚类类分分析析得得到到。聚聚类类分分析析方方法法是是按按样样品品(或或变变量量)的的数数据据特特征征,把把相相似似的的样样品品(或或变变量量)倾倾向向于于分分在在同同一一类类中中,把把不不相相似似的样品(或变量)倾向于分在不同类中。的样品(或变量)倾向于分在不同类中。8/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第6章章
11、 聚类分析聚类分析6.1.2向量的距离向量的距离设有设有n个样品的个样品的p元观测数据元观测数据这时,每个样品可看成这时,每个样品可看成元空间的一个点,也即元空间的一个点,也即一个一个维向量,两个向量之间的距离记为,满足维向量,两个向量之间的距离记为,满足如下条件:如下条件:9/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第6章章 聚类分析聚类分析(1)(非负性非负性)且且当且仅当当且仅当(2)(对称性对称性)(3)(三角不等式三角不等式)在聚类分析中最常用的是欧氏距离。在聚类分析中最常用
12、的是欧氏距离。10/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第6章章 聚类分析聚类分析1.欧氏距离2.绝对距离3.明氏距离4.切氏距离(6.1.1)(6.1.2)(6.1.4)(6.1.3)其中m(m0)为常数。11/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第6章章 聚类分析聚类分析5.方差加权距离6.马氏距离其中为样品的协方差矩阵.(6.1.5)(6.1.6)其中12/24M
13、ATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第6章章 聚类分析聚类分析在MATLAB中,计算距离的命令是pdist.调用格式Y=pdist(X,distance)输入的X是一个矩阵,行为个体,列为指标,distance 是距离的类型。若缺省distance,则输出的Y是一个行向量,向量的长度为(N-1)*N/2,其中N是样本的容量,Y的元素分别为个体(1,2),(1,3),.,(1,N),(2,3),.(2,N),.(N-1,N)之间的欧氏距离。可选项distance有:euclidean欧氏距
14、离;cityblock绝对距离;minkowski明氏距离(m=2);chebychev切氏距离;seuclidean方差加权距离;mahalanobis马氏距离。13/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第6章章 聚类分析聚类分析省(市)工薪收入(元/人)经营净收入(元/人)财产性收入(元/人)转移性收入(元/人)北京18738.96778.36452.757707.87上海21791.111399.14369.126199.77安徽9302.38959.43293.923603
15、.72陕西8354.63638.7665.332610.61新疆9422.22938.15141.751976.49表6.1 5省(区、市)城镇居民人均家庭收入例6.1.1 2008年我国5省、区、市城镇居民人均年家庭收入如下表为了研究上述5个省、区、市的城镇居民收入差异,需要利用统计资料对其进行分类,指标变量有4个,计算各省、区、市之间的前6种距离14/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第6章章 聚类分析聚类分析解:x=18738.96 778.36 452.75 7707.8
16、721791.11 1399.14 369.12 6199.779302.38 959.43 293.92 3603.728354.63 638.76 65.33 2610.619422.22 938.15 141.75 1976.49;d1=pdist(x);%此时计算出各行之间的欧氏距离,为了得到距离矩阵,键入命令:D=squareform(d1);%注意此时d1必须是一个行向量,结果为实对称矩阵15/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第6章章 聚类分析聚类分析D=1.0e+
17、004*0 0.3462 1.0293 1.1575 1.0944 0.3462 0 1.2763 1.3932 1.3080 1.0293 1.2763 0 0.1428 0.1639 1.1575 1.3932 0.1428 0 0.1280 1.0944 1.3080 0.1639 0.1280 0矩阵D中的第3行第2列为12763,表示上海与山西的欧氏距离为12763,其余类推.16/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第6章章 聚类分析聚类分析若想得到下三角阵,则有命令:
18、S=tril(squareform(d1)S=1.0e+004*0 0 0 0 0 0.3462 0 0 0 0 1.0293 1.2763 0 0 0 1.1575 1.3932 0.1428 0 0 1.0944 1.3080 0.1639 0.1280 017/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第6章章 聚类分析聚类分析欧氏距离与量纲有关,因此,有时需要对数据进行预处理,如标准化等,在Matlab中的命令是:zscore(x).d2=pdist(x,cityblock);%
19、计算绝对距离D2=squareform(d2)D2=1.0e+004*0 0.5265 1.3881 1.6009 1.5519 0.5265 0 1.5600 1.8090 1.7281 1.3881 1.5600 0 0.2490 0.1921 1.6009 1.8090 0.2490 0 0.2078 1.5519 1.7281 0.1921 0.2078 018/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第6章章 聚类分析聚类分析d3=pdist(x,minkowski,3);%
20、计算明氏距离,d3为1行10列的行向量d4=pdist(x,chebychev)%计算切氏距离.d5=pdist(x,seuclidean)%计算方差加权距离.d6=pdist(x,mahalanobis)%计算马氏距离19/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第6章章 聚类分析聚类分析欧氏距离与量纲有关,因此,有时需要对数据进行预处理,如标准化等,在MATLAB中的命令是zscore,调用格式 Z=zscore(X)输入X表示N行p列的原始观测矩阵,行为个体,列为指标。输出Z为X
21、的标准化矩阵,即Z=(Xones(N,1)*mean(X)./(ones(N,1)*std(X),其中mean(X)为行向量,表示各个指标的均值估计,std(X)表示指标的标准差估计。./表示对应元素相除,ones(N,1)表示元素全为1的行向量,向量的长度为N。20/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第6章章 聚类分析聚类分析 聚类分析方法不仅可以对样品进行分类,而且可以对变量进行分类,在对变量进行分类时,常常采用相似系数来度量变量之间的相似性。对 个指标变量进行聚类时,用相似
22、系数来衡量变量之间的相似程度(关联度),若用 表示变量 之间的相似系数,则应满足:(1)且(2)当且仅当(3)21/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第6章章 聚类分析聚类分析相似系数中最常用的是相关系数与夹角余弦.例例6.1.2.计算例6.1.1中各指标之间的相关系数与夹角余弦解:x=;%与例6.1.1数据相同R=corrcoef(x);%指标之间的相关系数R=1.0000 0.6183 0.8138 0.8931 0.6183 1.0000 0.4287 0.2927 0.8
23、138 0.4287 1.0000 0.9235 0.8931 0.2927 0.9235 1.000022/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第6章章 聚类分析聚类分析x1=normc(x);%将将x的各列化为单位向量的各列化为单位向量J=x1*x1%计算夹角余弦计算夹角余弦J=1.00000.95360.96090.97970.95361.00000.90260.89900.96090.90261.00000.98330.97970.89900.98331.000023/24
24、MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第6章章 聚类分析聚类分析6.1.3类间距离与递推公式类间距离与递推公式前面,我们介绍了两个向量之间的距离,下面我们介绍两个类别之间的距离:设表示两个样品之间的距离,分别表示两个类别,各自含有(1)最短距离即用两类中样品之间的距离最短者作为两类间距离.个样品.(6.1.9)24/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第6章章 聚类分析聚类分
25、析(2)最长距离即用两类中样品之间的距离最长者作为两类间距离.(6.1.10)(3)类平均距离即用两类中所有两两样品之间距离的平均作为两类间距离.(6.1.11)25/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第6章章 聚类分析聚类分析(4)重心距离其中分别是两类重心之间的欧氏距离作为类间距离.(6.1.12)的重心,这是用26/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第6章章
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- MATLAB 数据 分析 方法
限制150内