spss的聚类分析.ppt
《spss的聚类分析.ppt》由会员分享,可在线阅读,更多相关《spss的聚类分析.ppt(39页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第六章第六章 聚类分析聚类分析 把对象分类把对象分类11分类分类u俗语说,物以类聚、人以群分。俗语说,物以类聚、人以群分。u当有一个分类指标时,分类比较容易。当有一个分类指标时,分类比较容易。u但是当有多个指标,要进行分类就不是很容但是当有多个指标,要进行分类就不是很容易了。易了。u比如,要想把中国的县分成若干类,可以比如,要想把中国的县分成若干类,可以按照自然条件来分:考虑降水、土地、日照、按照自然条件来分:考虑降水、土地、日照、湿度等各方面;湿度等各方面;u也可以考虑收入、教育水准、医疗条件、也可以考虑收入、教育水准、医疗条件、基础设施等指标;基础设施等指标;聚类分析聚类分析u由于不同的指
2、标项对重要程度或依赖关系是由于不同的指标项对重要程度或依赖关系是相互不同的,所以也不能用平均的方法,因相互不同的,所以也不能用平均的方法,因为这样会忽视相对重要程度的问题。为这样会忽视相对重要程度的问题。u所以需要进行多元分类,即聚类分析。所以需要进行多元分类,即聚类分析。u最早的聚类分析是由考古学家在对考古分类最早的聚类分析是由考古学家在对考古分类中研究中发展起来的,同时又应用于昆虫的中研究中发展起来的,同时又应用于昆虫的分类中,此后又广泛地应用在天气、生物等分类中,此后又广泛地应用在天气、生物等方面。方面。聚类分析聚类分析u对于一批数据,人们既可以对变量(指标)对于一批数据,人们既可以对变
3、量(指标)进行分类进行分类(相当于对数据中的列分类相当于对数据中的列分类),也可以,也可以对观测值(事件,样品)来分类(相当于对数对观测值(事件,样品)来分类(相当于对数据中的行分类)。据中的行分类)。u对对变变量量的的聚聚类类称称为为R R型型聚聚类类,而而对对观观测测值值聚聚类类称称为为Q Q型型聚聚类类。这这两两种种聚聚类类在在数数学学上上是是对对称称的的,没有什么不同。没有什么不同。如何聚类?u聚类分析就是要找出具有相近程度的点或类聚类分析就是要找出具有相近程度的点或类聚为一类;聚为一类;u如何衡量这个如何衡量这个“相近程度相近程度”?就是要根据?就是要根据“距离距离”来确定。来确定。
4、u这这里里的的距距离离含含义义很很广广,凡凡是是满满足足4个个条条件件(后后面面讲讲)的的都都是是距距离离,如如欧欧氏氏距距离离、马马氏氏距距离离,相似系数也可看作为距离。,相似系数也可看作为距离。距离和相似系数距离u什么是距离?什么是距离?u首先我们看首先我们看 样本数据样本数据:u一般满足以下四个条件时,就称为距离:一般满足以下四个条件时,就称为距离:常用距离明氏距离uMinkowski距离:距离:u当当q=1时:时:u当当q=2时:时:u当当q=时时改进:1 1)各指标测量值相差悬殊时,数据标准化处理后再计算距离)各指标测量值相差悬殊时,数据标准化处理后再计算距离 xij0时,时,Lan
5、ce Williams距离距离 2 2)马氏距离)马氏距离明氏距离的缺点:1 1)距离大小与各指标的观测单位有关)距离大小与各指标的观测单位有关 2 2)没有考虑指标间的相关性)没有考虑指标间的相关性分类变量距离测度分类变量距离测度u简单匹配系数简单匹配系数:是测度二分类变量的,是度:是测度二分类变量的,是度量两个案例在所有的聚类变量上答案相同的情量两个案例在所有的聚类变量上答案相同的情况出现的频率。况出现的频率。个体j个体i 1 01 a b0 c d a为个体i与个体j在所有变量上同时取1的个数;d为同时取0的个数特点:排除同时拥有或同时不拥有某特征的情况;取0和1地位等价,编码方案的变化
6、不会引起系数的变化。例例姓名 授课方式 上机时间 选某门课程张三 1 1 1 李四 1 1 0王五 0 0 1(张三,李四):a=2 b=1 c=0 d=0 d(x,y)=1/(1+2)=1/3(张三,王五):a=1 b=2 c=0 d=0 d(x,y)=2/(1+2)=2/3张三距李四近关联测度关联测度u雅雅科科比比系系数数:是是在在简简单单匹匹配配系系数数基基础础上上进进行行的改进,也是度量二分类变量的。的改进,也是度量二分类变量的。个体j个体i 1 01 a b0 c d a为个体i与个体j在所有变量上同时取1的个数;d为同时取0的个数特点:排除同时不拥有某特征的情况;取1的状态比取0更
7、有意义(如:临床检验中的阳性特征);编码方案会引起系数的变化分类变量距离测度分类变量距离测度姓名 授课方式 上机时间 选某门课程张三 1(0)1(0)1(0)李四 1(0)1(0)0(1)王五 0(1)0(1)1(0)(张三,李四)1:a=2 b=1 c=0 d=0 d(x,y)=1/(1+2)=1/3(张三,李四)2:a=0 b=0 c=1 d=2 d(x,y)=1/(1+2)=1/3(相同)(张三,李四)1:a=2 b=1 c=0 d=0 J(x,y)=1/(1+2)=1/3(张三,李四)2:a=0 b=0 c=1 d=2 J(x,y)=1/1=1(不相同)相似系数u夹角余弦cosine
8、u尽管图中AB和CD长度不一样,但形状相似。当长度不是主要矛盾时,就可利用夹角余弦这样的相似系数。相似系数u相关系数相关系数 u也可用相关系数来刻画样品之间的相似关系。u把两两样品的相关系数都计算出来,可形成样品相关系数矩阵。系统聚类法系统聚类法的步骤可可选择适当的距离,适当的距离,计算距离算距离把每个把每个样品看成一品看成一类,构造,构造n个个类合并最近的两合并最近的两类为一新一新类计算新算新类与当前各与当前各类的距离的距离判断判断画聚画聚类图根据根据实际情况,确定情况,确定类和和类的个数的个数仅有一个有一个类不是不是仅有一个有一个类采用系采用系统聚聚类法法系统聚类法u最短距离法最短距离法N
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- spss 聚类分析
限制150内