聚类分析实验教学课件.ppt
聚类分析实验教学第1页,此课件共18页哦一、聚类分析的基本原理一、聚类分析的基本原理 聚类分析是一种数值分类方法(即完全是根据数据关系)。要进行聚类分聚类分析是一种数值分类方法(即完全是根据数据关系)。要进行聚类分析就要首先建立一个由某些事物属性构成的指标体系,或者说是一个变量组合。析就要首先建立一个由某些事物属性构成的指标体系,或者说是一个变量组合。入选的每个指标必须能刻画事物属性的某个侧面,所有指标组合起来形成一个入选的每个指标必须能刻画事物属性的某个侧面,所有指标组合起来形成一个完备的指标体系,它们互相配合可以共同刻画事物的特征。完备的指标体系,它们互相配合可以共同刻画事物的特征。所谓完备的指标体系,是说入选的指标是充分的,其它任何新增变量对辨别事物差所谓完备的指标体系,是说入选的指标是充分的,其它任何新增变量对辨别事物差异无显著性贡献。如果所选指标不完备,则导致分类偏差。比如要对家庭教养方式进行异无显著性贡献。如果所选指标不完备,则导致分类偏差。比如要对家庭教养方式进行分类,就要有描述家庭教育方式的一系列变量,这些变量能够充分地反映不同家庭对子分类,就要有描述家庭教育方式的一系列变量,这些变量能够充分地反映不同家庭对子女的教养方式。女的教养方式。简单地说,聚类分析的结果取决于变量的选择和变量值获取的两个方简单地说,聚类分析的结果取决于变量的选择和变量值获取的两个方面。变量选择越准确、测量越可靠,得到的分类结果越是能描述事物各类面。变量选择越准确、测量越可靠,得到的分类结果越是能描述事物各类间的本质区别。间的本质区别。第2页,此课件共18页哦 聚类分析完全是根据数据情况来进行的。就一个由聚类分析完全是根据数据情况来进行的。就一个由n个个案、个个案、k个变个变量组成的数据文件来说量组成的数据文件来说,当对个案进行聚类分析时,相当于对,当对个案进行聚类分析时,相当于对k 维坐标系中的维坐标系中的n 个个点进行分组,所依据的是它们的距离点进行分组,所依据的是它们的距离;当对变量进行聚类分析时,相当;当对变量进行聚类分析时,相当于对于对n维坐标系中的维坐标系中的k个点进行分组,所依据的也是点距。所以距离或相似性程个点进行分组,所依据的也是点距。所以距离或相似性程度是聚类分析的基础。点距如何计算呢?拿连续测量的变量来说,可以用欧氏度是聚类分析的基础。点距如何计算呢?拿连续测量的变量来说,可以用欧氏距离平方计算:即各变量差值的平方和。距离平方计算:即各变量差值的平方和。第3页,此课件共18页哦1.1.聚类分析的前期准备工作聚类分析的前期准备工作 聚类分析是以完备的数据文件为基础的,这一数据文件除观测变量比较完备聚类分析是以完备的数据文件为基础的,这一数据文件除观测变量比较完备之外,一般还要求各个观测变量的量纲一致,即各变量取值的数量级一致,否则之外,一般还要求各个观测变量的量纲一致,即各变量取值的数量级一致,否则各变量在描述客观事物某方面特征差异性的作用有被夸大或缩小的可能。各变量在描述客观事物某方面特征差异性的作用有被夸大或缩小的可能。所以,聚类分析前要检查各变量的量纲是否一致,不一致则需进所以,聚类分析前要检查各变量的量纲是否一致,不一致则需进行转换,如将各变量均作标准化转换就可保证量纲一致。行转换,如将各变量均作标准化转换就可保证量纲一致。2.2.聚类分析的主要方法聚类分析的主要方法第4页,此课件共18页哦二、二、Q Q聚类分析的聚类分析的SPSSSPSS过程过程第一步:第一步:数据文件的准备。数据文件的准备。Q聚类分析是根据一系列观测变聚类分析是根据一系列观测变量的测量值对个案进行分类,分类的依据是个案之间的量的测量值对个案进行分类,分类的依据是个案之间的“距距离离”。聚类之前的数据文件包括:。聚类之前的数据文件包括:n个个案的个个案的k个观测值。此个观测值。此外还需要一个个案的标识变量。外还需要一个个案的标识变量。第二步:第二步:点击点击“Analyze”菜单选中菜单选中“Classify”的的“HierarchicalCluster Analysis”,打开对话框。将参与聚类分析的观测变量打开对话框。将参与聚类分析的观测变量置入置入“Variable(s)”下的方框中,将个案标识变量的变量名置下的方框中,将个案标识变量的变量名置入入“Label Cases By”下的方框中,同时在下的方框中,同时在 Cluster 之下选择之下选择Cases。然后选中。然后选中“Statistics”和和“Plots”。第5页,此课件共18页哦第三步:第三步:点击点击“Method”打开聚类分析的距离计算方法设置对打开聚类分析的距离计算方法设置对话框话框,以实现对小类间距离,以实现对小类间距离、样本间距离计算方法的设置、样本间距离计算方法的设置,同时对量纲不一致情况下的变量观测值进行转换:同时对量纲不一致情况下的变量观测值进行转换:(1)小类间距离计算:默认方式是类间平均链锁法(小类间距离计算:默认方式是类间平均链锁法(Between-Groups linkage),这种方法最充分地使用了数据资料;,这种方法最充分地使用了数据资料;(2)样本间距离计算:样本间距离计算:观测变量为连续变量,默认方法:欧氏距离平方;观测变量为连续变量,默认方法:欧氏距离平方;观测变量为顺序或名义变量,默认方法:卡方测量方法;观测变量为顺序或名义变量,默认方法:卡方测量方法;观测变量为二项选择变量观测变量为二项选择变量,默认方法:二元欧氏距离平方。默认方法:二元欧氏距离平方。(3)如果观测变量的量纲不一致,还需设置对不同量纲变量进如果观测变量的量纲不一致,还需设置对不同量纲变量进标准化处理。默认状态是标准化处理。默认状态是“none”,需要时可以选择需要时可以选择“Z-scores”,这是使用最广泛、最直观的转换方法这是使用最广泛、最直观的转换方法。在进行量纲转换时。在进行量纲转换时 ,要选择要选择“By cases”表明是属于表明是属于Q聚类分析中的量纲转换。聚类分析中的量纲转换。第6页,此课件共18页哦第四步:第四步:指定图形输出。层次聚类分析的图形结果有两种形指定图形输出。层次聚类分析的图形结果有两种形式式(1)树形图()树形图(Dendrogram),它可以展现聚类分析的每一它可以展现聚类分析的每一次合并过程,次合并过程,SPSS首先将各类之间的距离重新转换到首先将各类之间的距离重新转换到 025之间之间,然后表现在图上,然后表现在图上。此图可以粗略地表现聚类的过程。此图可以粗略地表现聚类的过程;(2)冰柱图()冰柱图(Icicle),包括纵向冰柱图(包括纵向冰柱图(Vertical)和横向和横向冰柱图冰柱图(Horizontal)。冰柱图用。冰柱图用X符号来表示聚类过程符号来表示聚类过程,其选其选择包括:全部、部分、无。择包括:全部、部分、无。第7页,此课件共18页哦第五步:第五步:显示凝聚状态表。点击层次聚类分析对话框中的显示凝聚状态表。点击层次聚类分析对话框中的“statistics”可以打开设置凝聚状态对话框。可以打开设置凝聚状态对话框。(1)选中选中“Agglomeration schedule”,可以输出聚类分析,可以输出聚类分析详细过程,即每一阶段完成的是哪些个案或小类间的聚集;详细过程,即每一阶段完成的是哪些个案或小类间的聚集;(2)选中)选中“Proximity matrix”,可以输出各个案的距离矩阵;可以输出各个案的距离矩阵;(3)设置个案归属结果显示状态:)设置个案归属结果显示状态:选中选中none,不显示个案归属情况;,不显示个案归属情况;选中选中Single solution,则显示聚集成指定的,则显示聚集成指定的n类时个案类时个案 归属情况;归属情况;选中选中Range of solutions,则显示聚集成,则显示聚集成n1到到n2范围内范围内 的各种情况下的个案归属情况。的各种情况下的个案归属情况。第8页,此课件共18页哦第六步:第六步:设定保存层次聚类分析的结果。点击层次聚类分析设定保存层次聚类分析的结果。点击层次聚类分析对话框中的对话框中的“save”可以打开设置保存分类结果的对话框。在可以打开设置保存分类结果的对话框。在“Cluster membership”下边:下边:选中选中None,不保存聚类结果到数据编辑窗口;,不保存聚类结果到数据编辑窗口;选中选中Single solution,则保存聚集成指定的,则保存聚集成指定的n类时个案类时个案 归属结果;归属结果;选中选中Range of solutions,则显示聚集成,则显示聚集成n1到到n2范围内范围内 的各种情况下的个案归属结果。的各种情况下的个案归属结果。OK!第9页,此课件共18页哦 实例分析:根据实例分析:根据20名被试在不同色光刺激下选择反应时间的反应模式,名被试在不同色光刺激下选择反应时间的反应模式,对其进行类型划分。实验数据如下表所示:对其进行类型划分。实验数据如下表所示:IDREDGREENBLUEYELLOW1 14104103893894504504904902 23563563603603913914064063 34124124224224804804654654 43203203503504004004204205 53803803903904254254604606 63903904564564554554334337 74124124504504404404554558 83563563833834004004104109 940540539039049049045045010103883884104104264264104101111378378410410426426409409121230030035035040040042042013134124124204204904905235231414420420430430451451480480151536836839039038938940340316163903904004004204205095091717405405380380510510489489181839039039039042842847647619194004003803805005004554552020420420400400486486505505SPSSSPSS过程演示过程演示第10页,此课件共18页哦三、三、R R聚类分析的聚类分析的SPSSSPSS过程过程 R 层次聚类分析对研究对象的观察变量进行分类,它使得具层次聚类分析对研究对象的观察变量进行分类,它使得具有共同特征的变量聚集在一起,以便选择其中具有代表性的变量,有共同特征的变量聚集在一起,以便选择其中具有代表性的变量,实现用较少变量刻画研究对象的目的。实现用较少变量刻画研究对象的目的。R聚类分析的过程与聚类分析的过程与Q 聚类分析的过程是一致的聚类分析的过程是一致的,只是在打开,只是在打开“Hierarchical Cluster Analysis”的对话框中选的对话框中选“Variables”的聚类。的聚类。在变量间距离的计算方法上选在变量间距离的计算方法上选“Pearson Correlation”,其它操作与,其它操作与Q聚类相聚类相同。同。实例分析实例分析:根据学生考试分数对课程进行分类根据学生考试分数对课程进行分类第11页,此课件共18页哦四、快速聚类分析四、快速聚类分析 快速聚类分析是由研究者指定类别数的大样本资料逐步聚类分析。它先对数据快速聚类分析是由研究者指定类别数的大样本资料逐步聚类分析。它先对数据进行初始分类,然后逐步调整,得到最终分类。快速聚类分析一般是对个案来进行进行初始分类,然后逐步调整,得到最终分类。快速聚类分析一般是对个案来进行的。对于变量分类来说,当变量较少时可以使用层次聚类分析中的的。对于变量分类来说,当变量较少时可以使用层次聚类分析中的R聚类分析;聚类分析;当变量数比较多时则可以使用因素分析。当变量数比较多时则可以使用因素分析。快速聚类分析也是以个案的距离为基础的,与层次聚类分析不同快速聚类分析也是以个案的距离为基础的,与层次聚类分析不同的是:快速聚类分析要指定分类的类别数。快速聚类分析的逻辑程序是:的是:快速聚类分析要指定分类的类别数。快速聚类分析的逻辑程序是:1 1.用户指定分类类别数用户指定分类类别数k k(无经验(无经验时可以进行多次探索性分析)时可以进行多次探索性分析)2 2.SPSS.SPSS程序自动确定各类中心点程序自动确定各类中心点(有经验用户也可以自己定义)(有经验用户也可以自己定义)3 3.计算所有个案数据点到计算所有个案数据点到k k个类中个类中心点的欧氏距离心点的欧氏距离4 4.根据距离最近原则将个案归类,即根据距离最近原则将个案归类,即距离哪个类中心点最近归为哪个类距离哪个类中心点最近归为哪个类第12页,此课件共18页哦第一步:第一步:数据文件的准备。快速聚类分析的数据文件往往比数据文件的准备。快速聚类分析的数据文件往往比较大,主要是包括的个案数较多,而且可以包括一个个案的较大,主要是包括的个案数较多,而且可以包括一个个案的标识变量。当数据文件中数据量纲不一致时,则需要对数据标识变量。当数据文件中数据量纲不一致时,则需要对数据进行标准化转换或其它转换。进行标准化转换或其它转换。第二步:第二步:点击点击 “Analyze”菜单选中菜单选中“Classify”的的“K-MeansCluster”打开快速聚类分析对话框,将参与聚类分析的观测打开快速聚类分析对话框,将参与聚类分析的观测变量置入变量置入“Variable(s)”下的方框中,将个案标识变量的变量下的方框中,将个案标识变量的变量名置入名置入“Label Cases By”下的方框中,指定聚类的类别数下的方框中,指定聚类的类别数,同时在同时在“Method”之下选择默认的之下选择默认的“Iterate and Classify”,这,这样,程序可以自动确定类中心点。样,程序可以自动确定类中心点。快速聚类分析的主要步骤是:快速聚类分析的主要步骤是:第13页,此课件共18页哦第三步:第三步:点击点击“Options”打开统计参数显示对话框和缺省值处打开统计参数显示对话框和缺省值处理方式对话框。在理方式对话框。在“Statistics”之下有三方面的显示要求:之下有三方面的显示要求:Initial cluster centers:显示有关初始类中心点的数据;显示有关初始类中心点的数据;Anova table:对快速聚类分析产生的类作单因素方差分析,对快速聚类分析产生的类作单因素方差分析,并输出各个变量的方差分析表;并输出各个变量的方差分析表;Cluster information for each case:输出个案的分类信息及输出个案的分类信息及 距所属类中心点的距离。距所属类中心点的距离。其它操作以默认方式进行其它操作以默认方式进行第14页,此课件共18页哦 实例分析:为反映员工心理因素方面的差异性,某研究者调研了实例分析:为反映员工心理因素方面的差异性,某研究者调研了一工厂一工厂36名员工的名员工的6 项心理因素项心理因素,如下表所示。请根据这一分数对员工进,如下表所示。请根据这一分数对员工进行分类,并回答:员工分成几类比较理想?行分类,并回答:员工分成几类比较理想?Z1Z2Z3Z4Z5Z6Z1Z2Z3Z4Z5Z6666462505856536653595545555059595351615558615861504749454646596460525456555950545269556072605567555948564750565268405155625468464651595161565256606056535251605362554763525269585762525157455559565557394446565757525955505068464556685871685361585460595251605361605651535255576564645674505957525653576351675360535351566552516247565667675652506359535548534649435048635760665156535765526759564658504552604071575658475057495048544544494246SPSSSPSS过程演示过程演示第15页,此课件共18页哦练习题练习题1.为研究不同公司的运营特点,调查了为研究不同公司的运营特点,调查了 15 个公司的组织文化、组织氛围、个公司的组织文化、组织氛围、领导角色和员工发展领导角色和员工发展4个方面的内容。请将这个方面的内容。请将这15个公司按照其各自的特点个公司按照其各自的特点划分成划分成4种类型。数据如下表所示。种类型。数据如下表所示。不同公司的特点不同公司的特点公司公司组织文化组织文化组织氛围组织氛围领导角色领导角色员工发展员工发展MICROSOF80857590IBM85859090DELL85858560APPLE90907590联想联想99987880NPP88898990北京电子北京电子79809597清华紫光清华紫光89788182北大方正北大方正75789596TCL60658588娃哈哈娃哈哈79875051ANGEL75768889HUSSAR60568990世纪飞扬世纪飞扬1001008584VINDA61648960SPSSSPSS过程演示过程演示第16页,此课件共18页哦2.2.请每个同学都参加请每个同学都参加“人性的哲学修订量表人性的哲学修订量表”问卷调查,然后分别对参加调查问卷调查,然后分别对参加调查的同学和问卷项目进行类型划分。的同学和问卷项目进行类型划分。人性的哲学修订量表人性的哲学修订量表 说明:本问卷由一系列关于态度的陈述组成。每一陈述只是代表人们的一说明:本问卷由一系列关于态度的陈述组成。每一陈述只是代表人们的一种普遍观点,并没有对错之分。您可能同意某些观点却不同意另一些观点。我种普遍观点,并没有对错之分。您可能同意某些观点却不同意另一些观点。我们感兴趣的是您同意或不同意的程度如何。们感兴趣的是您同意或不同意的程度如何。仔细阅读每一陈述,然后针对每一陈述打一分数以表明你同意或不同意的程度。这仔细阅读每一陈述,然后针对每一陈述打一分数以表明你同意或不同意的程度。这些数值的意义如下:些数值的意义如下:6完全同意完全同意 5部分同意部分同意 4略微同意略微同意 3略微不同意略微不同意 2部分不同意部分不同意 1完全不同意完全不同意 回答这些问题时,往往第一印象最为恰当。阅读每一陈述,决定您是否同回答这些问题时,往往第一印象最为恰当。阅读每一陈述,决定您是否同意以及程度如何。务请回答每一问题。如您发现这些数值均不能反映你的观点,意以及程度如何。务请回答每一问题。如您发现这些数值均不能反映你的观点,请选择与你的观点最接近的数值。请选择与你的观点最接近的数值。问卷项目问卷项目第17页,此课件共18页哦第18页,此课件共18页哦