SPSS高级统计分析.pdf
《SPSS高级统计分析.pdf》由会员分享,可在线阅读,更多相关《SPSS高级统计分析.pdf(210页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、SPSS高级统计分析聚类分析聚类分析?为什么聚类??俗语说,物以类聚、人以群分?当有一个分类指标时,分类比较容易?但是多个指标时,进行分类就不是很容易了!?例如,对中国的区县进行分类:?自然条件:降水、土地、日照、湿度等?经济指标:收入水平、教育程度、医疗条件、基础设施等?平均的方法??容易忽视相对重要程度的问题?要进行多元分类聚类分析聚类分析?聚类分析基本目标?一种探索性的数据分析技术?基本目标:在数据中寻找某种“自然的”分组结构?应用举例?细分市场?消费行为划分?设计抽样方案聚类分析?方法原理?聚类分析就是要找出具有相似程度的点或类聚为一类?如何衡量这个“相似程度”??根据距离来确定?“距
2、离”含义很广:?如欧式距离,马氏距离,相似系数聚类分析?聚类分析分类?根据分析对象:?R型聚类对变量(指标)进行聚类?Q型聚类对观测对象(个体、样品)进行聚类?根据方法:?系统聚类(Hierarchical Clustering)?非系统聚类?K均值聚类?两步聚类注:没有什么聚类方法,具有绝对优势可选择适当的距离,计算距离可选择适当的距离,计算距离合并最近的两类为一新类合并最近的两类为一新类计算新类与当前各类的距离计算新类与当前各类的距离判断判断画聚类图画聚类图根据实际情况,确定类和类的个数根据实际情况,确定类和类的个数仅有一个类仅有一个类不是仅有一个类不是仅有一个类采用系统聚类法采用系统聚类
3、法聚类分析把每个样品看成一类,构成把每个样品看成一类,构成N个类个类?系统聚类聚类分析?系统聚类方法可应用多种距离衡量个体/变量的相似性?利用哪种距离聚类取决于:?所分析的数据类型?哪种距离对于聚类最具有解释意义?距离包括:?最短距离法Nearest Neighbor(Single Linkage)?最长距离法Furthest Neighbor(Complete Linkage)?重心法Centroid Clustering?类平均法Betweengroups Linkage?离差平方和法Wards Method 此外还有中间距离(Median Clustering)、类内平均法(Within
4、-Groups Linkage)等聚类分析?最短距离法Nearest Neighbor?对离群值不敏感聚类分析?最长距离法Furthest Neighbor?对离群值不敏感聚类分析?重心法Centroid Method?对离群值不敏感?不适用于噪声数据?类平均法Between-Groups Linkage?对离群值敏感?在多数情况下,可以取得较好的聚类结果?可很好地应用于有噪声数据聚类分析?重心法Centroid Method?离群值敏感?可适用于噪声数据?趋向于把观测分成数目近乎相等的类群聚类分析?重心法Centroid Method?离群值敏感?可适用于噪声数据?趋向于把观测分成数目近乎相
5、等的类群聚类分析聚类分析聚类分析?非系统聚类?K-均值聚类?TwoStep 聚类聚类分析?非系统聚类?K均值聚类?首先,选择n个数值型变量参与聚类分析,最后要求的聚类数为k个?其次,由系统选择k个(聚类的类数)观测量(也可由用户指定)作为聚类的种子?第三,按照距离这些类中心的距离最小的原则把所有观测量(样品)分派到各类重心所在的类中去?第四,这样每类中可能由若干个样品,计算每个类中各个变量的均值,以此作为第二次迭代的中心?第五,然后根据这个中心重复第三、第四步,直到中心的迭代标准达到要求时,聚类过程结束聚类分析?非系统聚类?K均值聚类?K均值聚类的速度快于系统聚类,是处理大型数据集聚类的常用方
6、法?内存占用小?由于要事先选定聚类数,所以要尝试多次,以找出最佳聚类聚类分析?非系统聚类?TwoStep 聚类?可有效地分析大型数据集?可处理分类、定量型数据?可自动确定聚类数目?TwoStep 聚类过程?Pre-cluster Step?生成聚类特性树?Clustering Step?根据聚类准则确定最终聚类?TwoStep 聚类的一些假定?连续型变量不相关,并服从正态分布?分类型变量不相关,并服从多项分布?比较稳健,不满足上述假设时,有时也可以得到很好的结果聚类分析?距离&变量标准化?距离:SPSS根据数据类型,提供不同的观测/变量的距离或相似性度量?Interval?Counts?Bin
7、ary?变量标准化:对变量进行聚类时,是否要进行标准化??当聚类的变量的测度水平存在很大差异时?注,当以对数似然函数的改变量作为距离的度量时,则可以不用考虑标准化问题实例分析?系统聚类分析系统聚类分析?数据说明:Beer.sav?数据记录了对20种啤酒的评级。对于酒的评价包括客观的和主观的?客观评价如:酒精的百分含量、卡路里、钠/mg,每12盎司成本?主观评价如:对酒的质量评级?我们感兴趣的是,能否根据客观的测度将啤酒分成几类。例如,也许一些啤酒具有高卡路里、高酒精含量和成本。这些啤酒是否具有较高的质量评级呢?是否这些集中于某个国家呢?实例分析?认识数据?是否需要对客观评价指标进行标准化??A
8、nalyze-Descriptive Statistics-Descriptive实例分析So large So large differencesdifferences!实例分析?AnalyzeClassify-Hierarchical Cluster预测变量预测变量!实例分析?Statistics?Continue实例分析?Plots?Continue实例分析?Method?Continue利用标准化变量进行聚类实例分析?Save?Continue?Ok实例分析?输出实例分析?系统树图?根据图形能将啤酒分成三类(或许四类)?实例分析实例分析?进一步探讨?从输出结果,不能非常确定聚成几类?解
9、决办法:借助新生成的聚类标识变量,作进一步的分析?。?Analyze-Descriptive Statistics-Frequencies实例分析实例分析?输出Average Linkage(Between Groups)1890.090.090.0210.010.0100.020100.0100.012TotalValidFrequencyPercentValid PercentCumulativePercentAverage Linkage(Between Groups)1470.070.070.0420.020.090.0210.010.0100.020100.0100.0123Tota
10、lValidFrequencyPercentValid PercentCumulativePercentAverage Linkage(Between Groups)945.045.045.0420.020.065.0525.025.090.0210.010.0100.020100.0100.01234TotalValidFrequencyPercentValid PercentCumulativePercentAverage Linkage(Between Groups)945.045.045.0315.015.060.0525.025.085.015.05.090.0210.010.010
11、0.020100.0100.012345TotalValidFrequencyPercentValid PercentCumulativePercent2类3类5类4类实例分析实例分析?从以上的分析中,似乎聚类为4的方案相对合理些?如何解释各个类群??Analyze-Reports-Case Summaries实例分析实例分析?输出实例分析实例分析?利用Case Summaries枢轴表,创建各类群的预测变量的均值剖面图?双击Case Summaries pivot table实例分析实例分析?输出实例分析实例分析?主观评价指标是否与我们的聚类结果一致??价格高的啤酒(比如进口啤酒)一定比成本
12、较低、口味较淡的啤酒(lighter beers)评价更高??Analyze-Descriptive Statistics-Crosstabs实例分析实例分析?Cells实例分析实例分析?输出实例分析实例分析?结论结论?初步结果?似乎由客观预测变量得出的对啤酒的聚类结果,与根据主观评价的划分是一致的?有了类群ID的变量,可以进行各类群与其它变量之间的关系探察?为了得到更为准确的结果,可以利用不同的聚类方法进行验证?不要为对于聚类结果没有最终的检验感到失望,因为聚类分析是一种探索性分析方法实例分析实例分析?K-均值聚类K-均值聚类?数据说明:Usage.sav?数据是关于SPSS一些产品模块使用
13、情况的调查数据,每位被调查者被要求在SPSS的部分产品模块的列表中,选出他们使用模块。这些产品模块包括Basic,Professional Statistics,Advanced Statistics,Times,Presentation Tables,Perceptual Maps,Automatic Interaction Detection,Mapping和Neural Net作为调查的一部分,我们还调查了许多其它问题。不过在这个数据集中,只包括了jobarea.数据共310个记录?问题:?能否把我们的顾客根据他们的产品使用情况分成几个不同的组?如果可以做到,那么就可以根据不同的客户群制
14、定不同的营销方案注:该调查是基于注:该调查是基于SPSS11.5以前的调查,一些模块的名字已经发生改动以前的调查,一些模块的名字已经发生改动实例分析实例分析?认识数据?输出实例分析实例分析?建立K-均值聚类?聚多少类??熟悉研究领域/很熟悉数据?系统聚类,结合其系统树图和聚合表界定一个初步范围?进行一系列不同类群数目的K-均值聚类并结合一些准则来确定?结合TwoStep聚类?本例中,我们将演示3个类群的k-均值聚类,事实上经过实践表明,聚成2、4、5、8、10类,都不是很理想?练习:尝试建立不过聚类的k-均值聚类实例分析实例分析?Analyze-Classify-K-means Cluster
15、前者对数据进行K-均值聚类,后者用于把额外的观测分到已生成的类别中实例分析实例分析?Save?Options实例分析实例分析?输出Jack-of-Jack-of-all-tradesall-trades实例分析实例分析?输出F值越大越F值越大越重要重要实例分析实例分析?是否每个类群大到足可以引起关注??存在离群点吗?营销营销实例分析实例分析?进一步通过图形对三个类群比较?利用Final Cluster CentersTechnical Technical AnalystAnalystPresentersPresenters实例分析实例分析?总结?可以指定不同类群数,进行k-均值聚类?通过比较,
16、确定最佳聚类方案?确定了有意义的类群后,进行商业角度(营销、销售)的分析以及不同群体和其它变量(如,人口统计学变量)的关系?例如,对类群与行业、地区,或者工作领域进行交叉列表分析实例分析实例分析?TwoStep聚类TwoStep聚类?数据说明:Telcom.sav?问题?根据顾客的电话使用情况(时间和计划)进行聚类实例分析实例分析?满足TwoStep聚类的假定吗?0204060Longdistance call050100150200Minutes实例分析实例分析?Analyze-Classify-TwoStep Cluster有分类型预测变量时,欧式距离不可用!实例分析实例分析?Plots哪
17、个预测变量哪个预测变量在类群的形成在类群的形成中,具有决定中,具有决定性作用?性作用?实例分析实例分析?Output实例分析实例分析?输出No small clusters contain outliers!实例分析实例分析?输出实例分析实例分析?类群概括实例分析实例分析?Within Cluster Percentage实例分析实例分析?Within Cluster Percentage实例分析实例分析?各预测变量对各类群的影响练习练习?数据:Usage.sav?要求?利用K均值聚类把数据集分为4类,对每个类别进行描述(利用所学过的描述性统计),您能对这四类进行解释吗??利用two-step
18、对以上数据集进行聚类,把关于usage的变量都作为分类变量处理。聚类结果聚为几类了?根据每一类的特征,描述每个类群判别分析判别分析?为什么进行判别分析??在一个企业破产之前的两年内,曾对某些财务变量的极端值进行了观测。根据这些领先指标的观测值,另一个企业的官员便可对企业的状态是否健康做出判断,并在必要时采取及时的纠正?许多疾病只有通过非常昂贵的手术才能够确诊。通常,我们希望通过某些容易观测的外部症状来诊断某种疾病。这种方法有助于避免不必要的(而且是昂贵的手术)?电池的寿命只能通过使用直到将它用坏时才能确定;一块钢材的强度只能通过在其上加载荷,直到它锻炼时才能得到,然而被毁坏的产品不能出售。为避
19、免上述情况,人们希望根据产品的某些事先测量值将它们分成“好”与“坏”判别分析?判别分析基本目标?一种探索性的数据分析技术?基本目标:构建已知类别个体的特征函数,对未知个体分类?判别分析 Vs 聚类分析?聚类分析中一般人们事先不知道或一定要明确应该分成几类,完全根据数据来确定?判别分析中,至少有一个已经明确知道类别的“训练样本”,利用这个数据建立判别准则,并通过预测变量来为未知类别的观测值进行类别判别分析?应用举例?银行确定是否给新客户提供信用贷款?判断哪些客户会买公司的产品?判断财产责任保险公司的偿付能力?临床医学中判断患有某种疾病?根据财务指标判断企业是否会破产?气象人员根据收集到的气象信息
20、判断近日内天气是晴、是阴、还是雨判别分析?基本思路?设有G1、G2、G3、G4、G5、Gk个总体?从不同的总体中抽出不同的样本?根据样本建立判别法则判别新的样品属于哪一个总体?当然,根据不同的方法,建立的判别法则也是不同的?常用的判别方法有:最大似然/概率方法、Fisher判别、距离判别判别分析?常用判别方法?最大似然/概率方法:?把贝叶斯思想应用于判别分析,根据待判个体的后验概率进行分类?后验概率的计算依赖于多元正态分布的假定?Fisher判别:?基本思想是投影,将k组m维数据投影到一个方向,使得投影后组与组之间尽可能地分开?距离判别:?对新样品求出他们离各个类别重心的距离远近?常用的距离包
21、括欧式距离、马氏距离等。但是欧式距离比较粗糙,SPSS中的距离判别采用的是马氏判别Fisher 判别判别分析?相关假定?自变量(预测变量)可以为连续和分类型变量?每组均来自多元正态分布?各组的协方差矩阵应当相等判别分析?分析技巧?观测的个数至少为预测变量的1020倍?具有最小观测的群体的个体数目应至少为预测变量的5倍?出于简约的原则,有统计学家建议最后建立的预测模型只包含8-10个预测变量?利用马氏距离检验是否存在离群点?共线性的问题会影响判别函数的系数,通常对判别的结果影响不大。当利用逐步判别时,会有较大影响实例分析?两总体的判别分析两总体的判别分析?数据说明:CSM.sav?该数据集用以进
22、行客户满意度研究。数据提供了已经购买VCR的客户的人口统计学信息,对产品的各个方面关于满意度的评价,以及是否会购买公司其它VCR产品。我们要分组变量是buyyes(1Not Likely,2Likely)?目的:确定一组人口统计学和表示看法的变量,对判定客户是否会购买其它VCR产品具有最佳的预测作用实例分析?认识数据?数据是否满足判别分析的假定??各组的协方差矩阵相等?Analyze-Descriptive Statistics-Explore实例分析?输出实例分析?输出实例分析?判别分析?Analyze-Classify-Discriminant?Buyyes-grouping variab
23、les,indenpent:age conplaineduc fail pinnovat preliabl puse qual use value实例分析?Statistics实例分析?Classify实例分析?Save实例分析?输出实例分析?协方差矩阵检验协方差矩阵协方差矩阵存在差异存在差异实例分析?判别系数实例分析?分类结果实例分析实例分析?分类结果实例分析?扩展分析扩展分析?如何解决?协方差矩阵协方差矩阵存在差异存在差异实例分析?Discriminant-Classify实例分析?结果是否有改进?SeparateWithin实例分析?Fisher 判别函数SeparateWithin实例
24、分析?分类准确率能否进一步提高??判别分析不同于回归,往往随着预测变量的增加而准确率降低?Discriminant Analysis实例分析实例分析?分类结果的更详细信息?Discriminat Analysis-Classify实例分析?输出实例分析?关于先验概率?Discriminat Analysis-Classify等先验概率等先验概率的假定合理的假定合理吗?吗?实例分析?判别准确率是否提高?实例分析?模型校验?分割已知数据集为训练集和测试集?“Leave-One-Out”方法实例分析?模型校验?分割已知数据集?TransformRandom Number Generators实例分析
25、?模型校验?分割已知数据集?Transform-Compute实例分析?模型校验?分割已知数据集?Discriminant Analysis实例分析?输出实例分析?模型校验?“Leave-One-Out”方法?Discriminant Analysis实例分析?输出判别分析?关于逐步判别分析?每一步预测变量的选择基于Wilks lambda最小原则?逐步选择的方法用以选择相对重要的预测变量?逐步判别分析的弊端:?所选择的预测变量是基于当前数据集?根据某种最小准则,而不是以预测准确度为目的练习?数据:CSM.sav?要求:?同样与buyyes作为判别的目标变量,选择与本章讲义中同样的变量子集作为
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SPSS 高级 统计分析
限制150内