SPSS学习课件学习.pptx
《SPSS学习课件学习.pptx》由会员分享,可在线阅读,更多相关《SPSS学习课件学习.pptx(128页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、2023/3/2011 2、非参相关分析 如果数据不满足正态分布的条件,应使用Spearman 和Kendall相关分析方法1)Spearman相关系数是Pearson相关系数的非参形式,是根据数据的秩而不是根据实际值计算的。它适合有序数据或不满足正态分布假设的等间隔数据。计算时,必须对连续变量值排秩,对离散变量排序。其计算公式为:式中,Ri是第i个x值的秩,Si是第i个y值的秩。、分别是Ri和Si的平均值。第1页/共128页2023/3/20122)Kendalls tau-b也是一种对两个有序变量或两个秩变量间的关系程度的测量,因此也属于一种分参测度。分析时考虑金额结点(秩次相同)的影响。
2、计算公式:其中,If z0If z0If z=0ti(或ui)是x(或y)的第i组结点x(或y)值的数目,n为观测量数。第2页/共128页2023/3/2013相关系数统计意义的检验 相关系数检验的零假设:总体中两个变量间的相关系数为0。SPSS相关分析过程给出了该假设成立的概率。Pearson和Spearman相关系数假设检验t值计算公式:相关系数的取值介于-1和=1之间,2个变量之间的相关系数为-1,则为绝对负相关;2个变量之间的相关系数为1,则为绝对正相关;2个变量之间的相关系数为0,则表示二者没有关联。式中r是相关系数,n为样本观测数量,n2为自由度。第3页/共128页2023/3/2
3、014观测 号12345678910体重(克)83726990909590917570鸡冠重(毫克)564218845610790683148表81 连续变量相关分析实例数据表一、连续变量的相关分析实例 例:十只小鸡的体重与鸡冠的数据如表81所示(数据文件:1小鸡(相关).sav):例题分析例题分析第4页/共128页2023/3/2015图81 双变量相关主对话框1、分析步骤选择选择weight weight 和和coronarycoronary变量进变量进入入 变量框中;在相关系数栏内变量框中;在相关系数栏内选择选择PearsonPearson;在显著性检验栏;在显著性检验栏选择选择“双侧检
4、验双侧检验”;复选;复选“标记标记显著性相关显著性相关”2)输入数据,依次单击分析输入数据,依次单击分析相关相关双变量相关,打开主对话框双变量相关,打开主对话框1)第5页/共128页2023/3/2016CORRELATIONS /VARIABLES=weight coronary /PRINT=TWOTAIL NOSIG /STATISTICS DESCRIPTIVES XPROD /MISSING=PAIRWISE.注:如在这一步单击“粘贴”,打开Syntax对话框,然后,单击Syntax窗口的Run图标即可开始分析。图82双变量相关选项对话框 单击选按钮,选择单击选按钮,选择“均值和标均
5、值和标准差准差”、“差积偏差和的方差差积偏差和的方差”、“成对排除个案成对排除个案”选项选项 单击确定单击确定3)第6页/共128页2023/3/2017表82 描述性统计量表 从表中可看出,变量weight的均值为82.50,标准差为10.014,观测数为10;变量coronaryt的均值为60.00,标准差为27.596,观测数为10;2、结果分析第7页/共128页2023/3/2018 从表中可看出,Pearson相关系数为0.865,即小鸡的体重与鸡冠的相关系数为0.865,这两者之间不相关的双尾检验值为0.001。体重观测值的协方差为100.278,而鸡冠重观测值的协方差为761.5
6、56,体重和鸡冠重的协方差为239.111。从统计结果可得到,小鸡的体重与鸡冠重之间存在正相关关系,当小鸡的体重越大时,则小鸡的鸡冠越重。并且,否定了小鸡的体重与鸡冠重之间不相关的假设。表83 Pearson相关系数距阵第8页/共128页2023/3/2019例:为研究集团迫使个人顺从的效应,一些研究者用F量表和为测量地位欲而设计的一种量表对12名大学生进行调查。欲知道对权威主义的评分之间相关的信息。(数据文件:2权威(Spearman相关).sav)结果列于表84学生ABCDEFGHIJKL权威主义265110983412711地位欲342181110671259表84权威主义和地位欲评秩二
7、)、有序变量的Spearman分析实例第9页/共128页2023/3/201101、分析步骤图83 双变量相关主对话框图84 双变量相关选项对话框 单击选按钮,选择单击选按钮,选择“均值和标准差均值和标准差”、“差积偏差和的方差差积偏差和的方差”、“成对成对排除个案排除个案”选项选项 单击确定单击确定3)选择选择powerpower和和position position 变量进入变量变量进入变量框;在相关系数栏内选择框;在相关系数栏内选择SpearmanSpearman选选项;在显著性检验栏选择项;在显著性检验栏选择“双侧检验双侧检验”;复选;复选“标记显著性相关标记显著性相关”2)输入数据,
8、依次单击分析输入数据,依次单击分析相关相关双双变量,打开双变量相关主对话框变量,打开双变量相关主对话框1)第10页/共128页2023/3/20111 从表中可看出,权威主义和地位欲的相关系数为0.818,这表明权威主义越高的人地位欲也越高。权威主义与地位欲不相关的假设检验值为0.001,否定假设,即权威主义与地位欲是相关的。表85 Spearman秩相关系数2、结果分析第11页/共128页2023/3/20112(三)、有序变量的Kendall分析实例 仍用前例中的数据(数据文件:权威(Spearman相关).sav)。操作过程相同,只是在第2)步在Correlation Coefficie
9、nts栏内选择Kendalls选项。结果如表86表86 Kendalls 秩相关系数 从表中可看出,权威主义和地位欲的相关系数为0.667,这表明权威主义越高的人地位欲也越高。权威主义与地位欲不相关的假设检验值为0.003,否定假设,即权威主义与地位欲是相关的。Kendall相关分析所得到的结果类似于Spearman分析。第12页/共128页2023/3/20113自己动手啊!自己动手啊!实践8-1 下列数据为12位学生的体重与血压,现要了解学生的体重与血压是否相关。编号体重血压1234567891011126848566083566259775875649598879611015513512
10、8113168120115链接链接数据文件见“课堂练习”8章中的“相关1.sav”第13页/共128页2023/3/201148.2 偏相关分析偏相关的概念 简单相关分析计算两个变量间的相关系数,分析两个变量间线性关系的程度。往往因为第三个变量的作用,使相关系数不能真正反映两个变量间的线性程度。例如身高、体重与肺活量之间的关系如果使用Pearson相关分析计算相关系数,可以得出肺活量与身高和体重均存在较强的线性关系。但实际上,如果对体重相同的人,分析身高和肺活量。是否越长的高的人,肺活量越大呢?显然,答案是否定的。正是因为身高与体重有着线性关系,体重与肺活量存在线性关系,因此,得出身高与肺活量
11、之间存在着较强的线性关系的错误结论。第14页/共128页2023/3/20115 偏相关分析的任务是在研究两个变量之间的线性相关关系时控制可能对其产生影响的变量。例如,可以控制年龄和工作经验两个变量的影响,估计工资收入与受教育程度之间的相关关系。可在控制销售能力与各种其它经济指标的情况下研究销售量与广告费用的关系等。第15页/共128页2023/3/20116偏相关系数的计算 控制了变量z,变量x、y之间的偏相关和控制了两个变量z1、z2,变量x、y之间的偏相关系数计算公式分别为:rxy,z是控制了z的条件下,x、y之间的偏相关系数。rxy是变量x、y间的简单相关系数或称零阶相关系数。rxz、
12、ryz分别是变量x、z间的和变量y、z间的简单相关系数,依此类推。偏相关系数的检验偏相关系数检验方法同相关系数检验方法。第16页/共128页2023/3/20117 下图为四川绵阳地区3年生中山柏的数据,分析月生长量与月平均气温、月降水量、月平均日照时数、月平均湿度这4个气候因素哪个因素有关。例 (数据文件:3偏相关)图85四川绵阳地区3年生中山柏的数据例题分析例题分析第17页/共128页2023/3/201181、分析步骤PARTIAL CORR /VARIABLES=hgrow hsun BY humi rain temp /SIGNIFICANCE=TWOTAIL /STATISTICS
13、=DESCRIPTIVES CORR /MISSING=LISTWISE.图86 偏相关分析主对话框单击单击“粘贴粘贴”,在,在SyntaxSyntax窗窗口中生成第一次分析的程序:口中生成第一次分析的程序:4)选择双尾检验,显示实际的显著性概率选择双尾检验,显示实际的显著性概率3)确定第一次分析的变量和控制变量:选择确定第一次分析的变量和控制变量:选择生长生长量与月平均日照时数(量与月平均日照时数(hgrow hgrow 和和hsunhsun)进入变进入变量框中;选择量框中;选择月平均湿度月平均湿度(humi)(humi)、降雨量、降雨量(rain)(rain)、月平均气温、月平均气温(te
14、mptemp)作为控制变量)作为控制变量2)输入数据,依次单击分析输入数据,依次单击分析相关相关偏相关,打偏相关,打开偏相关对话框开偏相关对话框1)第18页/共128页2023/3/20119 复制与修改程:在Syntax窗口中选择第一次偏相关分析程序,复制并粘贴4次 在后三段程序中删除了 STATISTICS 子命令,因为只要执行一次该子命令,就给出所有变量的统计量。在Syntax窗口菜单中选择“运行”“全部”,提交运行。CORRELATIONS /VARIABLES=hgrow hsun humi rain temp /PRINT=TWOTAIL NOSIG /STATISTICS=DES
15、CRIPTIVES /MISSING=LISTWISE.PARTIAL CORR /VARIABLES=hgrow hsun BY humi rain temp /SIGNIFICANCE=TWOTAIL /MISSING=LISTWISE.PARTIAL CORR /VARIABLES=hgrow humi BY hsun rain temp /SIGNIFICANCE=TWOTAIL /MISSING=LISTWISE.PARTIAL CORR /VARIABLES=hgrow rain BY hsun humi temp /SIGNIFICANCE=TWOTAIL /MISSING=LI
16、STWISE.PARTIAL CORR /VARIABLES=hgrow temp BY hsun humi rain /SIGNIFICANCE=TWOTAIL /MISSING=LISTWISE.第19页/共128页2023/3/201202、分析结果与解释与结论为基本描述统计量:各因素的均值、标准差合样本数表87 基本描述统计量表第20页/共128页2023/3/20121 为零相关矩阵,可看出生长量与湿度的相关系数最小,显著性检验结果是不相关的概率为23,生长量与月平均湿度无关。与其他几个气候因素均有明显的线性关系。由于各气候因素的相互影响,生长量与各变量间的相关系数并未反映出各变量间
17、的真实情况,因此应看偏相关的结果。表88 相关性表第21页/共128页2023/3/20122表89 偏相关分析结果生长量与月平均日照时数的偏相关生长量与月平均湿度的偏相关第22页/共128页2023/3/20123生长量与月平均气温的偏相关生长量与降雨量的偏相关第23页/共128页2023/3/20124 根据上表可得出:中山柏生长量与气温关系最密切,相关系数0.9774,显著性水平为0.000;其次是湿度,相关系数0.7310,假设成立的概率为2.5;显著性水平为0.000;日照时数,相关系数0.6318,不相关的概率为6.8。与降雨量没有线性关系。由上可看出,偏相关分析结果与简单相关分析
18、结果会有很大区别。TEMPHUMIHSUNRAINHGROW0.97740.73100.6318-O.4906DF7777P0.0000.0250.6800.180表810 偏相关分析汇总结果第24页/共128页2023/3/20125自己动手啊!自己动手啊!实践8-282、保险业为了研究客户性格的效应,用量表对12个客户进行调查。现想了解对权威(Power)欲的评分和对地位欲(Position)的评分之间相关的信息。(次序型变量的Spearman分析)编号Powerposition12345678910111237621110945138124532912117813610链接链接数据文件见
19、“课堂练习”8章中的“相关2.sav”第25页/共128页2023/3/201268.3 8.3 距离分析距离分析距离分析概述 距离分析是对观测量之间或变量之间相似或不相似程度的一种测度。是计算一对变量之间或一对观测量之间的广义距离。距离分析可用于因子分析、聚类分析、或多维定标分析,有助于分析复杂的数据集。例如,可以根据汽车的一些特性,如发动机的大小、每加仑汽油能行驶的距离和马力来测度两种汽车的相似性等。第26页/共128页2023/3/20127有关的统计量 1、不相似性测度 1)对等间隔数据的不相似性(距离)测度可使用的统计量:Euclidean distanace(欧氏距离)、Squar
20、ed Euclidean distanace(欧氏距离平方)、Chebychev(切贝谢夫)、Block(区组)、Minkowski(明可斯基)或Customized(自定义)统计量。2)计数数据,使用卡方或斐方(方)3)对二值数据,使用欧氏距离、欧氏距离平方、尺寸差异、模式差异、方差、形或兰斯和威廉斯等距离统计量。2、相似性测度 1)等间隔数据使用统计量皮尔逊相关或余弦。2)测度二元数据相似性使用的统计量有20余种。第27页/共128页2023/3/20128 例:下图是市场上销售 汽车的一些基本情况。(数据文件:4car(距离).sav)图87 汽车销售基本情况例题分析例题分析第28页/共
21、128页2023/3/201291、分析步骤图88 距离分析主对话框 将分析数据表中的三个变量:mpg(每加伦汽油能行驶的距离)、engine(发动机)、horse(马力)、weight(重量)、accel(加速时间)、year(发明时间)、origin(来源国家 cylinder(气缸数)等。现要根据每加伦汽油能行驶的距离、重量、加速时间来进行分类,以区别那些汽车比较类似。选择选择weightweight、mpg mpg 和和accelaccel变量进入变量进入变量框中;在计算距离变量框中;在计算距离 栏选择变量栏选择变量间;在度量栏内选择不相似性选项间;在度量栏内选择不相似性选项2)输入数
22、据,依次单击分析输入数据,依次单击分析相关相关距离,打开距离,打开 距离主对话框距离主对话框1)第29页/共128页2023/3/20130图89 距离分析非相似性对话框 单击单击“度量度量”按钮,打开不相似性度量对话框。在框按钮,打开不相似性度量对话框。在框内选择内选择Euclidean Euclidean 距离、重新标度到距离、重新标度到 0 0 1 1全距全距 单击确定单击确定3)第30页/共128页2023/3/201312、分析结果与解释与结论 从表811可看出,有效观测为398个,带缺省值的观测为8个,共406观测。表811 变量的基本信息表第31页/共128页2023/3/201
23、32表812 距离距阵 表812中,汽车重量和加速时间之间的距离为1.000,汽车重量和每加伦汽油能行驶的距离之间的距离为0.998。第32页/共128页2023/3/20133自己动手啊!自己动手啊!实践8-383、不同的赛艇的性能数据如下。根据每加仑汽油能行驶的距离、重量、加速时间来进行分类,以区别那些赛艇补缴类似。(距离分析)链接链接数据文件见“课堂练习”8章中的“相关3.sav”第33页/共128页2023/3/20134第九章第九章 聚类分析与判别分析聚类分析与判别分析回目录回目录第34页/共128页2023/3/201359.1 聚类分析与判别分析概述聚类分析1、样本聚类 又称为Q
24、型聚类。是根据被观测对象的特征,即反映被观测对象的特征的各变量值进行分类。例如,使用k-Mean聚类分析,可根据对电视机外观偏好的特点把电视机外观分为k组,并把该结果用于确定营销市场的分类。聚类分析(Cluster Analysis)是根据事物本身的特性研究个体分类的方法。聚类分析的原则是同一类中的个体有较大的相似性,不同类中的个体差异很大。第35页/共128页2023/3/201362、变量聚类 又称为R型聚类。进行变量聚类,可找出彼此独立且具有代表性的自变量,而又不丢失大部分信息。例如,制衣业制定衣服型号是根据人体各部分尺寸数据找出最有代表性的指标,如身长、胸围、裤长、腰围等作为衣服的代表
25、性指标。判别分析 判别分析是根据表面事物特点的变量值和它们所属的类,求出判别函数,根据判别函数对未知所属类别的事物进行分类的一种分析方法。例如,可根据啤酒中含有的酒精成分、钠成分及所含热量数值对啤酒进行分类。判别分析与聚类分析不同点在于,判别分析要求已知一系列反映事物特征的数值变量的值,并且已知各个体的分类。第36页/共128页2023/3/20137 1、距离:是指两个事物离的多远的测量,通常将每一个样品看成m维(变量个数)空间中的一个点,在m维空间定义点与点之间的距离,距离较近的点归为同一类,较远的则归为不同的类。几个术语 2、相似系数:是是指两个事物离的多近的测量,性质越接近的样品,它们
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SPSS 学习 课件
限制150内