第9章 spss的相关分析和线性回归分析.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《第9章 spss的相关分析和线性回归分析.ppt》由会员分享,可在线阅读,更多相关《第9章 spss的相关分析和线性回归分析.ppt(52页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第第9章章 spss的相关分析和线的相关分析和线性回归分析性回归分析n相关分析和回归分析是统计分析方法中最重要内容相关分析和回归分析是统计分析方法中最重要内容之一,是多元统计分析方法的基础。相关分析和回之一,是多元统计分析方法的基础。相关分析和回归分析主要用于研究和分析变量之间的相关关系,归分析主要用于研究和分析变量之间的相关关系,在变量之间寻求合适的函数关系式,特别是线性表在变量之间寻求合适的函数关系式,特别是线性表达式。达式。n本章主要内容:本章主要内容:n对变量之间的相关关系进行分析(对变量之间的相关关系进行分析(CorrelateCorrelate)。)。其中包括简单相关分析(其中包括
2、简单相关分析(BivariateBivariate)和偏相关分)和偏相关分析(析(PartialPartial)。)。n建立因变量和自变量之间回归模型(建立因变量和自变量之间回归模型(RegressionRegression),),其中包括线性回归分析(其中包括线性回归分析(LinearLinear)和曲线估计)和曲线估计(Curve EstimationCurve Estimation)。)。n数据条件:参与分析的变量数据是数值型变量或数据条件:参与分析的变量数据是数值型变量或有序变量。有序变量。本章内容本章内容9.1 9.1 相关分析相关分析9.2 9.2 偏相关分析偏相关分析9.3 9.
3、3 线性回归分析线性回归分析9.4 9.4 曲线估计曲线估计9.5 9.5 二项二项LogisticLogistic回归回归n相关分析用于测量了解变量之间的密切程度。如:教育相关分析用于测量了解变量之间的密切程度。如:教育事业的发展与科学技术的发展存在着一定的关系,学生事业的发展与科学技术的发展存在着一定的关系,学生的数学成绩与物理成绩存在着一定的关系,相关分析就的数学成绩与物理成绩存在着一定的关系,相关分析就是要分析这种密切程度。是要分析这种密切程度。n相关类型:相关类型:1 1、直线相关:两变量呈线性共同增大,或一增一减。、直线相关:两变量呈线性共同增大,或一增一减。2 2、曲线相关:两变
4、量存在相关趋势,但非线性。此时若、曲线相关:两变量存在相关趋势,但非线性。此时若进行直线相关,有可能出现无相关性的结论,曲线相关进行直线相关,有可能出现无相关性的结论,曲线相关分析是一般都先将变量进行变量变换,以将趋势变换为分析是一般都先将变量进行变量变换,以将趋势变换为直线分析,或者采用曲线回归方法来分析。直线分析,或者采用曲线回归方法来分析。n相关的方向相关的方向依照两种变量变动的方向分,有正相关、负相关和依照两种变量变动的方向分,有正相关、负相关和无相关(零相关)。无相关(零相关)。相关分析基本步骤:相关分析基本步骤:n1.1.绘制散点图绘制散点图n2.2.计算相关系数计算相关系数n3.
5、3.进行相关系数检验进行相关系数检验n如如果果两两个个定定量量变变量量没没有有关关系系,就就谈谈不不上上建建立立模模型型或或进进行行回回归归。但但怎怎样样才才能能发发现现两两个个变变量量有有没没有有关关系呢?系呢?n最最简简单单的的直直观观办办法法就就是是画画出出它它们们的的散散点点图图。下下面面是是四四组组数数据据的的散散点点图图;每每一一组组数数据据表表示示了了两两个个变变量量x x和和y y的样本。的样本。第第1点点不相关不相关 正线性相关正线性相关 负线性相关负线性相关 相关但非线性相关相关但非线性相关 n但但如如何何在在数数量量上上描描述述相相关关呢呢?下下面面引进几种对相关程度的度
6、量。引进几种对相关程度的度量。nPearson相关系数相关系数nSpearman 秩相关系数秩相关系数nKendall t t 相关系数相关系数nPearsonPearson相相 关关 系系 数数(Pearsons Pearsons correlation correlation coefficientcoefficient)又又叫叫相相关关系系数数或或线线性性相相关关系系数数。它它一一般般用用字母字母r r表示。表示。它是由两个变量的样本取值得到,这是一个它是由两个变量的样本取值得到,这是一个描述线性相关强度的量,取值于描述线性相关强度的量,取值于-1-1和和1 1之间。当之间。当两个变量有
7、很强的线性相关时,相关系数接近两个变量有很强的线性相关时,相关系数接近于于1 1(正相关)或(正相关)或-1-1(负相关),而当两个变量(负相关),而当两个变量不那么线性相关时,相关系数就接近不那么线性相关时,相关系数就接近0 0。PearsonPearson相关系数的局限性:相关系数的局限性:要求变量服从正态分布要求变量服从正态分布只能度量线性相关性,对于曲线相关等更为复杂的只能度量线性相关性,对于曲线相关等更为复杂的情形,该相关系数的大小并不能代表相关性的强弱。情形,该相关系数的大小并不能代表相关性的强弱。如果如果PearsonPearson系数很低,只能说明两变量之间没有线系数很低,只能
8、说明两变量之间没有线性关系,并不能说明两者之间没有相关关系。也就是性关系,并不能说明两者之间没有相关关系。也就是说,该指标只能度量说,该指标只能度量线性线性相关性,而不是相关性。相关性,而不是相关性。(线性相关性隐含着相关性,而相关性并不隐含着线(线性相关性隐含着相关性,而相关性并不隐含着线性相关性)性相关性)另外:另外:样本中存在的极端值对样本中存在的极端值对Pearson相关系数的影相关系数的影响极大,因此要慎重考虑和处理,必要时可以对其进响极大,因此要慎重考虑和处理,必要时可以对其进行剔出,或者加以变量变换,以避免因为一两个数值行剔出,或者加以变量变换,以避免因为一两个数值导致出现错误的
9、结论。导致出现错误的结论。Spearman Spearman 秩相关系数秩相关系数 它和它和PearsonPearson相关系数定义有些类似,相关系数定义有些类似,只不过在定义中把点的坐标换成各自样本只不过在定义中把点的坐标换成各自样本的秩(即样本点大小的的秩(即样本点大小的“座次座次”)。)。,为两变量各自对应的秩,为两变量各自对应的秩,为对应的秩之差。为对应的秩之差。SpearmanSpearman相关系数也是取值在相关系数也是取值在-1-1和和1 1之之间,也有类似的解释。间,也有类似的解释。Spearman Spearman 秩相关系数适用范围:秩相关系数适用范围:SpearmanSp
10、earman相关系数更多用于测量两个有序相关系数更多用于测量两个有序分类变量之间的相关程度。对于适合分类变量之间的相关程度。对于适合PearsonPearson相关系数的数据亦可计算相关系数的数据亦可计算SpearmanSpearman相关系数,但统计效能要低一些。通过它相关系数,但统计效能要低一些。通过它也可以进行不依赖于总体分布的非参数检也可以进行不依赖于总体分布的非参数检验。验。n侧侧重重于于两两个个分分类类变变量量均均为为有有序序分分类类的的情情况况。这这里里的的度度量量原原理理是是把把所所有有的的样样本本点点配配对对(如如果果每每一一个个点点由由x x和和y y的的秩秩组组成成的的坐
11、坐标标(x x,y y)代代表表,一一对对点点就就是是诸诸如如(x x1 1,y y1 1)和和(x x2 2,y y2 2)的的点点对对),然然后后看看每每一一对对中中的的x x和和y y的的的的秩秩的的观观测测值值是是否否同同时时增增加加(或或减减少少)。比比如如由由点点对对(x x1 1,y y1 1)和和(x x2 2,y y2 2),可可以以算算出出乘乘积积(x x2 2-x x1 1)()(y y2 2-y y1 1)是是否否大大于于0 0;如如果果大大于于0 0,则则说说明明x x和和y y同同时时增增长长或或同同时时下下降降,称称这这两两点点协协同同(concordantcon
12、cordant);否否则则就就是是不不协协同同。如如果果样样本本中中协协同同的的点点数数目目多多,两两个个变变量量就就更更加加正正相相关关一一些些否否则则就就更更负负相相关关些些;如如果果样样本本中中不不协协同同(discordantdiscordant)与与协协同同的的点点数数差差不不过过一一样样多多,两个变量相关性就弱。两个变量相关性就弱。Kendall Kendall 相关系数(相关系数(Kendalls Kendalls )Kendalls 统计量的数学定义为:统计量的数学定义为:Kendall Kendall 相关系数(相关系数(Kendalls Kendalls )U U、V V分
13、别为协同和不分别为协同和不协同的数目协同的数目大样本下采用的检验统计量为:大样本下采用的检验统计量为:Z Z统计量近似服从标准正态分布统计量近似服从标准正态分布n人人们们可可能能会会问问,上上面面的的三三种种对对相相关关的的度度量量都都是是在在其其值值接接近近1 1或或-1-1时时相相关关,而而接接近近于于0 0时时不不相相关关。到到底底如如何何才才能能够称为够称为“接近接近”呢?呢?n这这很很难难一一概概而而论论。但但在在计计算算机机输输出出中中都都有有和和这这些些相相关关度度量量相相应应的的检检验验和和p p-值值;因因此此可可以以根根据据这这些些结结果果来来判断判断是否相关是否相关n画散
14、点图画散点图nGraphsScatterGraphsScattern选择散点图的类型选择散点图的类型n根根据据所所选选择择的的散散点点图图类类型型,单单击击DefineDefine对对散散点点图图作作具具体体定定义。义。n计算相关系数计算相关系数nAnalyzeAnalyzeCorrelateCorrelateBivariateBivariaten选择参加计算的变量到选择参加计算的变量到VariableVariable中中n在在Correlation Correlation CoefficentsCoefficents框中选择计算哪种相关系数框中选择计算哪种相关系数n在在Test of Sig
15、nificanceTest of Significance框中选择输出单尾还是双尾框中选择输出单尾还是双尾p p值值n选择选择Flag significance correlationsFlag significance correlations输出星号标记输出星号标记n在在OptionsOptions中选择其他描述统计量中选择其他描述统计量简单相关分析菜单简单相关分析菜单简单相关分析简单相关分析n实例:有实例:有5050个从初中升到高中的学生。有个从初中升到高中的学生。有他们在初三和高一的各科平均成绩他们在初三和高一的各科平均成绩(数据在数据在highschool.savhighschool
16、.sav)。要求比较初三的成绩是。要求比较初三的成绩是否和高中的成绩相关。否和高中的成绩相关。n练习:利用数据练习:利用数据SY-8.savSY-8.sav,对城镇居民消,对城镇居民消费额与人均国内生产总值两变量进行相关费额与人均国内生产总值两变量进行相关分析。分析。分析结果n从运行结果看,城镇居民消费额与人均国内生产总值有很强的线形相关关系.本章内容本章内容9.1 9.1 相关分析相关分析9.2 9.2 偏相关分析偏相关分析9.3 9.3 线性回归分析线性回归分析9.4 9.4 曲线估计曲线估计9.5 9.5 二项二项LogisticLogistic回归回归偏偏相关分析相关分析 简单相关分析
17、计算两个变量间的相关系数,分析两简单相关分析计算两个变量间的相关系数,分析两个变量间线性关系的程度。往往因为第三个变量的作用,个变量间线性关系的程度。往往因为第三个变量的作用,使相关系数不能真正反应两个变量间的线性程度。例如使相关系数不能真正反应两个变量间的线性程度。例如用简单相关系数检验,可以得到肺活量与身高、体重均用简单相关系数检验,可以得到肺活量与身高、体重均存在较强的线性关系,如果对体重相同的人,分析身高存在较强的线性关系,如果对体重相同的人,分析身高和肺活量,是否身高越高肺活量越大呢?因为身高与体和肺活量,是否身高越高肺活量越大呢?因为身高与体重有线性关系,体重又与肺活量存在线性关系
18、,因此,重有线性关系,体重又与肺活量存在线性关系,因此,很容易得出身高与肺活量存在较强线性关系的错误结论。很容易得出身高与肺活量存在较强线性关系的错误结论。偏相关分析的任务就是在研究两个变量之间的线性偏相关分析的任务就是在研究两个变量之间的线性相关关系时控制可能对其产生影响的变量。分析身高与相关关系时控制可能对其产生影响的变量。分析身高与肺活量之间的相关性,就要控制体重在相关分析中的影肺活量之间的相关性,就要控制体重在相关分析中的影响。正确运用偏相关分析,可以解释变量间的真实关系,响。正确运用偏相关分析,可以解释变量间的真实关系,识别干扰变量并寻找隐含的相关性。识别干扰变量并寻找隐含的相关性。
19、偏偏相关系数的计算相关系数的计算 控制了变量控制了变量z z,变量,变量x x、y y之间的偏相关系数和之间的偏相关系数和控制了两个变量控制了两个变量 ,变量,变量x x、y y之间的偏相关之间的偏相关系数分别为系数分别为 是控制了是控制了z z的条件下,的条件下,x x、y y之间的偏相关系之间的偏相关系数。数。是变量是变量x x、y y间的简单相关系数。间的简单相关系数。偏偏相关系数的检验相关系数的检验 检验的零假设:两个变量间的偏相关系数为检验的零假设:两个变量间的偏相关系数为0 0。使用使用t t检验,公式如下:检验,公式如下:r r是相应的偏相关系数。是相应的偏相关系数。n n是观测
20、个数,是观测个数,k k是控是控制变量的数目,制变量的数目,n-k-2n-k-2是自由度。是自由度。在在SPSSSPSS的偏相关分析过程的输出中只给出偏的偏相关分析过程的输出中只给出偏相关系数和假设成立的概率相关系数和假设成立的概率p p值。值。偏偏相关分析的操作相关分析的操作 与简单相关分析操作类似,只不过菜单为与简单相关分析操作类似,只不过菜单为AnalyzeAnalyzeCorrelateCorrelatePartialPartialn实例:利用数据实例:利用数据相关回归分析(高校科研研究)相关回归分析(高校科研研究).savsav,分析发表立项课题数与论文数之间的偏相分析发表立项课题数
21、与论文数之间的偏相关关系,其中投入高级职称的人数为控制变量。关关系,其中投入高级职称的人数为控制变量。n练习:利用数据练习:利用数据data10-03.savdata10-03.sav,分析中山柏月,分析中山柏月生长量与生长量与4 4个气候因素哪个因素有关。个气候因素哪个因素有关。本章内容本章内容9.1 9.1 相关分析相关分析9.2 9.2 偏相关分析偏相关分析9.3 9.3 线性回归分析线性回归分析9.4 9.4 曲线估计曲线估计9.5 9.5 二项二项LogisticLogistic回归回归线性回归线性回归分析分析 线性回归是统计分析方法中最常用的方法之一。线性回归是统计分析方法中最常用
22、的方法之一。如果所研究的现象有若干个影响因素,且这些因如果所研究的现象有若干个影响因素,且这些因素对现象的综合影响是线性的,则可以使用线性素对现象的综合影响是线性的,则可以使用线性回归的方法建立现象回归的方法建立现象 (因变量)与影响因素(自(因变量)与影响因素(自变量)之间的线性函数关系式。由于多元线性回变量)之间的线性函数关系式。由于多元线性回归的计算量比较大,所以有必要应用统计分析软归的计算量比较大,所以有必要应用统计分析软件实现。这一节将专门介绍件实现。这一节将专门介绍SPSSSPSS软件的线性回归软件的线性回归分析的操作方法,包括求回归系数,给出回归模分析的操作方法,包括求回归系数,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第9章 spss的相关分析和线性回归分析 spss 相关 分析 线性 回归
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内