第5章--相关分析与回归分析ppt.ppt
《第5章--相关分析与回归分析ppt.ppt》由会员分享,可在线阅读,更多相关《第5章--相关分析与回归分析ppt.ppt(71页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第5章 相关分析与回归分析1.皮尔逊积矩系数、Spearman相关系数以及Kendall相关系数的计算与分析;2.偏相关系数的计算与伪相关系数的鉴别;3.简单线性回归;4.多元线性回归;统计学原理变量间的关系分为确定性关系和非确定性关系。变量间的关系分为确定性关系和非确定性关系。确定性关系即函数关系,非确定性关系即相关关系。确定性关系即函数关系,非确定性关系即相关关系。相关分析的主要目的是研究变量之间关系的密切程度。相关分析的主要目的是研究变量之间关系的密切程度。回归分析是揭示一个变量如何与其他变量相联系,前者叫做回归分析是揭示一个变量如何与其他变量相联系,前者叫做解释变量,后者叫做被解释变量
2、解释变量,后者叫做被解释变量相关分析和回归分析都是对客观事务数量依存关系的分析。相关分析和回归分析都是对客观事务数量依存关系的分析。相关系数的取值范围在相关系数的取值范围在 1 1和和+1+1之间,即之间,即 1r+11r+1。其中:。其中:若若0 0r1r1,表明变量之间存在正相关,表明变量之间存在正相关关系,即两个变量的相随变动方向相同;关系,即两个变量的相随变动方向相同;若若 1r1r0 0,表明变量之间存在负相,表明变量之间存在负相关关系,即两个变量的相随变动方向相反;关关系,即两个变量的相随变动方向相反;1.相关分析的统计学原理 为了判断为了判断r r对对的代表性大小,需要对相关系数
3、的代表性大小,需要对相关系数进行假设检验。进行假设检验。(1 1)首先假设总体相关性为零,即)首先假设总体相关性为零,即H H0 0为两总体无显为两总体无显著的线性相关关系。著的线性相关关系。零假设零假设 H0:x,y 不相关不相关 备择假设备择假设 H1:x,y 相关相关(2 2)其次,计算相应的统计量,并得到对应的)其次,计算相应的统计量,并得到对应的P P值。值。如果如果P P值小于或等于指定的显著性水平,则拒绝值小于或等于指定的显著性水平,则拒绝H H0 0,认为两总体存在显著的线性相关关系;如果认为两总体存在显著的线性相关关系;如果P P值大于值大于指定的显著性水平,则不能拒绝指定的
4、显著性水平,则不能拒绝H H0 0,认为两总体不存,认为两总体不存在显著的线性相关关系。在显著的线性相关关系。0.05 不相关不相关 通常取通常取0.05。P=也有时也有时取值取值0.01或或0.001 =0.05 相关相关 计算相关系数有不同的方法。其中,皮尔逊积矩相关系数(Pearson简单相关系数简单相关系数)适用等间隔测度,而Spearman相关系数和Kendall相关系数都是非参测度。Pearson Pearson简单相关系数用来衡量定距变量简单相关系数用来衡量定距变量间的线性关系。如衡量国民收入和居民储蓄存间的线性关系。如衡量国民收入和居民储蓄存款、身高和体重、高中成绩和高考成绩等
5、变量款、身高和体重、高中成绩和高考成绩等变量间的线性相关关系。间的线性相关关系。Pearson简单相关系数简单相关系数计算公式如下。计算公式如下。PearsonPearson简单相关系数计算公式为简单相关系数计算公式为 对对PearsonPearson简单相关系数的统计检验是计简单相关系数的统计检验是计算算t t统计量,公式为统计量,公式为 t t统计量服从统计量服从n n 2 2个自由度的个自由度的t t分布。分布。定序变量又称为有序(定序变量又称为有序(ordinalordinal)变量、)变量、顺序变量,它取值的大小能够表示观测对象的顺序变量,它取值的大小能够表示观测对象的某种顺序关系(
6、等级、方位或大小等),也是某种顺序关系(等级、方位或大小等),也是基于基于“质质”因素的变量。例如,因素的变量。例如,“最高学历最高学历”变量的取值是:变量的取值是:1 1小学及以下、小学及以下、2 2初中、初中、3 3高中、中专、技校、高中、中专、技校、4 4大学专科、大学专科、5 5大大学本科、学本科、6 6研究生以上。由小到大的取值能研究生以上。由小到大的取值能够代表学历由低到高。够代表学历由低到高。SpearmanSpearman和和Kendalls tua-bKendalls tua-b等级相关系等级相关系数用以衡量定序变量间的线性相关关系,它们数用以衡量定序变量间的线性相关关系,它
7、们利用的是非参数检验的方法。利用的是非参数检验的方法。SpearmanSpearman等级相关系数为等级相关系数为 对对SpearmanSpearman等级相关系数的统计检验,一等级相关系数的统计检验,一般如果个案数般如果个案数n30n30,将直接利用,将直接利用SpearmanSpearman等等级相关统计量表,级相关统计量表,SPSSSPSS将自动根据该表给出对将自动根据该表给出对应的应的P P值(相伴概率)。值(相伴概率)。Kendalls tau-b 等级相关系数等级相关系数 对对Kendalls tua-bKendalls tua-b等级相关系数的统计等级相关系数的统计检验,一般如果
8、个案数检验,一般如果个案数n30n30,将直接利用,将直接利用Kendalls tua-bKendalls tua-b等级相关统计量表,等级相关统计量表,SPSSSPSS将将自动根据该表给出对应的相伴概率值。自动根据该表给出对应的相伴概率值。2.相关分析过程的操作原理选择AnalyzeCorrelate相关分析过程具体包括:Bivariate:计算双变量间的相关系数;Partial:计算偏相关系数;Distances:对变量进行相似性或不相似性测度。双变量相关分析过程双变量相关分析过程StatisticsCorrelateBivariate 数据数据5-1选择求相关的变量:至少选择两个移动到:
9、选择求相关的变量:至少选择两个移动到:Variables内。内。Correlation Coefficients:相关类型相关类型p Pearson:Pearson:皮尔逊积矩相关系数皮尔逊积矩相关系数皮尔逊积矩相关系数皮尔逊积矩相关系数p Kendalls tau-bKendalls tau-b:肯德尔和谐系数肯德尔和谐系数肯德尔和谐系数肯德尔和谐系数p SpearmanSpearman:斯皮尔曼等级相关系数:斯皮尔曼等级相关系数:斯皮尔曼等级相关系数:斯皮尔曼等级相关系数 Test of significance:显著性检验:显著性检验p Two-tailedTwo-tailed:双侧检验
10、(默认):双侧检验(默认):双侧检验(默认):双侧检验(默认)p One-tailedOne-tailed:单侧检验:单侧检验:单侧检验:单侧检验“Flag significant correlations”:选择:选择相关显著度水平的标识,该标识就是相关显著度水平的标识,该标识就是*号。号。当显著度水平低于当显著度水平低于0.05时,显示一个时,显示一个*号,号,当低于当低于0.01时,将显示两个时,将显示两个*号。号。Options 选项选项Statistics Statistics:Means and standard deviationsMeans and standard devia
11、tions显示每一个变量的均值和标准差显示每一个变量的均值和标准差显示每一个变量的均值和标准差显示每一个变量的均值和标准差 Cross-product deviations and covariancesCross-product deviations and covariances每一对变量的离均差交叉积与协方差每一对变量的离均差交叉积与协方差每一对变量的离均差交叉积与协方差每一对变量的离均差交叉积与协方差 Missing values Missing values:缺失值:缺失值:缺失值:缺失值 Exclude cases pairwiseExclude cases pairwise:成对
12、删除:成对删除:成对删除:成对删除 Exclude cases listwiseExclude cases listwise:成列删除:成列删除:成列删除:成列删除偏相关分析偏相关分析 二元变量的相关分析在一些情况下无法较二元变量的相关分析在一些情况下无法较为真实准确地反映事物之间的相关关系。例如,为真实准确地反映事物之间的相关关系。例如,在研究某农场春季早稻产量与平均降雨量、平在研究某农场春季早稻产量与平均降雨量、平均温度之间的关系时,产量和平均降雨量之间均温度之间的关系时,产量和平均降雨量之间的关系中实际还包含了平均温度对产量的影响。的关系中实际还包含了平均温度对产量的影响。同时平均降雨量
13、对平均温度也会产生影响。在同时平均降雨量对平均温度也会产生影响。在这种情况下,单纯计算简单相关系数,显然不这种情况下,单纯计算简单相关系数,显然不能准确地反映事物之间地相关关系,而需要在能准确地反映事物之间地相关关系,而需要在剔除其他相关因素影响的条件下计算相关系数。剔除其他相关因素影响的条件下计算相关系数。偏相关分析正是用来解决这个问题的。偏相关分析正是用来解决这个问题的。定义:偏相关分析是指当两个变量同时与定义:偏相关分析是指当两个变量同时与第三个变量相关时,将第三个变量的影响剔除,第三个变量相关时,将第三个变量的影响剔除,只分析另外两个变量之间相关程度的过程。只分析另外两个变量之间相关程
14、度的过程。偏相关分析的工具是计算偏相关系数偏相关分析的工具是计算偏相关系数r r1212,3 3。统计学上的定义和计算公式统计学上的定义和计算公式偏相关分析过程偏相关分析过程StatisticsCorrelatePartial 数据数据5-2选择两个求相关变量到:选择两个求相关变量到:选择两个求相关变量到:选择两个求相关变量到:Variables Variables 框内框内框内框内选择中介变量到控制变量选择中介变量到控制变量选择中介变量到控制变量选择中介变量到控制变量“Controlling”Controlling”框中框中框中框中显示相关显著度水平的标识显示相关显著度水平的标识显示相关显著
15、度水平的标识显示相关显著度水平的标识“Display actual significance”Display actual significance”Options 选项选项Statistics Statistics:Means and standard deviationsMeans and standard deviations显示每一个变量的均值和标准差显示每一个变量的均值和标准差显示每一个变量的均值和标准差显示每一个变量的均值和标准差Zero-order correlations:Zero-order correlations:零阶相关系数,显示所有变零阶相关系数,显示所有变零阶相关系
16、数,显示所有变零阶相关系数,显示所有变量的量的量的量的PearsonPearson相关系数相关系数相关系数相关系数 Missing values Missing values:缺失值:缺失值:缺失值:缺失值 Exclude cases pairwiseExclude cases pairwise:成对删除:成对删除:成对删除:成对删除 Exclude cases listwiseExclude cases listwise:成列删除:成列删除:成列删除:成列删除偏相关系数的计算与伪相关的鉴别数据文件5-42.回归分析的统计学原理 回归分析是研究客观事物变量间的关系,它是建立在对客回归分析是研究
17、客观事物变量间的关系,它是建立在对客回归分析是研究客观事物变量间的关系,它是建立在对客回归分析是研究客观事物变量间的关系,它是建立在对客观事物进行大量试验和观察的基础上,通过建立数学模型观事物进行大量试验和观察的基础上,通过建立数学模型观事物进行大量试验和观察的基础上,通过建立数学模型观事物进行大量试验和观察的基础上,通过建立数学模型寻找不确定现象中所存在的统计规律的方法。回归分析所寻找不确定现象中所存在的统计规律的方法。回归分析所寻找不确定现象中所存在的统计规律的方法。回归分析所寻找不确定现象中所存在的统计规律的方法。回归分析所研究的主要问题就是研究因变量研究的主要问题就是研究因变量研究的主
18、要问题就是研究因变量研究的主要问题就是研究因变量(y)(y)和自变量和自变量和自变量和自变量(x)(x)之间数量之间数量之间数量之间数量变化规律,如何利用变量变化规律,如何利用变量变化规律,如何利用变量变化规律,如何利用变量X X,Y Y的观察值(样本),对回的观察值(样本),对回的观察值(样本),对回的观察值(样本),对回归函数进行统计推断,包括对它进行估计及检验与它有关归函数进行统计推断,包括对它进行估计及检验与它有关归函数进行统计推断,包括对它进行估计及检验与它有关归函数进行统计推断,包括对它进行估计及检验与它有关的假设等。的假设等。的假设等。的假设等。i=0+1x2i+2x+kxki+
19、i回归分析过程操作原理选择选择AnalyzeAnalyzeRegressionRegression打开打开“Regression”的右拉式菜单,菜单包含:的右拉式菜单,菜单包含:1.Linear 1.Linear 线性回归。线性回归。2.Curve Estimation 2.Curve Estimation 曲线估计。曲线估计。3.Binary Logistic 3.Binary Logistic 二元逻辑分析。二元逻辑分析。4.Multinomial Logistic 4.Multinomial Logistic 多元逻辑分析。多元逻辑分析。5.Ordinal 5.Ordinal 序数分析。
20、序数分析。6.Probit6.Probit 概率分析。概率分析。7.Nonlinear 7.Nonlinear 非线性估计。非线性估计。8.Weight Estimation 8.Weight Estimation 加权估计。加权估计。9.2-Stage Least Squares 9.2-Stage Least Squares 两段最小二乘法。两段最小二乘法。在数学关系式中只描述了一个变量与另一个变量之在数学关系式中只描述了一个变量与另一个变量之在数学关系式中只描述了一个变量与另一个变量之在数学关系式中只描述了一个变量与另一个变量之间的数量变化关系,则称其为一元回归分析。间的数量变化关系,则
21、称其为一元回归分析。间的数量变化关系,则称其为一元回归分析。间的数量变化关系,则称其为一元回归分析。其回归模型为其回归模型为其回归模型为其回归模型为 y y 称为因变量,称为因变量,称为因变量,称为因变量,x x称为自变量,称为自变量,称为自变量,称为自变量,称为随机误差,称为随机误差,称为随机误差,称为随机误差,a a,b,b 称为待估计的回归参数,下标称为待估计的回归参数,下标称为待估计的回归参数,下标称为待估计的回归参数,下标 i i 表示第表示第表示第表示第i i个观测个观测个观测个观测值。值。值。值。如果给出如果给出如果给出如果给出a a和和和和b b的估计量分别为的估计量分别为的估
22、计量分别为的估计量分别为 ,,则经验回归,则经验回归,则经验回归,则经验回归方程方程方程方程:一般把一般把一般把一般把 称为残差,称为残差,称为残差,称为残差,残差可视为扰动残差可视为扰动残差可视为扰动残差可视为扰动 的的的的“估计量估计量估计量估计量”。(1)线性回归过程)线性回归过程“Analyze”“Regression”“Linear数据文件数据文件数据文件数据文件5-55-5“Dependent”Dependent”:因变量:因变量:因变量:因变量“Independent(SIndependent(S)”)”:自变量:自变量:自变量:自变量 注:注:注:注:SPSSSPSS中一元回归
23、和多元回归以及多元逐步回归都是使中一元回归和多元回归以及多元逐步回归都是使中一元回归和多元回归以及多元逐步回归都是使中一元回归和多元回归以及多元逐步回归都是使用同一过程,所以该栏可以输入多个自变量。用同一过程,所以该栏可以输入多个自变量。用同一过程,所以该栏可以输入多个自变量。用同一过程,所以该栏可以输入多个自变量。“Selection Variable”Selection Variable”:控制变量输入栏。控制变量相当于:控制变量输入栏。控制变量相当于:控制变量输入栏。控制变量相当于:控制变量输入栏。控制变量相当于过滤变量,即必须当该变量的值满足设置的条件时,观测量过滤变量,即必须当该变量
24、的值满足设置的条件时,观测量过滤变量,即必须当该变量的值满足设置的条件时,观测量过滤变量,即必须当该变量的值满足设置的条件时,观测量才能参加回归分析。输入控制变量后,激活才能参加回归分析。输入控制变量后,激活才能参加回归分析。输入控制变量后,激活才能参加回归分析。输入控制变量后,激活“Rule”Rule”按钮。按钮。按钮。按钮。“Case Labels”Case Labels”:选择观测量的标签变量。在输出结果中,:选择观测量的标签变量。在输出结果中,:选择观测量的标签变量。在输出结果中,:选择观测量的标签变量。在输出结果中,可显示该观测量的值,通过该变量的值可查看相应的观测量。可显示该观测量
25、的值,通过该变量的值可查看相应的观测量。可显示该观测量的值,通过该变量的值可查看相应的观测量。可显示该观测量的值,通过该变量的值可查看相应的观测量。“WLS”WLS”:选择加权变量。:选择加权变量。:选择加权变量。:选择加权变量。“Method”“Method”:选择一种回归分析方式。:选择一种回归分析方式。:选择一种回归分析方式。:选择一种回归分析方式。强行介入法强行介入法强行介入法强行介入法EnterEnter(一次性进入)(一次性进入)(一次性进入)(一次性进入)这是一种不检验这是一种不检验这是一种不检验这是一种不检验F F和和和和ToleranceTolerance,一次将全部自变量无
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 相关 分析 回归 ppt
限制150内