相关分析与回归分析 (2)精选课件.ppt
《相关分析与回归分析 (2)精选课件.ppt》由会员分享,可在线阅读,更多相关《相关分析与回归分析 (2)精选课件.ppt(71页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、关于相关分析与回归分析(2)第一页,本课件共有71页统计学原理变量间的关系分为确定性关系和非确定性关系。变量间的关系分为确定性关系和非确定性关系。确定性关系即函数关系,非确定性关系即相关关系。确定性关系即函数关系,非确定性关系即相关关系。相关分析的主要目的是研究变量之间关系的密切程度。相关分析的主要目的是研究变量之间关系的密切程度。回归分析是揭示一个变量如何与其他变量相联系,前者叫做解回归分析是揭示一个变量如何与其他变量相联系,前者叫做解释变量,后者叫做被解释变量释变量,后者叫做被解释变量相关分析和回归分析都是对客观事务数量依存关系的分析。相关分析和回归分析都是对客观事务数量依存关系的分析。第
2、二页,本课件共有71页 相关系数的取值范围在相关系数的取值范围在 1 1和和+1+1之间,即之间,即 1r+11r+1。其中:。其中:若若0 0r1r1,表明变量之间存在正相关,表明变量之间存在正相关关系,即两个变量的相随变动方向相同;关系,即两个变量的相随变动方向相同;若若 1r1r0 0,表明变量之间存在负相关,表明变量之间存在负相关关系,即两个变量的相随变动方向相反;关系,即两个变量的相随变动方向相反;1.相关分析的统计学原理第三页,本课件共有71页第四页,本课件共有71页第五页,本课件共有71页第六页,本课件共有71页 为了判断为了判断r r对对的代表性大小,需要对相关系数进行的代表性
3、大小,需要对相关系数进行假设检验。假设检验。(1 1)首先假设总体相关性为零,即)首先假设总体相关性为零,即H H0 0为两总体无显著的为两总体无显著的线性相关关系。线性相关关系。零假设零假设 H0:x,y 不相关不相关 备择假设备择假设 H1:x,y 相关相关(2 2)其次,计算相应的统计量,并得到对应的)其次,计算相应的统计量,并得到对应的P P值。如值。如果果P P值小于或等于指定的显著性水平,则拒绝值小于或等于指定的显著性水平,则拒绝H H0 0,认为两,认为两总体存在显著的线性相关关系;如果总体存在显著的线性相关关系;如果P P值大于指定的显值大于指定的显著性水平,则不能拒绝著性水平
4、,则不能拒绝H H0 0,认为两总体不存在显著的线,认为两总体不存在显著的线性相关关系。性相关关系。0.05 不相关不相关 通常取通常取0.05。P=也有时也有时取值取值0.01或或0.001 =0.05 相关相关第七页,本课件共有71页 计算相关系数有不同的方法。其中,皮尔逊积矩相关系数(Pearson简单相关系数简单相关系数)适用等间隔测度,而Spearman相关系数和Kendall相关系数都是非参测度。第八页,本课件共有71页 Pearson Pearson简单相关系数用来衡量定距变量简单相关系数用来衡量定距变量间的线性关系。如衡量国民收入和居民储蓄存间的线性关系。如衡量国民收入和居民储
5、蓄存款、身高和体重、高中成绩和高考成绩等变量款、身高和体重、高中成绩和高考成绩等变量间的线性相关关系。间的线性相关关系。Pearson简单相关系数简单相关系数第九页,本课件共有71页计算公式如下。计算公式如下。PearsonPearson简单相关系数计算公式为简单相关系数计算公式为第十页,本课件共有71页 对对PearsonPearson简单相关系数的统计检验是计算简单相关系数的统计检验是计算t t统计量,公式为统计量,公式为 t t统计量服从统计量服从n n 2 2个自由度的个自由度的t t分布。分布。第十一页,本课件共有71页 定序变量定序变量又称为有序(又称为有序(ordinalordi
6、nal)变量、顺)变量、顺序变量,它取值的大小能够表示观测对象的某序变量,它取值的大小能够表示观测对象的某种顺序关系(等级、方位或大小等),也是基种顺序关系(等级、方位或大小等),也是基于于“质质”因素的变量。例如,因素的变量。例如,“最高学历最高学历”变变量的取值是:量的取值是:11小学及以下、小学及以下、22初中、初中、33高高中、中专、技校、中、中专、技校、44大学专科、大学专科、55大学本科、大学本科、66研究生以上。由小到大的取值能够代表学历研究生以上。由小到大的取值能够代表学历由低到高。由低到高。SpearmanSpearman和和Kendalls tua-bKendalls tu
7、a-b等级相关系数等级相关系数用以衡量用以衡量定序变量定序变量间的线性相关关系,它们利用间的线性相关关系,它们利用的是非参数检验的方法。的是非参数检验的方法。第十二页,本课件共有71页SpearmanSpearman等级相关系数为等级相关系数为第十三页,本课件共有71页 对对SpearmanSpearman等级相关系数的统计检验,一般等级相关系数的统计检验,一般如果个案数如果个案数n30n30,将直接利用,将直接利用SpearmanSpearman等级相关等级相关统计量表,统计量表,SPSSSPSS将自动根据该表给出对应的将自动根据该表给出对应的P P值值(相伴概率)。(相伴概率)。第十四页,
8、本课件共有71页第十五页,本课件共有71页Kendalls tau-b 等级相关系数等级相关系数第十六页,本课件共有71页 对对Kendalls tua-bKendalls tua-b等级相关系数的统计检等级相关系数的统计检验,一般如果个案数验,一般如果个案数n30n30,将直接利用,将直接利用Kendalls tua-bKendalls tua-b等级相关统计量表,等级相关统计量表,SPSSSPSS将自动将自动根据该表给出对应的相伴概率值。根据该表给出对应的相伴概率值。第十七页,本课件共有71页第十八页,本课件共有71页2.相关分析过程的操作原理选择AnalyzeCorrelate相关分析过
9、程具体包括:Bivariate:计算双变量间的相关系数;Partial:计算偏相关系数;Distances:对变量进行相似性或不相似性测度。第十九页,本课件共有71页双变量相关分析过程双变量相关分析过程StatisticsCorrelateBivariate 数据数据5-1第二十页,本课件共有71页选择求相关的变量:至少选择两个移动到:选择求相关的变量:至少选择两个移动到:Variables内。内。第二十一页,本课件共有71页Correlation Coefficients:相关类型相关类型 Pearson:皮尔逊积矩相关系数皮尔逊积矩相关系数皮尔逊积矩相关系数皮尔逊积矩相关系数 Kendal
10、ls tau-b:肯德尔和谐系数肯德尔和谐系数 Spearman:斯皮尔曼等级相关系数:斯皮尔曼等级相关系数 Test of significance:显著性检验显著性检验pp Two-tailedTwo-tailed:双侧检验(默认):双侧检验(默认)p One-tailed:单侧检验:单侧检验“Flag significant correlations”:选择相选择相关显著度水平的标识关显著度水平的标识,该标识就是,该标识就是*号。当显号。当显著度水平低于著度水平低于0.05时,显示一个时,显示一个*号,当低于号,当低于0.01时,将显示两个时,将显示两个*号。号。第二十二页,本课件共有7
11、1页Options 选项选项Statistics Statistics:Means and standard deviationsMeans and standard deviations显示每一个变量的均值和标准差显示每一个变量的均值和标准差显示每一个变量的均值和标准差显示每一个变量的均值和标准差 Cross-product deviations and covariancesCross-product deviations and covariances每一对变量的离均差交叉积与协方差每一对变量的离均差交叉积与协方差每一对变量的离均差交叉积与协方差每一对变量的离均差交叉积与协方差 Miss
12、ing valuesMissing values:缺失值:缺失值:缺失值:缺失值 Exclude cases pairwiseExclude cases pairwise:成对删除:成对删除:成对删除:成对删除 Exclude cases listwiseExclude cases listwise:成列删除:成列删除:成列删除:成列删除第二十三页,本课件共有71页偏相关分析偏相关分析 二元变量的相关分析在一些情况下无法较二元变量的相关分析在一些情况下无法较为真实准确地反映事物之间的相关关系。例如,为真实准确地反映事物之间的相关关系。例如,在研究某农场春季早稻产量与平均降雨量、平在研究某农场春
13、季早稻产量与平均降雨量、平均温度之间的关系时,产量和平均降雨量之间均温度之间的关系时,产量和平均降雨量之间的关系中实际还包含了平均温度对产量的影响。的关系中实际还包含了平均温度对产量的影响。同时平均降雨量对平均温度也会产生影响。在同时平均降雨量对平均温度也会产生影响。在这种情况下,单纯计算简单相关系数,显然不这种情况下,单纯计算简单相关系数,显然不能准确地反映事物之间地相关关系,而需要在能准确地反映事物之间地相关关系,而需要在剔除其他相关因素影响的条件下计算相关系数。剔除其他相关因素影响的条件下计算相关系数。偏相关分析正是用来解决这个问题的。偏相关分析正是用来解决这个问题的。第二十四页,本课件
14、共有71页 定义:偏相关分析是指当两个变量同时与定义:偏相关分析是指当两个变量同时与第三个变量相关时,将第三个变量的影响剔除,第三个变量相关时,将第三个变量的影响剔除,只分析另外两个变量之间相关程度的过程。只分析另外两个变量之间相关程度的过程。偏相关分析的工具是计算偏相关系数偏相关分析的工具是计算偏相关系数r r1212,3 3。统计学上的定义和计算公式统计学上的定义和计算公式第二十五页,本课件共有71页第二十六页,本课件共有71页第二十七页,本课件共有71页偏相关分析过程偏相关分析过程StatisticsCorrelatePartial 数据数据5-2选择两个求相关变量到:选择两个求相关变量
15、到:选择两个求相关变量到:选择两个求相关变量到:Variables Variables 框内框内框内框内选择中介变量到控制变量选择中介变量到控制变量选择中介变量到控制变量选择中介变量到控制变量“Controlling”Controlling”框中框中框中框中显示相关显著度水平的标识显示相关显著度水平的标识显示相关显著度水平的标识显示相关显著度水平的标识“Display actual significance”Display actual significance”第二十八页,本课件共有71页Options 选项选项Statistics Statistics:Means and standard
16、 deviationsMeans and standard deviations显示每一个变量的均值和标准差显示每一个变量的均值和标准差显示每一个变量的均值和标准差显示每一个变量的均值和标准差Zero-order correlations:Zero-order correlations:零阶相关系数,显示所有变量零阶相关系数,显示所有变量零阶相关系数,显示所有变量零阶相关系数,显示所有变量的的的的PearsonPearson相关系数相关系数相关系数相关系数 Missing valuesMissing values:缺失值:缺失值:缺失值:缺失值 Exclude cases pairwiseEx
17、clude cases pairwise:成对删除成对删除成对删除成对删除 Exclude cases listwiseExclude cases listwise:成列删除成列删除成列删除成列删除第二十九页,本课件共有71页偏相关系数的计算与伪相关的鉴别数据文件5-4第三十页,本课件共有71页2.回归分析的统计学原理 回归分析是研究客观事物变量间的关系,它是建立在对客观事回归分析是研究客观事物变量间的关系,它是建立在对客观事回归分析是研究客观事物变量间的关系,它是建立在对客观事回归分析是研究客观事物变量间的关系,它是建立在对客观事物进行大量试验和观察的基础上,通过建立数学模型寻找不确物进行大
18、量试验和观察的基础上,通过建立数学模型寻找不确物进行大量试验和观察的基础上,通过建立数学模型寻找不确物进行大量试验和观察的基础上,通过建立数学模型寻找不确定现象中所存在的统计规律的方法。回归分析所研究的主要问定现象中所存在的统计规律的方法。回归分析所研究的主要问定现象中所存在的统计规律的方法。回归分析所研究的主要问定现象中所存在的统计规律的方法。回归分析所研究的主要问题就是研究因变量题就是研究因变量题就是研究因变量题就是研究因变量(y)(y)和自变量和自变量和自变量和自变量(x)(x)之间数量变化规律,如何利用之间数量变化规律,如何利用之间数量变化规律,如何利用之间数量变化规律,如何利用变量变
19、量变量变量X X,Y Y的观察值(样本),对回归函数进行统计推断,的观察值(样本),对回归函数进行统计推断,的观察值(样本),对回归函数进行统计推断,的观察值(样本),对回归函数进行统计推断,包括对它进行估计及检验与它有关的假设等。包括对它进行估计及检验与它有关的假设等。包括对它进行估计及检验与它有关的假设等。包括对它进行估计及检验与它有关的假设等。i=0+1x2i+2x+kxki+i第三十一页,本课件共有71页回归分析过程操作原理选择选择AnalyzeRegression第三十二页,本课件共有71页打开打开“Regression”的右拉式菜单,菜单包含:的右拉式菜单,菜单包含:1.Linea
20、r 1.Linear 线性回归。2.Curve Estimation 2.Curve Estimation 曲线估计。3.Binary Logistic 二元逻辑分析。4.Multinomial Logistic 多元逻辑分析。5.Ordinal 序数分析。6.Probit 6.Probit 概率分析。7.Nonlinear 非线性估计。8.Weight Estimation 加权估计。9.2-Stage Least Squares 9.2-Stage Least Squares 两段最小二乘法。第三十三页,本课件共有71页在数学关系式中只描述了一个变量与另一个变量之在数学关系式中只描述了一个
21、变量与另一个变量之间的数量变化关系,则称其为一元回归分析。间的数量变化关系,则称其为一元回归分析。其回归模型为其回归模型为 y y 称为因变量,称为因变量,称为因变量,称为因变量,x称为自变量,称为自变量,称为自变量,称为自变量,称为随机误差,称为随机误差,称为随机误差,称为随机误差,a,b 称称为待估计的回归参数,下标为待估计的回归参数,下标 i 表示第表示第i个观测值。个观测值。如果给出如果给出a a和和b的估计量分别为的估计量分别为 ,,则经验回归方程,则经验回归方程:一般把一般把 称为残差,称为残差,残差可视为扰动残差可视为扰动 的的“估计量估计量”。(1)线性回归过程)线性回归过程第
22、三十四页,本课件共有71页“Analyze”“Regression”“Linear数据文件数据文件5-5第三十五页,本课件共有71页“Dependent”“Dependent”:因变量:因变量:因变量:因变量“Independent(S)”Independent(S)”:自变量:自变量:自变量:自变量 注:注:注:注:SPSSSPSS中一元回归和多元回归以及多元逐步回归都是使中一元回归和多元回归以及多元逐步回归都是使中一元回归和多元回归以及多元逐步回归都是使中一元回归和多元回归以及多元逐步回归都是使用同一过程,所以该栏可以输入多个自变量。用同一过程,所以该栏可以输入多个自变量。用同一过程,所以
23、该栏可以输入多个自变量。用同一过程,所以该栏可以输入多个自变量。“Selection Variable”Selection Variable”:控制变量输入栏。控制变量相当于过:控制变量输入栏。控制变量相当于过:控制变量输入栏。控制变量相当于过:控制变量输入栏。控制变量相当于过滤变量,即必须当该变量的值满足设置的条件时,观测量才滤变量,即必须当该变量的值满足设置的条件时,观测量才滤变量,即必须当该变量的值满足设置的条件时,观测量才滤变量,即必须当该变量的值满足设置的条件时,观测量才能参加回归分析。输入控制变量后,激活能参加回归分析。输入控制变量后,激活能参加回归分析。输入控制变量后,激活能参加
24、回归分析。输入控制变量后,激活“Rule”Rule”按钮。按钮。按钮。按钮。“Case Labels”“Case Labels”:选择观测量的标签变量。在输出结果中,可:选择观测量的标签变量。在输出结果中,可:选择观测量的标签变量。在输出结果中,可:选择观测量的标签变量。在输出结果中,可显示该观测量的值,通过该变量的值可查看相应的观测量。显示该观测量的值,通过该变量的值可查看相应的观测量。显示该观测量的值,通过该变量的值可查看相应的观测量。显示该观测量的值,通过该变量的值可查看相应的观测量。“WLS”WLS”:选择加权变量。:选择加权变量。:选择加权变量。:选择加权变量。第三十六页,本课件共有
25、71页“Method”:选择一种回归分析方式。选择一种回归分析方式。强行介入法强行介入法强行介入法强行介入法EnterEnter(一次性进入)(一次性进入)(一次性进入)(一次性进入)这是一种不检验这是一种不检验这是一种不检验这是一种不检验F F和和和和ToleranceTolerance,一次将全部自变量无条件地纳入回,一次将全部自变量无条件地纳入回,一次将全部自变量无条件地纳入回,一次将全部自变量无条件地纳入回归方程。归方程。归方程。归方程。强行剔除强行剔除强行剔除强行剔除RemoveRemove(一次性剔除)(一次性剔除)(一次性剔除)(一次性剔除)指定某些变量不能进入方程。这种方法通常
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 相关分析与回归分析 2精选课件 相关 分析 回归 精选 课件
限制150内