相关分析与回归分析.pptx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《相关分析与回归分析.pptx》由会员分享,可在线阅读,更多相关《相关分析与回归分析.pptx(71页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、统计学原理变量间的关系分为确定性关系和非确定性关系。确定性关系即函数关系,非确定性关系即相关关系。相关分析的主要目的是研究变量之间关系的密切程度。回归分析是揭示一个变量如何与其他变量相联系,前者叫做解释变量,后者叫做被解释变量相关分析和回归分析都是对客观事务数量依存关系的分析。第1页/共71页 相关系数的取值范围在 1 1和+1+1之间,即 1r+11r+1。其中:若0 0r1r1,表明变量之间存在正相关关系,即两个变量的相随变动方向相同;若 1r1r0 0,表明变量之间存在负相关关系,即两个变量的相随变动方向相反;1.相关分析的统计学原理第2页/共71页第3页/共71页第4页/共71页第5页
2、/共71页 为了判断r r对的代表性大小,需要对相关系数进行假设检验。(1 1)首先假设总体相关性为零,即H H0 0为两总体无显著的线性相关关系。零假设 H0:x,y 不相关 备择假设 H1:x,y 相关(2 2)其次,计算相应的统计量,并得到对应的P P值。如果P P值小于或等于指定的显著性水平,则拒绝H H0 0,认为两总体存在显著的线性相关关系;如果P P值大于指定的显著性水平,则不能拒绝H H0 0,认为两总体不存在显著的线性相关关系。0.05 不相关 通常取0.05。P=也有时取值0.01或0.001 =0.05 相关第6页/共71页 计算相关系数有不同的方法。其中,皮尔逊积矩相关
3、系数(Pearson简单相关系数)适用等间隔测度,而Spearman相关系数和Kendall相关系数都是非参测度。第7页/共71页 Pearson Pearson简单相关系数用来衡量定距变量间的线性关系。如衡量国民收入和居民储蓄存款、身高和体重、高中成绩和高考成绩等变量间的线性相关关系。Pearson简单相关系数第8页/共71页计算公式如下。PearsonPearson简单相关系数计算公式为第9页/共71页 对PearsonPearson简单相关系数的统计检验是计算t t统计量,公式为 t t统计量服从n n 2 2个自由度的t t分布。第10页/共71页 定序变量又称为有序(ordinalo
4、rdinal)变量、顺序变量,它取值的大小能够表示观测对象的某种顺序关系(等级、方位或大小等),也是基于“质”因素的变量。例如,“最高学历”变量的取值是:1 1小学及以下、2 2初中、3 3高中、中专、技校、4 4大学专科、5 5大学本科、6 6研究生以上。由小到大的取值能够代表学历由低到高。SpearmanSpearman和Kendalls tua-bKendalls tua-b等级相关系数用以衡量定序变量间的线性相关关系,它们利用的是非参数检验的方法。第11页/共71页SpearmanSpearman等级相关系数为第12页/共71页 对SpearmanSpearman等级相关系数的统计检验
5、,一般如果个案数n30n30,将直接利用SpearmanSpearman等级相关统计量表,SPSSSPSS将自动根据该表给出对应的P P值(相伴概率)。第13页/共71页第14页/共71页Kendalls tau-b 等级相关系数第15页/共71页 对Kendalls tua-bKendalls tua-b等级相关系数的统计检验,一般如果个案数n30n30,将直接利用Kendalls tua-bKendalls tua-b等级相关统计量表,SPSSSPSS将自动根据该表给出对应的相伴概率值。第16页/共71页第17页/共71页2.相关分析过程的操作原理选择AnalyzeCorrelate相关分
6、析过程具体包括:Bivariate:计算双变量间的相关系数;Partial:计算偏相关系数;Distances:对变量进行相似性或不相似性测度。第18页/共71页双变量相关分析过程StatisticsCorrelateBivariate 数据5-1第19页/共71页选择求相关的变量:至少选择两个移动到:Variables内。第20页/共71页Correlation Coefficients:相关类型p Pearson:皮尔逊积矩相关系数p Kendalls tau-b:肯德尔和谐系数p Spearman:斯皮尔曼等级相关系数 Test of significance:显著性检验p Two-ta
7、iled:双侧检验(默认)p One-tailed:单侧检验“Flag significant correlations”:选择相关显著度水平的标识,该标识就是*号。当显著度水平低于0.05时,显示一个*号,当低于0.01时,将显示两个*号。第21页/共71页Options 选项Statistics Statistics:Means and standard deviationsMeans and standard deviations显示每一个变量的均值和标准差显示每一个变量的均值和标准差 Cross-product deviations and covariancesCross-produ
8、ct deviations and covariances每一对变量的离均差交叉积与协方差每一对变量的离均差交叉积与协方差 Missing valuesMissing values:缺失值:缺失值 Exclude cases pairwiseExclude cases pairwise:成对删除:成对删除 Exclude cases listwiseExclude cases listwise:成列删除:成列删除第22页/共71页偏相关分析 二元变量的相关分析在一些情况下无法较为真实准确地反映事物之间的相关关系。例如,在研究某农场春季早稻产量与平均降雨量、平均温度之间的关系时,产量和平均降雨量
9、之间的关系中实际还包含了平均温度对产量的影响。同时平均降雨量对平均温度也会产生影响。在这种情况下,单纯计算简单相关系数,显然不能准确地反映事物之间地相关关系,而需要在剔除其他相关因素影响的条件下计算相关系数。偏相关分析正是用来解决这个问题的。第23页/共71页 定义:偏相关分析是指当两个变量同时与第三个变量相关时,将第三个变量的影响剔除,只分析另外两个变量之间相关程度的过程。偏相关分析的工具是计算偏相关系数r r1212,3 3。统计学上的定义和计算公式统计学上的定义和计算公式第24页/共71页第25页/共71页第26页/共71页偏相关分析过程StatisticsCorrelatePartia
10、l 数据5-2选择两个求相关变量到:选择两个求相关变量到:Variables Variables 框内框内选择中介变量到控制变量选择中介变量到控制变量“Controlling”Controlling”框中框中显示相关显著度水平的标识显示相关显著度水平的标识“Display actual significance”Display actual significance”第27页/共71页Options 选项Statistics Statistics:Means and standard deviationsMeans and standard deviations显示每一个变量的均值和标准差显示
11、每一个变量的均值和标准差Zero-order correlations:Zero-order correlations:零阶相关系数,显示所有变零阶相关系数,显示所有变量的量的PearsonPearson相关系数相关系数 Missing valuesMissing values:缺失值:缺失值 Exclude cases pairwiseExclude cases pairwise:成对删除成对删除 Exclude cases listwiseExclude cases listwise:成列删除成列删除第28页/共71页偏相关系数的计算与伪相关的鉴别数据文件5-4第29页/共71页2.回归分
12、析的统计学原理回归分析是研究客观事物变量间的关系,它是建立在对客观事物进行大量试验和观察的基础上,通过建立数学模型寻找不确定现象中所存在的统计规律的方法。回归分析所研究的主要问题就是研究因变量(y)和自变量(x)之间数量变化规律,如何利用变量X,Y的观察值(样本),对回归函数进行统计推断,包括对它进行估计及检验与它有关的假设等。i=0+1x2i+2x+kxki+i第30页/共71页回归分析过程操作原理选择AnalyzeRegression第31页/共71页打开“Regression”的右拉式菜单,菜单包含:1.Linear 线性回归。2.Curve Estimation 曲线估计。3.Bina
13、ry Logistic 二元逻辑分析。4.Multinomial Logistic 多元逻辑分析。5.Ordinal 序数分析。6.Probit 概率分析。7.Nonlinear 非线性估计。8.Weight Estimation 加权估计。9.2-Stage Least Squares 两段最小二乘法。第32页/共71页在数学关系式中只描述了一个变量与另一个变量之间的数量变化关系,则称其为一元回归分析。其回归模型为 y 称为因变量,x称为自变量,称为随机误差,a,b 称为待估计的回归参数,下标 i 表示第i个观测值。如果给出a和b的估计量分别为 ,,则经验回归方程:一般把 称为残差,残差可视
14、为扰动 的“估计量”。(1)线性回归过程第33页/共71页“Analyze”“Regression”“Linear数据文件5-5第34页/共71页“Dependent”:因变量“Independent(S)”:自变量 注:SPSS中一元回归和多元回归以及多元逐步回归都是使用同一过程,所以该栏可以输入多个自变量。“Selection Variable”:控制变量输入栏。控制变量相当于过滤变量,即必须当该变量的值满足设置的条件时,观测量才能参加回归分析。输入控制变量后,激活“Rule”按钮。“Case Labels”“Case Labels”:选择观测量的标签变量。在输出结果中,:选择观测量的标签
15、变量。在输出结果中,可显示该观测量的值,通过该变量的值可查看相应的观测量。可显示该观测量的值,通过该变量的值可查看相应的观测量。“WLS”WLS”:选择加权变量。:选择加权变量。第35页/共71页“Method”:选择一种回归分析方式。强行介入法Enter(一次性进入)这是一种不检验F和Tolerance,一次将全部自变量无条件地纳入回归方程。强行剔除Remove(一次性剔除)指定某些变量不能进入方程。这种方法通常同别的方法联合使用,而不能首先或单独使用,因为第一次使用或单独使用将意味着没有哪个变量进入方程。逐步进入Stepwise 每次选择符合进入条件的自变量进入方程,进入后立即检验,不合格
16、者剔除,直到全部合格自变量进入方程。反向剔除Backward 先强行介入,再逐个剔除不合格变量,直到全合格。正向进入Forward 每次选择符合进入条件的自变量进入方程,逐个选择,逐个进入,直到全部合格自变量进入方程。第36页/共71页“Statistics”“Regression CoefficientsRegression Coefficients”回归系数选项:回归系数选项:pp“EstimatesEstimates”输出回归系数和相关统计量。输出回归系数和相关统计量。pp“Confidence intervalConfidence interval”回归系数的回归系数的95%95%置信
17、区间。置信区间。pp“Covariance matrix”Covariance matrix”回归系数的方差回归系数的方差-协方差矩阵。协方差矩阵。第37页/共71页“Residuals”残差选项:p“Durbin-Watson”Durbin-Watson检验。p“Casewise diagnostic”输出满足选择条件的观测量的相关信息。选择该项,下面两项处于可选状态:“Outliers outside standard deviations”选择标准化残差的绝对值大于输入值的观测量;“All cases”选择所有观测量。其它输入选项其它输入选项 pp“Model fit”Model fit
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 相关 分析 回归
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内