相关分析与回归分析专题.pptx





《相关分析与回归分析专题.pptx》由会员分享,可在线阅读,更多相关《相关分析与回归分析专题.pptx(123页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、相关分析相关分析(Correlation Analysis)第1页/共123页一、相关分析的意义:一、相关分析的意义:研究问题过程:单变量分析研究问题过程:单变量分析 双变量分析双变量分析 多变量分析多变量分析多变量分析与单变量分析的多变量分析与单变量分析的最大不同最大不同:揭示客观事物之间的关联性。:揭示客观事物之间的关联性。所以,相关分析的意义和目的在于:所以,相关分析的意义和目的在于:(1 1)在统计学中有理论与实践意义)在统计学中有理论与实践意义(2 2)对相关关系的存在性给出判断)对相关关系的存在性给出判断 (3)(3)对相关关系的强度给出度量和分析对相关关系的强度给出度量和分析第2
2、页/共123页二、相关分析的概念二、相关分析的概念 变量之间的关系分为确定性关系和非确定性关系。变量之间的关系分为确定性关系和非确定性关系。确定性关系:当一个变量值(自变量)确定后,另确定性关系:当一个变量值(自变量)确定后,另一个变量值(因变量)也就完全确定了,确定性关系往一个变量值(因变量)也就完全确定了,确定性关系往往可以表示成一个往可以表示成一个函数函数的形式,比如圆的面积和半径的的形式,比如圆的面积和半径的关系:关系:S=S=r r 非确定性关系:给定了一个变量值后,另一个变量非确定性关系:给定了一个变量值后,另一个变量值可以在一定范围内变化,例如家庭的消费支出和家庭值可以在一定范围
3、内变化,例如家庭的消费支出和家庭收入的关系。收入的关系。研究者把研究者把非确定性关系称为相关关系非确定性关系称为相关关系。第3页/共123页三三.相关分析的特点和应用相关分析的特点和应用 相关关系是普遍存在的,函数关系仅是相关关系的相关关系是普遍存在的,函数关系仅是相关关系的特例。特例。1.1.相关关系的类型相关关系的类型 相关关系多种多样,归纳起来大致有以下相关关系多种多样,归纳起来大致有以下6 6种:种:l 强正相关关系强正相关关系,其特点是一变量,其特点是一变量X X增加,导致另一变增加,导致另一变量量 Y Y明显增加,说明明显增加,说明X X是影响是影响Y Y的主要因素。的主要因素。l
4、 弱正相关关系弱正相关关系,其特点是一变量,其特点是一变量X X增加,导致另一变增加,导致另一变量量Y Y增加,但增加幅度不明显。增加,但增加幅度不明显。l 强负相关关系强负相关关系,其特点是,其特点是X X增加,导致增加,导致Y Y明显减少,明显减少,说明说明X X是影响是影响Y Y的主要因素的主要因素第4页/共123页l弱负相关关系弱负相关关系,其特点是变量,其特点是变量X X增加,导致增加,导致Y Y减少,但减少,但 减少幅度不明显,说明减少幅度不明显,说明X X是是Y Y的影响因素,但不是唯一的影响因素,但不是唯一 因素。因素。l 非线性相关关系非线性相关关系,其特点是,其特点是X X
5、、Y Y之间没有明显的线性之间没有明显的线性 关系,却存在着某种非线性关系,说明关系,却存在着某种非线性关系,说明X X仍是影响仍是影响Y Y的的 因素。因素。l 不相关不相关,其特点是,其特点是X X、Y Y不存在相关关系,说明不存在相关关系,说明X X不是不是 影响影响Y Y的因素。的因素。第5页/共123页2.2.相关分析的应用相关分析的应用 (1 1)相关分析可以在影响某个变量的诸多变量中判断哪些是显著的,哪)相关分析可以在影响某个变量的诸多变量中判断哪些是显著的,哪些是不显著的。而且在得到相关分析的结果后,可以些是不显著的。而且在得到相关分析的结果后,可以用于其他分析用于其他分析,如
6、回,如回归分析和因子分析。归分析和因子分析。(2 2)相关分析方法已广泛用于心理学、教育学、医学、经济学等各学科。相关分析方法已广泛用于心理学、教育学、医学、经济学等各学科。它对试验数据的处理、经验公式的建立、管理标准的测定、自然现象和经它对试验数据的处理、经验公式的建立、管理标准的测定、自然现象和经济现象的统计预报,都是一种方便而且有效的工具。济现象的统计预报,都是一种方便而且有效的工具。第6页/共123页四、相关系数四、相关系数l相相关关分分析析的的主主要要目目的的是是研研究究变变量量之之间间关关系系的的密密切切程程度度,以以及及根根据据样样本本的的资资料料推推断断总总体体是是否否样样关关
7、。反反映映变变量量之之间间关关系系紧紧密密程程度度的的指指标标主主要要是是相相关关系系数数r r。相相关关系系数数r r取取值值在在-1-1到到+1+1之之间间,当当数数值值愈愈接接近近-1-1或或+1+1时时,说说明明关关系系愈紧密,接近于愈紧密,接近于0 0时,说明关系不紧密。时,说明关系不紧密。第7页/共123页相关系数的计算相关系数的计算l样本的相关系数一般用样本的相关系数一般用r r表示,总体的相关系数一般用表示,总体的相关系数一般用p p表示。表示。l对于不同类型的变量,相关系数的计算公式不同。在相对于不同类型的变量,相关系数的计算公式不同。在相关分析中,常用的相关系数有:关分析中
8、,常用的相关系数有:PearsonPearson简单简单相关系数相关系数:对定距连续变量的数据进行计:对定距连续变量的数据进行计算。算。如测度收入和储蓄,身高和体重。如测度收入和储蓄,身高和体重。SpearmanSpearman等级相关系数等级相关系数:用于度量定序变量间的线性:用于度量定序变量间的线性相关关系。如军队教员的军衔与职称。相关关系。如军队教员的军衔与职称。Kendall r Kendall r相关系数相关系数:用非参数检验方法来度量定序变用非参数检验方法来度量定序变量间的线性相关关系。计算基于数据的秩。量间的线性相关关系。计算基于数据的秩。第8页/共123页PearsonPear
9、son相关系数应用广泛,其计算公式及其性质如下:相关系数应用广泛,其计算公式及其性质如下:第9页/共123页在在AnalyzeAnalyze的下拉菜单的下拉菜单CorrelateCorrelate命令项中有三个相关命令项中有三个相关分析功能子命令分析功能子命令:l Bivariate(两两相关分析过程)(两两相关分析过程)l Partial (偏相关分析过程)(偏相关分析过程)l Distances(距离分析过程)(距离分析过程)五、五、SPSSSPSS中相关分析中相关分析CorrelationCorrelation菜单菜单 第10页/共123页Bivariate过程第11页/共123页lBi
10、variateBivariate过程用于进行两个或多个变量间的参数过程用于进行两个或多个变量间的参数与非参数相关分析,如为多个变量,给出两两相关与非参数相关分析,如为多个变量,给出两两相关的分析结果。这是的分析结果。这是correlatecorrelate菜单中最常用的一个过菜单中最常用的一个过程,包括自动计算程,包括自动计算PearsonPearson简单相关系数、简单相关系数、T T检验统检验统计量和对应的概率计量和对应的概率P P值。值。第12页/共123页举例:举例:对肺活量和体重做对肺活量和体重做相关分析相关分析 1 1.打开打开SAVSAV数据。数据。2.2.用散点图初步观察两变用
11、散点图初步观察两变量间有无相关趋势,依次量间有无相关趋势,依次单击菜单单击菜单“Graphs-Chart Graphs-Chart Builder”Builder”打开图形构建器,打开图形构建器,选择做散点图(选择做散点图(Scatter Scatter/Dot)/Dot)。第13页/共123页 3.3.设置相关分析的参数。设置相关分析的参数。依次单击依次单击“Analyze-Correlate-Bivariate”Analyze-Correlate-Bivariate”执行两变量相关分执行两变量相关分析。其主设置面板如图所示:析。其主设置面板如图所示:待分析变量列表待分析变量列表变量列表变量
12、列表相关系数相关系数显著性检验选项显著性检验选项第14页/共123页第15页/共123页(2 2)相关性输出,)相关性输出,“相关性相关性”表格给出的是表格给出的是PearsonPearson相关系数及其检相关系数及其检验结果:验结果:“相关系数相关系数”表格给出的是两个非参数相关系数及其检验结表格给出的是两个非参数相关系数及其检验结果。可见,果。可见,3 3个相关系数在个相关系数在0.010.01和和0.050.05的显著性水平(双边检验)上都的显著性水平(双边检验)上都非常显著,从而推断体重和肺活量之间存在着明显的正相关关系。非常显著,从而推断体重和肺活量之间存在着明显的正相关关系。(1
13、1)描述性输出,)描述性输出,“描述性统计量描述性统计量”表格给出了两个变量的基本统计表格给出了两个变量的基本统计信息,包括均值、标准差和频率。信息,包括均值、标准差和频率。第16页/共123页 Partial 过程第17页/共123页l偏相关分析偏相关分析也称净相关分析,它在控制其他变量的线也称净相关分析,它在控制其他变量的线性影响下分析两变量间的线性相关,所采用的是工具性影响下分析两变量间的线性相关,所采用的是工具是是偏相关系数偏相关系数(净相关系数)。运用偏相关分析可以(净相关系数)。运用偏相关分析可以有效地揭示变量间的真实关系,识别干扰变量并寻找有效地揭示变量间的真实关系,识别干扰变量
14、并寻找隐含的相关性。隐含的相关性。如控制年龄和工作经验的影响,估计如控制年龄和工作经验的影响,估计工资收入与受教育水平之间的相关关系。工资收入与受教育水平之间的相关关系。lPartialPartial过程,当进行相关分析的两个变量的取值都受到其他变量的影响时,就可以利用偏相关分析对其他变量进行控制,输出控制其他变量影响后的相关系数。第18页/共123页举例:举例:分析身高与肺活量之间的相关性,要控制体重在相关分析过程中的分析身高与肺活量之间的相关性,要控制体重在相关分析过程中的影响。影响。1.1.设置偏相关分析的参数。设置偏相关分析的参数。依次单击依次单击“Analyze-Correlate-
15、Patial”Analyze-Correlate-Patial”执行偏相关分析。其主设置执行偏相关分析。其主设置面板如图所示:面板如图所示:第19页/共123页0 0阶偏相关阶偏相关(Pearson)Pearson)1 1阶偏相关阶偏相关显著相关显著相关相关不显著相关不显著第20页/共123页(1 1)描述性输出,)描述性输出,“描述性统计量描述性统计量”表格给出了三个变量的基本统计信表格给出了三个变量的基本统计信息,包括均值、标准差和频率。息,包括均值、标准差和频率。(2 2)相关性输出,)相关性输出,“相关性相关性”表格给出了所有变量的表格给出了所有变量的0 0阶偏相关(阶偏相关(Pear
16、sonPearson简单相关)系数和简单相关)系数和1 1阶偏相关系数的计算结果果、以及它们各自的显著性阶偏相关系数的计算结果果、以及它们各自的显著性检验检验P P值。分析结果显示:在体重值。分析结果显示:在体重 不变的条件下,身高与肺活量之间不存不变的条件下,身高与肺活量之间不存在显著在显著 线性相关关系。线性相关关系。第21页/共123页Distances过程过程第22页/共123页l距离分析:距离分析:此过程可以在观测记录之间或者此过程可以在观测记录之间或者 不同变量之间进行不同变量之间进行相似性和相似性和不相似性不相似性分析。相似性分析可以用于检测观测值的接近程度,不相似性分分析。相似
17、性分析可以用于检测观测值的接近程度,不相似性分析可用于考察各变量的内在联系和结构。该过程一般不单独使用,而是作析可用于考察各变量的内在联系和结构。该过程一般不单独使用,而是作为因子分析、聚类分析和多维尺度分析等的预分析过程,以帮助了解复杂为因子分析、聚类分析和多维尺度分析等的预分析过程,以帮助了解复杂数据集的内部结构,为进一步的分析做准备。数据集的内部结构,为进一步的分析做准备。l与距离分析有关的统计量分为相似性测度和不相似性测试两大类。与距离分析有关的统计量分为相似性测度和不相似性测试两大类。第23页/共123页l不相似性测度不相似性测度a a、对定距、对定距变量变量的测度可以使用的统计量有
18、的测度可以使用的统计量有EuclidEuclid欧氏距离、平方欧氏距离欧氏距离、平方欧氏距离、契、契比雪夫距离比雪夫距离等。等。b b、对、对定序变量,定序变量,使用卡方使用卡方不相似测度和不相似测度和PhiPhi方不相似测度方不相似测度。c c、对二值(只有两种取值)、对二值(只有两种取值)变量变量,使用欧氏距离、平方欧氏距离、,使用欧氏距离、平方欧氏距离、Lane and Lane and Williams Williams 不相似测度。不相似测度。l相似性测度:相似性测度:a a、对定距、对定距变量的测度,主要有变量的测度,主要有统计量统计量PearsonPearson相关或余弦相关或余
19、弦距离距离。b b 、对二值变量的相似性测度主要包括简单匹配系数、对二值变量的相似性测度主要包括简单匹配系数、JaccardJaccard相似性指数等。相似性指数等。在通常使用的距离中,最常用的是在通常使用的距离中,最常用的是欧式距离。欧式距离。第24页/共123页案例:打开案例:打开“地区经济发展水平指标地区经济发展水平指标.sav”.sav”第25页/共123页参数设置:参数设置:距离的计算对象距离的计算对象距离的测度类型距离的测度类型分析变量例表分析变量例表第26页/共123页结果分析:结果分析:第27页/共123页(1 1)案例处理摘要。)案例处理摘要。“案例处理摘要案例处理摘要”表格
20、给出了数据使用的基本情况。表格给出了数据使用的基本情况。主要是对有无缺失值的统计信息,可见本例的主要是对有无缺失值的统计信息,可见本例的1111个案例没有缺失,全部用个案例没有缺失,全部用于分析。于分析。(2 2)近似矩阵。)近似矩阵。“近似矩阵近似矩阵”表格给出的是各变量之间的相似矩阵,图表格给出的是各变量之间的相似矩阵,图中以线框标注了相关系数较大的几对变量。它们在进一步的分析中应重点中以线框标注了相关系数较大的几对变量。它们在进一步的分析中应重点关注,或者直接对其进行适当的预处理(例如变量约减)关注,或者直接对其进行适当的预处理(例如变量约减)相关分析与回归分析第28页/共123页相关分
21、析与回归分析线性回归线性回归第29页/共123页线性回归线性回归事物关系函数关系(一一对应)统计关系(非一一对应)线性相关非线性相关第30页/共123页回归分析(regression analysis)确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。p涉及的自变量的多少a.一元回归分析b.多元回归分析p自变量和因变量之间的关系类型,a.线性回归分析b.非线性回归分析线性回归第31页/共123页回归分析一般步骤:确定回归方程中的解释变量(自变量)和被解释变量(因变量)确定回归模型建立回归方程对回归方程进行各种检验利用回归方程进行预测线性回归第32页/共123页一元线性回归模型是指只
22、有一个解释变量的线性回归模型,用于揭示被解释变量与另一个解释变量之间的线性关系。一元线性回归数学模型:其中0和1是未知参数,分别称为回归常数和回归系数,称为随机误差,是一个随机变量,且应该满足两个前提条件:E()=0 var()=2线性回归模型线性回归第33页/共123页多元线性回归模型是指有多个解释变量的线性回归模型,用于揭示被解释变量与其他多个解释变量之间的线性关系。多元线性回归数学模型:其中0、1、p都是未知参数,分别称为回归常数和偏回归系数,称为随机误差,是一个随机变量,且同样满足两个前提条件:E()=0 var()=2线性回归线性回归模型第34页/共123页回归参数的普通最小二乘估计
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 相关 分析 回归 专题

限制150内