双变量回归与相关分析.ppt
双变量回归和相关分析双变量回归和相关分析相关和回归分析相关和回归分析相关分析和回归分析的任务相关分析和回归分析的任务研究对象:统计关系研究对象:统计关系相关相关分析旨在反映变量相互之间线性关系的分析旨在反映变量相互之间线性关系的强弱程度,无方向性,不考虑因果关系。强弱程度,无方向性,不考虑因果关系。回归分析侧重于考察一个或几个变量(自变回归分析侧重于考察一个或几个变量(自变量)的变化对另一个变量(应变量)的影响量)的变化对另一个变量(应变量)的影响程度,并通过一定的数学表达式来描述这种程度,并通过一定的数学表达式来描述这种关系。具方向性,通常包含因果关系。关系。具方向性,通常包含因果关系。相关和回归分析相关和回归分析散点图分析散点图分析(scatterplot)相关分析相关分析(correlation analysis)一元线性回归分析一元线性回归分析(univariate linear regression)曲线拟合曲线拟合(curve estimation)不讲不讲绘制散点图绘制散点图目的目的将相互关联的变量数据对将相互关联的变量数据对(X,Y)(X,Y)作为二维平作为二维平面的座标点,构建直角座标图,即面的座标点,构建直角座标图,即散点图散点图,以探究两变量间数量变化的趋势,为相关或以探究两变量间数量变化的趋势,为相关或回归分析提供初步的思路。回归分析提供初步的思路。方法方法 GraphsInteractives Scatterplot实例实例用已知浓度用已知浓度X的免疫球蛋白的免疫球蛋白A(IgA,g/ml)作火箭免作火箭免疫电泳,由于抗体抗原反应受扩散浓度梯度影响,形疫电泳,由于抗体抗原反应受扩散浓度梯度影响,形成的反应带呈火箭状。测得火箭高度成的反应带呈火箭状。测得火箭高度Y(mm)如下表所如下表所示,试分析抗体浓度与火箭高度的相互关系。示,试分析抗体浓度与火箭高度的相互关系。X(g/ml)0.20.40.60.81.01.21.41.6Y(mm)7.612.315.718.218.721.422.623.8先作散点图观察先作散点图观察实例实例-绘制散点图绘制散点图步骤一:步骤一:步骤一:步骤一:Graphs GraphsInteractiveInteractiveScatterplotScatterplot实例实例-绘制散点图绘制散点图步骤二:步骤二:步骤二:步骤二:确定横、纵确定横、纵确定横、纵确定横、纵座标座标座标座标输出散点图输出散点图输出散点图输出散点图相关分析相关分析作用作用:用相关系数用相关系数(r)(r)体现两个变量间的线性关系程度。体现两个变量间的线性关系程度。r:-1,+1r:-1,+1;r=1:r=1:完全正相关;完全正相关;r=-1:r=-1:完全负相关;完全负相关;r=0:r=0:无线性相关。无线性相关。说明说明:相关系数只是较好地度量了两变量间的线性相关程相关系数只是较好地度量了两变量间的线性相关程度,不能描述非线性关系。度,不能描述非线性关系。数据中的极端值对相关系数影响较大。数据中的极端值对相关系数影响较大。步骤步骤AnalyzeCorrelate Bivariate相关分析相关分析相关系数的计算相关系数的计算:Pearson 相关系数:对一般连续性、正态性数据适相关系数:对一般连续性、正态性数据适用。用。Spearman和和Kendall相关系数:相关系数:对分类变量的数据或变量值分布明显非正态或分布对分类变量的数据或变量值分布明显非正态或分布不明时,计算时先对离散数据进行排序或对定距变不明时,计算时先对离散数据进行排序或对定距变量值排(求)秩量值排(求)秩 -秩相关秩相关。实例实例-相关分析相关分析(数据同上数据同上)步骤一:步骤一:步骤一:步骤一:Analyze AnalyzeCorrelateCorrelateBivariateBivariate步骤二:步骤二:步骤二:步骤二:选择要分析的选择要分析的选择要分析的选择要分析的变量变量变量变量选择相关系数选择相关系数选择相关系数选择相关系数计算方法计算方法计算方法计算方法(默认(默认(默认(默认PearsonPearson法)法)法)法)实例实例-相关分析相关分析(结果输出结果输出)相关分析列联表相关分析列联表相关分析列联表相关分析列联表相关系数相关系数相关系数相关系数对零假设对零假设对零假设对零假设(r=0r=0)的检)的检)的检)的检验结果显示:验结果显示:验结果显示:验结果显示:否定零假设即否定零假设即否定零假设即否定零假设即X X和和和和Y Y极显著相关极显著相关极显著相关极显著相关相关分析相关分析偏相关偏相关:在分析两个变量间线性关系时,往往因为第三个变在分析两个变量间线性关系时,往往因为第三个变量的作用量的作用,使相关系数不能真正反映两个变量间的使相关系数不能真正反映两个变量间的线性程度。因此,有必要在控制住其他变量的影响线性程度。因此,有必要在控制住其他变量的影响下计算两个变量的相关关系,即所谓下计算两个变量的相关关系,即所谓“偏相关偏相关”。步骤步骤AnalyzeCorrelate Partial实例实例-偏相关分析偏相关分析某地29名13岁男童身高(cm)、体重(kg)和肺活量(ml)的数据如下表,试对三变量作相关分析 一般讲,体重大的人肺活量也大,是否身高也与肺活量直接相关呢?由一般讲,体重大的人肺活量也大,是否身高也与肺活量直接相关呢?由一般讲,体重大的人肺活量也大,是否身高也与肺活量直接相关呢?由一般讲,体重大的人肺活量也大,是否身高也与肺活量直接相关呢?由于体重与身高也存在关联,这三个变量彼此影响,问题相对复杂。于体重与身高也存在关联,这三个变量彼此影响,问题相对复杂。于体重与身高也存在关联,这三个变量彼此影响,问题相对复杂。于体重与身高也存在关联,这三个变量彼此影响,问题相对复杂。实例实例-偏相关分析偏相关分析若分别作若分别作若分别作若分别作身高身高身高身高、体重和肺活量体重和肺活量体重和肺活量体重和肺活量两两相关,结果如下两两相关,结果如下两两相关,结果如下两两相关,结果如下 身高、体重正相关身高、体重正相关身高、体重正相关身高、体重正相关(r=0.719*)(r=0.719*),体重、肺活量正相关,体重、肺活量正相关,体重、肺活量正相关,体重、肺活量正相关(r=0.613*)(r=0.613*),身高、肺活量身高、肺活量身高、肺活量身高、肺活量(r=0.588*)(r=0.588*)正相关。正相关。正相关。正相关。