多元线性回归实习实际例题分析 .doc
多元线性回归分析实习 线性回归过程(Linear Regression)可用于分析一个或多个自变量与一个因变量之间的线性数量关系,并可进行回归诊断分析。l 例题3.1某地29名13岁男童身高x1(cm),体重x2(kg),肺活量y(L)的实测值数据见表3.1,试建立肺活量与身高、体重的回归关系。 操作过程 数据格式 见数据文件< 多元线性回归例题.sav >Obs身高(cm)体重(kg)肺活量(L) 1 135.1 32.0 1.75 2 163.6 46.2 2.75 3 156.2 37.1 2.75 4 167.8 41.5 2.75 5 145.0 33.0 2.50 6 165.5 49.5 3.00 7 153.3 41.0 2.7529154.639.52.50 该数据库有4列29行,即4个变量、29个记录(Observation),每个变量占1列,每个记录占1行,该数据格式为一般多元分析的数据格式。 过程 Analyze Regression Linear 单击后可弹出 Linear Regression 线性回归对话框。该对话框内有诸多选项,现分别介绍。 选项 u Dependent 因变量。只能选入1个因变量,本例选入变量“肺活量”。u Independent 自变量。可以是1个或多个,本例选入变量“身高、体重”。u Block 1 of 1 当选择不同组合的自变量进行回归分析时,可保存每次选择的自变量,用 Previous 按钮和 Next 按钮可分别向前、向后翻找各种自变量的组合。u Method 选择回归模型拟合的分析方法,有5种可供选择。Enter 强迫引入法,即一般回归分析,所选自变量全部进入方程,为系统默认方式。Stepwise 逐步回归法,根据在 Options 对话框中设定的标准在计算过程中逐步加入有显著性意义的变量和剔除无显著性意义的变量,直到所建立的方程式中不再有可加入和可剔除的变量为止。Remove 强迫剔除法。根据设定的条件剔除自变量。Backward 向后逐步法。所选自变量全部进入方程,根据Options对话框中设定的标准在计算过程中逐个剔除变量,直到所建立的方程式中不再含有可剔除的变量为止。Forward:向前逐步法。根据Options对话框中设定的标准在计算过程中逐个加入单个变量,直到所建立的方程式中不再有可加入的变量为止。u Selection variable 选择符合某变量条件的观察单位进行分析,每次只能选入1个变量。选入变量后,激活 Rule按钮,弹出 Set Rule 对话框,选择观察单位范围,有6种方式供选择,在Value框内输入设定值。 equal to 等于设定值。 not equal to 不等于设定值。 less than 小于设定值。 Less than or equal to 小于或等于设定值。 greater than 大于设定值。 greater than or equal to 大于或等于设定值。u Statistics :选择需输出的统计量。单击按钮,弹出 Statistics 对话框。Regression coefficient 回归系数 Estimate 一般回归系数和标准回归系数及其标准误和显著性检验。Confidence interval 输出一般回归系数的95%可信区间。Covarience matrix 方差及协方差知阵和相关矩阵。Model fit 模型检验,给出复相关系数R,决定系数R2及方差分析结果。R squared change 输出调整R2及相应的F值和P值。Descriptive 输出每个变量的均数,标准差,样本容量,相关系及单侧检验P值的矩阵。Part and partial correlation 输出简单相关系数及偏相关系数。Collinearity 共线性诊断。u Residuals 残差¨ Dubin-Watson 对残差的顺序相关的Dubin-Watson检验(检验残差间是否独立)。¨ Casewise diagnostics 个体诊断,给出残差和预测值、标准化残差和标准化预测值的统计量。选此项后,激活以下选项。 Outliers outside 3 standard deviations 凡个体观察值超出均数加减n倍标准差被视为离群点,系统默认此项n为3。 All cases 给出所有观察单位的残差、标准化残差和预测值。u Plots :残差散点图、正态概率图、离群点图及直方图。u Options :选项对话框。 Use probability of F:Entry 0.05 选入变量的显著性水准。系统默认0.05,即对回归方程检验时,若P0.05,则该变量被选入方程。Removal 0.10 剔除变量的显著性水准。系统默认0.1,即对回归方程检验时,若P0.1,则该变量剔除出方程。 Use F value 以F值为剔选变量准则。Entry 3.84 选入变量的F界值,系统默认3.84,即对回归方程检验时,若P3.84,则该变量被选入方程。Removal 2.71 剔除变量的F界值,系统默认2.71,即对回归方程检验时,若P2.71, 则该变量剔除出方程。¨ Include constant in equation 回归方程中含有常数项。u Missing value 缺失值处理。 Exclude case listwise 仅剔除所有变量中有缺失值的观察单位。 Exclude case pairwise 仅剔除正在参与运算的一对变量中有缺失值的观察单位。 Replace with meanu Save 将框内所选项存为新变量或新文件。击 Save 按钮,弹出Save(存新变量/文件)对话框¨ Predicted Values 预测值。Unstandardized 非标准化预测值。Standardized 标准化预测值Adjusted 去掉当前记录时,当前模型对该记录的预测值。S.E. of mean prediction 预测值均数的标准误。¨ Residuals 残差。Unstandardized 非标准化残差。Standardized 标准化残差。Studentized 学生化残差。Deleted 剔除残差。Studentized Deleted 剔除学生化残差。¨ Distances 距离。 Mahalanobis 马氏距离。Cooks Cook 距离。Leverage values Leverage值。¨ Influence Statistics 判断强影响点的影响统计量。DfBeta(s) 剔除某一观察值所引起的回归系数的变化。DfBeta(s) 标准化DfBeta。DfFit 所引起的预测值的变化。Standardized DfFit 标准化DfFit。Covariance ratio 剔除某一观察值的协方差阵与含全部观察值的协方差阵的比率。¨ Prediction Intervals 预测值的可信区间。Mean 预测值均数的可信区间。Individual 个体预测值的容许区间。Confidence Interval 95% 可信区间范围,系统默认95%。¨ Save to New File 将所选项存入新建文件。Coefficient statistics File 主要结果输出 1. 默认选项的输出结果 进入和剔除的变量列表。因默认的选项是enter,所以体重与身高均引入方程。 模型概况:默认状态下给出复相关系数,决定系数,调整决定系数和剩余标准差。复相关系数 R=0.743决定系数 R2=0.552调整决定系数 R2arj=0.517剩余标准差 Sy.12m=0.31164 模型的假设检验:采用方差分析方法,结果见下表。F=16.003, P<0.001, 回归模型有统计学意义。 偏回归系数: 模型内包含变量的偏回归系数、标准化偏回归系数及偏回归系数的t 检验结果。由该表可以列出回归方程:2. 一般可选项的输出结果 描述统计量 选择主对话框中的 Statistics 对话框,然后选中 Descriptives 即可。 相关系数距阵 相关系数矩阵及检验结果:表的上部为积矩相关系数矩阵,中部为相关系数单侧检验的P值,下部为样本含量。Pearson 积矩相关系数矩阵(Pearson Correlation)。Sig. 相关系数单侧检验的P值。3. 逐步回归分析逐步回归分析(Stepwise):方程内只选入1个变量“体重”,即个自变量中,只有“体重”对肺活量有显著性影响。模型概述(逐步回归分析,Stepwise):决定系数: R=0.546。注意:当模型中只有体重变量知,决定系数R2仅由0.552减至0.546。模型检验(逐步回归分析,Stepwise):对方程检验,F=32.477, P<0.001,模型有统计学意义。参数估计: