回归分析实验报告.docx
附带残差分析的多元线性回归分析报告实验报告实验课程: 信息分析专业: 信息管理与信息系统班级: 学生姓名: 指导教师:请 输 入 姓 名完成时间: 2023年1月4日一实验目的多元线性回归简单地说是涉及多个自变量的回归分析,主要功能是处理两个变量之间的线性关系,建立线性数学模型并进行评价预测。本实验要求掌握附带残差分析的多元线性回归理论与方法。二实验环境实验室308教室三实验步骤与内容1打开应用统计学实验指导书,新建excel表ty(年销售量) x1(地区人口)x2 (人均收入)11.6227.42.4521.2183.25432.2337.53.80241.3120.52.83850.678.62.34761.6926.53.78270.819.83.00881.92332.4591.1619.52.137100.555.32.56112.52434.02122.3237.24.427131.4423.62.66141.0315.72.088152.12372.6052打开SPSS,将数据输入。3调用SPSS主菜单的分析>回归>线性命令,打开线性回归对话框,指定因变量(工业GDP比重)和自变量(工业劳动者比重、固定资产比重、定额资金流动比重),以及回归方式;逐步回归(图1)图1 线性对话框4.在统计栏中,选择估计以输出回归系数B的估计值、t统计量等,选择Duribin-watson以进行DW检验;选择模型拟合度输出拟合优度统计量值,如R2、F统计量值等(图2)。图2 统计量栏5在线性回归栏中选择直方图和正态概率图以绘制标准化残差的直方图和残差分析与正态概率比较图,以标准化预测值为纵坐标,标准化残差值为横坐标,绘制残差与Y的预测值的散点图,检验误差变量的方差是否为常数(图3)。图3 绘制栏6.提交分析,并在输出窗口中查看结果,以及对结果进行分析。表1 输入移去的变量a模型输入的变量移去的变量方法1地区人口.步进(准则: F-to-enter 的概率 <= .050,F-to-remove 的概率 >= .100)。2人均收入.步进(准则: F-to-enter 的概率 <= .050,F-to-remove 的概率 >= .100)。a. 因变量: 年销售量系统在进行逐步分析的过程中产生了两个回归模型,模型1先将与因变量(销售收入)线性关系的自变量地区人口引入模型,建立他们之间的一元线性关系。而后逐步引入其他变量,表1中模型2表明将自变量人均收入引入,建立二元线性回归模型,可见地区人口和人均收入对销售收入的影响同等重要。表2 模型汇总c模型RR 方调整 R 方标准 估计的误差Durbin-Watson1.995a.991.990.061072.999b.999.999.021772.701a. 预测变量: (常量), 地区人口。b. 预测变量: (常量), 地区人口, 人均收入。c. 因变量: 年销售量从表2中给出了两个模型各自的R2和调整后的R2,第一个模型中的销售收入中有99%的变动可以用地区人口的变动解释,第二个模型中地区人口和人均收入的变动可以解释销售收入中99.9%的变动,显然第二个模型的拟合数据效果比较好一点。 此外,还给出了第二个模型的DW简言之2.701,按照a=0.05、n=15、k=2,查表,得到DW检验临界值dl和du分别为0.95和1.54,因为du<=d<=4du,不从在自相关。表3 Anova 方差分析表模型平方和df均方FSig.1回归5.34215.3421432.139.000a残差.04813.004总计5.390142回归5.38422.6925679.466.000b残差.00612.000总计5.39014a. 预测变量: (常量), 地区人口。b. 预测变量: (常量), 地区人口, 人均收入。c. 因变量: 年销售量表3中给出了两个模型的F检验值,查表可知当a=0.05,自由度为(1,13)时,F检验的临界值为4.67,第一个模型的F值为1432.139,远远大于临界值,拒绝原假设,备择假设为真,即至少有一个bi不等于0,因此模型1有效。当a=0.05,自由度为(2,12)时,F检验的临界值为3.88,第二个模型的F值为5679.466,模型2也通过了有效性的检验。表4 系数 回归系数表模型非标准化系数标准系数tSig.B标准 误差试用版1(常量).228.0376.115.000地区人口.053.001.99537.844.0002(常量).035.0241.420.181地区人口.050.001.93481.924.000人均收入.092.010.1089.502.000a. 因变量: 年销售量根据表中非标准化系数B的数值可知,逐步回归过程先后建立的两个回归模型分别是:模型1:销售收入=0.228+0.53*地区人口模型2:销售收入=0.35+0.05*地区人口+0.092*人均收入 表中给出了两个模型各个自变量系数的t检验值,其自由度为n-k-1,查表可知当a=0.05,自由度为13时,t检验的临界值为2.160,自由度为12时,t检验的临界值为2.179,可见回归系数显著。 此外,F统计量的值较大,t统计量的值也通过了检验,因此不存在严重的多元共线性问题。 回归分析中,总假定残差服从正态分布,图4和图5就是根据样本数据的计算结果显示残差分布的实际状况,然后对残差分布是否为正态分布的假设做出检验。图4 残差分布直方图图5 观测量累计概率图 从残差的直方图与图上的正态分布曲线相比较,可以认为残差基本服从正态分布。进一步观察观测量累计概率图(图5),图中的斜率对应着一个均值为0的正态分布,可以看出图上的散点大致散布在斜线的附近,因此可以认为残差分布基本上是正态的。图6 标准残差与标准y的预测值散点图从图6中看到,随着y的变化,残差无明显变化,因此误差变量的方差为常数,不具有异方差性。7进行预测正如前面所说的,多元当中计算特定的值预测区间的置信区间估计以及给定的条件下期望值的置信区间估计所使用的公式比较复杂们可以使用SPSS进行简化,操作步骤为:1)在原始数据文件中进入回归模型的自变量下方输入给定的值,相应的因变量将产生缺失值;2)选择主菜单分析回归线性,指定自变量和因变量;3)单击保存对话框,选择预测值未标准化。选择预测区间均值、单值以及置信区间95%,4)提交运行,除了输出回归分析结果外,还将在数据文件中生成pre_1、lmci_1、umic_1、lici_1和uici_1等变量。Pre_1保存点预测值,lmci_1和umci_1分别保存y期望值预测期间的下限和上限,lici_1和uici_1分别保存特定y值预测区间的下限和上限。图7图8在图7和图8中,我们可以得到:时间t=1,销售收入的预测值是1.61896,地区人口的预测值是1.60060,人均收入的预测值1.63731,而销售收入(置信度为95%)为1.568091.66982.将数据导出excel中,求均值得:在整段时间里,销售收入的预测值是1.506,地区人口的预测值是1.485191,人均收入的预测值1.526811,而销售收入(置信度为95%)为1.454061.55794. 9 / 9