实训五用Excel进行统计相关回归分析(共17页).docx
-
资源ID:13959110
资源大小:432.79KB
全文页数:17页
- 资源格式: DOCX
下载积分:20金币
快捷下载
会员登录下载
微信登录下载
三方登录下载:
微信扫一扫登录
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
实训五用Excel进行统计相关回归分析(共17页).docx
精选优质文档-倾情为你奉上实训五用Excel进行统计相关分析目的与要求:掌握利用相关系数对相关关系进行测定,并且掌握相关系数的性质,明确相关分析与回归分析各自特点以及它们的区别与联系,建立回归直线方程,计算估计标准误差,理解估计标准误差的意义。案例15:用EXCEL进行相关与一元线性回归分析一、用EXCEL绘制散点图例1近年来国家教育部决定将各高校的后勤社会化。某从事饮食业的企业家认为这是一个很好的投资机会,他得到十组高校人数与周边饭店的季销售额的数据资料,并想根据高校的数据决策其投资规模。操作过程:打开Excel工作簿,输入原始数据如图7-1所示,该表为相关表。图7-1从“插入”菜单中选择“图表”选项,打开“图表向导”对话框如图7-2所示。在“图表类型”列表中选择XY散点图,单击“下一步”按钮。图7-2在数据区域中输入B2:C11,选择“系列产生在列”,如图7-3所示,单击“下一步”按钮。图7-3打开“图例”页面,取消图例,省略标题,如图7-4所示。图7-4单击“完成”按钮,便得到XY散点图如图7-5所示。图7-5二、计算相关系数用EXCE计算相关系数有两种方法,一是利用相关系数函数,另一种是利用相关分析宏。例210个学生身高和体重的情况如下:学生身高(公分)体重(公斤)1234567891017116717715416917516315217216053566449556652475850要求对身高和体重作相关和回归分析。 操作步骤如下:首先把有关数据输入EXCEL的单元格中,如图7-6图7-6 EXCEL数据集在EXCEL中,提供了两个计算两个变量之间相关系数的方法,CORREL函数和PERSON函数,这两个函数是等价的,这里我们介绍用CORREL函数计算相关系数:第一步:单击任一个空白单元格,单击插入菜单,选择函数选项,打开粘贴函数对话框,在函数分类中选择统计,在函数名中选择CORREL,单击确定后,出现CORREL对话框。第二步:在array1中输入B2:B11,在array2中输入C2:C11,即可在对话框下方显示出计算结果为0.896。如图7-7所示:图7-7 CORREL对话框及输入结果2.用相关系数宏计算相关系数第一步:单击工具菜单,选择数据分析选项,在数据分析选项中选择相关系数,弹出相关系数对话框,如图7-8所示:图7-8 相关系数对话框第二步:在输入区域输入$B$1:$C$1,分组方式选择逐列,选择标志位于第一行,在输出区域中输入$E$1,单击确定,得输出结果如图7-9图7-9 相关分析输出结果在上面的输出结果中,身高和体重的自相关系数均为1,身高和体重的相关系数为0.896,和用函数计算的结果完全相同。 三、用EXCEL进行一元线性回归分析 EXCEL进行回归分析同样分函数和回归分析宏两种形式,其提供了9个函数用于建立回归模型和预测。这9个函数分别是:INTERCEPT 返回线性回归模型的截距SLOPE 返回线性回归模型的斜率RSQ 返回线性回归模型的判定系数FORECAST 返回一元线性回归模型的预测值STEYX 计算估计的标准误TREND 计算线性回归线的趋势值GROWTH 返回指数曲线的趋势值 LINEST 返回线性回归模型的参数LOGEST 返回指数曲线模型的参数用函数进行回归分析比较麻烦,我们这里介绍使用回归分析宏进行回归分析。第一步:单击工具菜单,选择数据分析选项,出现数据分析对话框,在分析工具中选择回归,如图7-10 图7-10 数据分析对话框第二步:单击确定按钮,弹出回归对话框,在Y值输入区域输入$B$2:$B$11,在X值输入区域输入$C$2:$C$11,在输出选项选择新工作表组,如图7-11所示:图7-11回归对话框第四步:单击确定按钮,得回归分析结果如图7-12所示图7-12 EXCEL回归分析结果在上面的输出结果中,第一部分为回归统计,该部分给出了回归分析中的一些常用统计量,Multiple指相关系数,R Square指判定系数,Adjusted指调整后的判定系数,标准误差指估计的标准误,观测值指样本容量;第二部分为方差分析,该部分给出了自由度(df),回归平方和、残差平方和、总平方和(SS),回归和残差的均方(MS),F检验的显著性水平(Significance F), p值(F),该部分在主要作用是对回归方程的线性关系进行显著性检验;第三部分是参数估计的有关内容,包括回归方程的截距(Intercept)、斜率(X Variable 1)Coefficient指系数,用于检验的回归系数的t统计量(t stat)、P_值(P-value),以及截距和斜率的置信区间(Lower 95%和Upper95%)。案例16 多元线性回归分析我们以中国民航客运量预测为例进行多元线性回归分析。第一步确定因变量。我们以预测目标中国民航客运量,作为因变量。第二步确定自变量。在定性分析的基础上,我们确定国内生产总值()、实际利用外资额()、民航线里程()、来华旅游入境人数()为自变量。搜集样本资料如表7.4.1所示。表7.4.1年份民航客运量(万人)y国内生产总值(亿元)x1实际利用外资额(亿美元)x2民航线里程(万公里)x3旅游入境人数(万人)x419833915934.519.8122.91947.71984554717127.0526.021285.219857478964.446.4727.721783.3198699710202.272.5832.432281.91987131011962.584.5238.912690.21988144214928.3102.2637.383169.51989128316909.2100.5947.192450.11990166018547.9102.8950.682746.21991217821617.8115.5455.913335.01992288626638.1192.02383.663811.51993338334634.4389.696.084152.71994403846759.4432.13104.564368.41995511758478.1481.37112.94638.71996555567884.6548.04116.655112.81997563074462.6644.08142.505758.81998575578345.2585.57150.586347.81999609482067.5526.59152.227279.62000672289442.2593.56150.298344.42001752495933.3496.72155.368901.3依据上述样本资料,计算出因变量与每个自变量的相关系数,利用Excel软件得到下列相关系数(见表7.4.2)表7.4.2X1X2X3X4y0.0.0.984550.利用Excel计算相关系数的步骤如下:“工具”“数据分析”“相关系数”“确定”在“输入区域”输入y与x1数字区域在“输出区域” 输入A1单元格“确定”就得到y与x1之间的相关系数0.。 其余相关系数以此类推。第三步 建立模型,进行参数估计。由表7.4.2知,自变量国内生产总值、实际利用外资额、民航线里程、来华旅游入境人数分别与因变量y间的简单线性相关系数都较高,都在0.95以上。不妨我们建立四元线性回归模型:。依据表7.4.1中的样本资料,利用Excel软件计算有关结果如输出结果7.4.3所示(操作步骤如一元线性回归)。输出结果7.4.1回归统计Multiple R0.R Square0.Adjusted R Square0.标准误差282.3387观测值19方差分析dfSSMSFSignificance F回归分析41E+08313.75681.58E-13残差1479715.12总计181.01E+08Coefficients标准误差t StatP-valueIntercept-139.555232.7273-0.599650.55832X Variable 10.0.2.0.X Variable 21.1.1.0.X Variable 37.9.558490.0.X Variable 40.0.1.0.第四步 进行有关统计显著性检验从F统计量角度看,四元线性回归模型通过检验(Significance F1.57571E-130.05)。从t检验角度看,只有国内生产总值通过t检验(P-value0.05)。不妨我们先剔除统计量(t Stat)最小的那个自变量,重新建立回归模型。因为0.“X Variable 3t Stat”(0.)最小,所以我们先剔除自变量民航线里程,重新建立三元线性回归模型。利用Excel软件计算出三元线性回归模型有关信息如输出结果7.4.2所示。输出结果7.4.2回归统计Multiple R0.R Square0.Adjusted R Square0.标准误差278.7221观测值19方差分析dfSSMSFSignificance F回归分析3429.05779.32E-15残差1577686.03总计181.01E+08Coefficients标准误差t StatP-valueIntercept-54.3332203.3073-0.267250.X Variable 10.0.2.0.X Variable 22.1.2.0.03188X Variable 30.0.2.0.05001从F统计量角度看,三元线性回归模型通过检验(Significance 9.32E-150.05)。从t检验角度看,国内生产总值通过t检验(P-value0.05)和实际利用外资额通过t检验(P-value0.05),而来华旅游入境人数没有通过t检验(P-value0.05),但相差很小。如果我们再剔除华旅游入境人数这个自变量,重新建立二元线性回归模型的话会降低整体模型的优良性。(见输出结果7.4.3)输出结果7.4.3回归统计Multiple R0.R Square0.Adjusted R Square0.标准误差308.0371观测值19方差分析dfSSMSFSignificance F回归分析2525.05932.57E-15残差1694886.86总计181.01E+08Coefficients标准误差t StatP-valueIntercept315.5839117.01662.0.X Variable 10.0.8.1.51E-07X Variable 21.0.1.0.综上所述,对于本例我们可以建立下列三元线性回归模型:式中,代表民航客运量;代表国内生产总值;代表实际利用外资额;代表来华旅游入境人数。 第五步 进行预测 1、点预测当国内生产总值为亿元,实际利用外资额为600亿美元,来华旅游入境人数9000万人次时,民航客运量为: 7647(万人)2、区间预测(1)个别值的区间预测若给定了显著水平0.05,个别值在95%概率保证下的区间预测为:其中,=278.7221=1.753 =1.=0.即76471.753×278.7221×1. 70748220之间(2)平均值的区间预测均值在95%概率保证下的区间预测为其中,=278.7221=1.753 =0.614即76471.753×278.7221×0.614 73477947之间附:矩阵的运算(1)矩阵乘法 按住鼠标左键拖放选定存放结果的单元格区域,输入计算公式=MMULT( A,B) 按Ctrl+Shift+Enter复合键确认。(2)矩阵转置 按住鼠标左键拖放选定存放结果的单元格区域,输入计算公式=TRANSPOSE( A) 按Ctrl+Shift+Enter复合键确认(3)逆矩阵 按住鼠标左键拖放选定存放结果的单元格区域,输入计算公式=MINVERSE(A ) 按Ctrl+Shift+Enter复合键确认案例17 非线性回归分析非线性回归模型具体形式很多,由于篇幅所限,在此不一一介绍,仅通过例题说明其应用思想。例7.5.1设有12个同类企业的月产量与单位产品成本资料如表7.5.1所示。试配合适当的回归模型分析月产量与单位产品成本之间的关系。表5.1.1编号产量XLgY单位成本Y1102.1602162.1513202.1144252.1285311.856361.917401.758451.769511.6610561.6011601.6112651.60根据表7.5.1资料,将月产量与单位产品成本作散点图如图7.5.1所示。图7.5.1由图7.5.1可以看出月产量与单位产品成本之间可以配合一条指数曲线:两边取对数得:利用软件,进行回归分析运行结果如输出结果7.5.1所示。(操作步骤如一元线性回归)。输出结果7.5.1回归统计Multiple R0.96097R Square0.Adjusted R Square0.91581标准误差0.观测值12方差分析dfSSMSFSignificance F回归分析10.0.120.65626.68E-07残差100.0.总计110.Coefficients标准误差t StatP-valueIntercept2.0.71.6.74E-15X Variable 1-0.008310.-10.6.68E-07由输出结果7.5.1知,2. ,-0.00831 , , ,F120.6562Significance F6.68E-07-10.P-value6.68E-07对2.-0.00831分别求反对数得=182.4246 =0.利用软件求反对数的操作步骤如下:点击粘贴函数POWER102.确定(182.4246)例7.5.2某面粉厂近十一年的面粉销售利润率、工人劳动生产率、单位成本资料如表7.5.2所示。我们知道,劳动生产率的提高和单位成本的降低,能使利润增加。因此我们认为,利润率与劳动生产率成正比,与单位成本成反比。设利润率为y,劳动生产率为x1,单位成本为x2,建立回归模型为:表7.5.2年份利润率()y劳动生产率(吨人)x1单位成本(元吨)x219921.573669.0719931.974687.1619942.156646.5219951.935057.5319961.613878.9319971.373599.7819981.794868.1219992.225486.2320001.393459.8920011.635048.8320022.276585.94设,则利用软件,进行回归分析运行结果如输出结果7.5.2所示。由输出结果7.5.2知, F179.0624Significance F2.28E-070.05F检验通过10.P-value0.0.05检验没通过2= 7.88228P-value4.86E-050.05 检验通过0.输出结果7.5.2回归统计Multiple R0.R Square0.97815Adjusted R Square0.标准误差0.观测值11方差分析dfSSMSFSignificance F回归分析21.0.50653179.06242.28E-07残差80.022630.总计101.Coefficients标准误差t StatP-valueIntercept0.0.1.0.X Variable 10.0.0.0.X Variable 212.39161.7.882284.86E-05根据上述检验,两个自变量中只有单位成本对利润率的影响显著,而劳动生产率对利润率的影响并不显著。这是因为两个自变量单位成本和劳动生产率之间存有多重共线性。不妨我们删去劳动生产率这个因素,重新建立回归模型。利用软件,进行回归分析运行结果如输出结果7.5.3所示。输出结果7.5.3回归统计Multiple R0.R Square0.Adjusted R Square0.97432标准误差0.观测值11方差分析dfSSMSFSignificance F回归分析11.1.380.40361.133E-08残差90.0.00266总计101.Coefficients标准误差t StatP-valueIntercept0.0.1.0.X Variable 113.346420.19.503941.13E-08由输出结果7.5.3知,F380.4036Significance F1.133E-080.0519.50394P-value1.13E-080.050.模型统计显著性检验通过。【实训五上机练习】1.单位成本与产量的关系(见表7.1)。 表7.1 铸铁件产量及单位成本年 月铸铁件产量(吨)单位产品成本(元)上年1月8106702月5477803月9006204月5308005月540780 6月800675 7月8206508月850 620 9月600 735 10月690 720 11月700 715 12月860 610今年1月920 5802月840 630 3月1 000 570 要求:(1)绘制铸铁件产量与单位产品成本散点图,计算其相关系数;(2)拟合回归方程。2.已知某地区1978年2003年的国内生产总值GDP与货运周转量的数据如表7.2所示。年份GDP(亿元)货运周转量(亿吨公里)年份GDP(亿元)货运周转量(亿吨公里)19781979198019811982198319841985198619871988198919905.08.712.016.019.022.025.028.036.040.041.032.034.09.012.014.015.017.020.020.523.530.035.032.024.028.0199119921993199419951996199719981999200020012002200344.047.054.056.556.057.059.063.066.567.070.570.673.032.034.037.040.044.043.543.543.544.045.547.046.052.0要求:(1)绘制散点图;(2)试对其进行一元线性回归分析(即计算相关系数、建立回归方程);(3)若2005年国内生产总值GDP达到80亿元,试对其货运周转量做出预测(包括点预测和区间预测)3.教育经费支出与学生成绩的关系学生教育达到的水平与学生所居住的洲在教育方面的经费支出多少有关系吗?在许多地区,这个重要问题被纳税人提出;而纳税人又被他们的学区请求增加用于教育方面的税收收入。在这种情况下,为了确定在公立学校中教育经费支出和学生成绩之间是否存在某种关系,你将被邀请去参加教育经费支出和学生学习成绩的数据分析。美国联邦政府的全国教育进展评价(NAEP)计划常常被用来测量学生的教育水平。对于参加NAEP计划的35个洲,表1给出了每名学生每年的经常性教育经费支出和NAEP测试综合分数的统计数据。综合分数是数学、自然科学和阅读三门课程1996年(阅读课是1994年)NAEP测试分数的总和。参加测试的是8年级学生,只有阅读课是4年级学生,满分是1300分。对于未参加NAEP计划的13个洲,表2给出了每名学生每年的经常性教育经费支出。 表1 参加NAEP计划的洲每名学生每年的经常性教育经费支出和NAEP测试综合分数洲序号教育经费支出(美元)综合分数(分)洲序号教育经费支出(美元)综合分数(分)140495811945216292342358220655463834917580215338639455325802244836415430460323477264463777604245128649746636112532806508493461126551565794097614277629657104060614286413658116208615295410660123800618305477661134041618315060665145247625324985667156100625336055667165020626344374671174520627355561675188162628 表2 未参加NAEP计划的洲每名学生每年的经常性教育经费支出洲序号教育经费支出(美元)洲序号教育经费支出(美元)136028543824067955883426510626944658116391551641265796529713789075387 要求:(1)对这些数据做出数值的和图示的概述。(2)利用回归分析研究每名学生的教育经费支出和NAEP测试综合分数之间的关系,对你的调研结果进行讨论。(3)根据这些数据求出估计的回归方程,你认为能利用它来估计未参加NAEP计划洲的学生的综合分数吗?(4)假定你只考虑每名学生的教育经费支出在4000美元至6000美元之间的洲,对于这些洲,两变量之间的关系与根据35个洲的全部数据所得出的结论显现出任何不同吗?讨论你发现的结果,如果将教育经费支出少于4000美元或者多于6000美元的洲删除,你是否认为删除是合理的?(5)对未参加NAEP计划洲,求出学生综合分数的估计值。(6)根据上面的分析,你认为学生的教育水平与洲教育经费支出的多少相关吗?4.发生车祸次数与司机年龄有关吗?作为交通安全研究的一部分,美国交通部采集了每1000个驾驶执照发生死亡事故的车祸次数和有驾驶执照的司机中21岁以下者所占比例的数据,样本由42个城市组成,在一年间采集的数据如下:21岁以下者所占比例(%)每千个驾驶执照中发生车祸次数21岁以下者所占比例(%)每千个驾驶执照中发生车祸次数21岁以下者所占比例(%)每千个驾驶执照中发生车祸次数21岁以下者所占比例(%)每千个驾驶执照中发生车祸次数132.962162.80182.190183.614120.708121.405163.623101.92680.88591.433152.623141.643121.652100.03990.835162.943112.09190.33880.820121.913172.627111.849142.890152.814183.830122.24681.267132.63480.368142.885153.22490.926131.142142.352101.014173.25680.645111.294100.493 91.082174.100141.443 要求:(1)对这些数据做出数值的和图示的概述。(2)利用回归分析研究发生死亡事故的车祸次数和有驾驶执照的司机中21岁以下者所占比例之间的关系,对你的调研结果进行讨论。(3)从你的分析中,你能得出什么结论或提出什么建议吗?5.消费者调查股份有限公司(Consumer Research,Inc.)是一家独立的机构,该机构为各种类型的厂商调查消费者的态度和行为。在一项研究中,客户为了能预测用信用卡进行支付的数额,要求对消费者的特点进行调查研究。对于由25名消费者组成的一个样本,采集了有关年收入、家庭成员人数和年信用卡支付数额的统计资料如表7.4。表7.4年收入(千美圆)家庭成员人数(人)信用卡支付数额(美圆)5434016302315932451005054742312186455240703712731402334866447645134110253420848442192712477332251465342146344965426441221224484412995375417162656782133623557530142230204174828要求:(1)利用统计学的方法管理这些数据。对你的发现进行评述。(2)首先利用年收入作自变量,然后利用家庭成员人数作自变量,分别建立估计的回归方程。哪一个自变量是更好的预测年信用卡支付数额的变量?讨论你的发现。(3)利用年收入和家庭成员人数作自变量,建立估计的回归方程,讨论你的发现。(4)对于年收入为40000美圆的3口之家,预测该家庭的年信用卡支付数额是多少?专心-专注-专业