应用统计学教案第6章 相关分析与回归分析.doc
应用统计学教案 张敏主编第6章 相关分析与回归分析教学内容6.1 相关分析6.2 一元线性回归分析6.3 回归方程的预测6.4 多元线性回归6.5 Excel在相关分析与回归分析中的应用教学要求1.理解相关关系和函数关系的异同; 2.掌握相关系数的计算和分析;3.掌握线性回归的基本原理和参数的最小二乘估计;4.掌握线性回归的拟合优度计算和分析;5.掌握线性回归议程的显著性检验;6.利用线性回归议程进行估计和预测。教学重点相关系数的计算和分析;参数的最小二乘估计;线性回归的拟合优度的计算和分析;线性回归方程的估计和预测教学难点参数的最小二乘估计教学方法课堂讲授、多媒体教学、课堂讨论、上机操作。课时数10课时(课堂讲授7课时+上机操作2课时+课堂练习1课时)导入案例某品牌手机电池经过技术改进,待机时间得以提高,从该工厂抽取一定数量的样本,测得其平均待机时间,以此推断该工厂生产的电池的待机时间。6.1 相关分析相关分析是研究现象之间相互关系的主要方式之一,通过相关分析,可以将现象之间的关系大小与方向测定出来,从而有利于指导下一步的行动。一般而言,现象之间的关系可以分为两种类型:函数关系和相关关系。6.1.1 函数关系和相关关系1. 函数关系函数关系是指变量之间一一对应的确定的数量依存关系。在这种关系中,当其中一个变量发生变化时,另外变量将按照某种确定的函数形式进行变化,其变化方向和程度只能呈现出一种结果,而无其他可能。若将现象用变量进行表示,则函数关系可表现为以下形式。设有两个变量x和y,变量y随变量x一起变化,并完全依赖于x,当变量x取某个数值时,y依确定的关系取相应的值,则称y是x的函数,记为y=f (x)。 如y=2x就是两个变量之间的函数关系,可以用图6.1表示。图6.1 函数关系2. 相关关系相关关系是指变量间的关系在数量上存在不确定的依存关系,一个变量的取值不能唯一地由另一个变量来确定,但它仍按某种规律在一定的范围内变化。若将现象用变量进行表示,则相关关系可表现为以下形式。当变量取某个值时,与之相关的变量的取值可能有若干个。如某个班学生的身高(cm)与体重(kg)之间的关系就是相关关系,如图6.2所示。图6.2 相关关系下面几种变量之间的关系均是常见的相关关系。居民可支配收入与支出之间的关系。学习时间和学习成绩之间的关系。企业研发投入和研发产出之间的关系。6.1.2 相关关系的类型1. 按相关的程度不同划分按相关的程度不同,可将相关关系分为完全相关、不相关、不完全相关。在统计学中,相关分析与回归分析主要研究不完全相关现象。 2. 按依存关系的表现形式不同划分按依存关系的表现形式不同,可将相关关系分为线性相关、非线性相关。线性相关是指两种相关现象之间的关系近似地表现为一条直线,在这种关系中,两个变量的变动幅度近似地保持一定的比例,如人均消费水平与人均收入水平之间的关系。非线性相关是指当一个变量发生变动时,另外变量的变动在数值上不是均等的。3. 按相关的方向不同划分按相关的方向不同,可将相关分析分为正相关、负相关。正相关是指当一个变量的数值增加(或减少)时,另外变量的数值也随之增加(或减少),即同方向变化,如居民收入与支出之间的关系。负相关是指当一个变量的数值增加(或减少)时,而另外变量的数值相反地呈减少(或增加)趋势变化,即反方向变化,如利润和成本之间的关系。4. 按研究变量的数量不同划分按研究变量的数量不同,可将相关关系分为单相关、复相关。单相关是指所研究的相关关系中的变量仅有两个,也就是研究一个变量和另外一个变量之间的关系,如收入和支出之间的关系。复相关是指所研究的相关关系中的变量包含3个及3个以上,也就是研究一个变量和其他多个变量之间的关系,如商品销售量与价格水平、产品质量、广告费用、竞争程度等因素的之间的关系。6.1.3 相关分析的主要内容相关分析用以分析社会经济现象间的依赖关系,其目的是从现象的复杂关系中消除非本质的偶然影响,从而找出现象间相互依存的形式和密切程度,在实际工作中的运用十分广泛。相关分析的主要内容包含以下方面。(1)确定现象之间有无关系,以及相关关系的密切程度。(2)判断变量之间相关关系的表现形式是否为线性。(3)选择合适的数学模型。(4)进行相关关系的显著性检验,用以反映变量回归的效果。6.1.4 相关关系的测定测定变量之间的相关关系,有多种方法可供选择。1. 相关图相关图又称散点图,它是用直角坐标系的轴代表自变量,用轴代表因变量,将两个变量间相对应的变量值用坐标点的形式描绘出来,用以表明相关点分布状况的图形。例如,将一组学生的身高(cm)与体重(kg)的数据用Excel制作出散点图,便可判断出二者呈正相关关系,如图6.3所示。 图6.3 正相关关系 2.相关表相关表是指将一个变量按大小顺序排序,将另外变量对应排列而成的表格。相关表可以大致根据变量的数值变化判断出变量之间的相关关系。3.相关系数(1)相关系数的测定相关系数r能用来反映变量之间的线性关系的密切程度,因此又称其为线性相关系数,又因其是由英国统计学家皮尔逊(Pearson)提出,故也称为Pearson积矩相关系数。根据相关表中的变量数据,相关系数r可以使用积差法进行计算。(6.1)为了根据原始数据计算,可由式(6.1)推导出下面的简化计算公式,也称简捷法,该方法较为常用。(6.2)(2)相关系数的取值范围及相关意义由式(6.2)可以看出,相关系数是一个无量纲的值,其取值范围为-1,1。例6.1 某城市6家企业的年广告费和年利润资料如表6.2所示。表6.2 企业年广告费和年利润资料年广告费x(万元)0.811.21.522.5年利润y(万元)566.58910求年利润和年广告费之间的相关系数,并分析相关的密切程度和方向。解:根据式(6.2)可得因为,所以年利润和年广告费之间呈高度正相关关系。6.2 一元线性回归分析6.2.1 一元线性回归分析的特点(1)在此回归分析中,须明确区分影响因素和被影响因素,其中影响因素常称为解释变量或自变量,被影响因素常称为被解释变量或因变量。(2)在一些情况下,事物之间的因果关系常是相互的。6.2.2 一元线性回归模型基本式对于经判断具有线性关系的两个变量与,构造一元线性回归模型基本式为(6.3)在上式中,因变量y的值由如下两部分构成。(1)的线性部分,其反映了由于的变化而引起的的变化。(2)误差项,其反映了除之外的随机因素对的影响,是随机变量,是不能由和间的线性关系所解释的波动。6.2.3 一元线性回归模型的参数估计建立回归模型实际上是指利用样本观测值,估计未知参数的值,其中,a是回归模型的常数项,b是模型的回归系数。在线性回归模型中,参数一般使用最小二乘法和极大似然法进行估计。用6.6式计算回归方程的参数。(6.6)于是,可用最小二乘法求得一元线性回归方程为(6.7)例6.3 某城市6家企业的年广告费和年利润资料如表6.6所示。表6.6 企业年广告费与年利润资料年广告费x(万元)0.811.21.522.5年利润y(万元)566.58910求月利润和月广告费的线性回归方程。解:设,求得故利润和广告费的线性回归方程为。6.2.4 一元线性回归的检验在实际统计分析中,有些回归模型虽然被建立起来,但该模型不一定通得过检验,那么就不能够利用这样的回归模型进行预测和决策,否则将对实际工作产生反作用。1. 拟合优度检验拟合优度是指回归直线与各观测点的接近程度,而拟合优度检验就是检验回归模型对样本观测值的拟合程度。在具体操作中,首先需要构造一个统计量,然后将该统计量值与一定的标准进行对比,由此判断模型的回归效果。拟合优度检验需要计算拟合优度系数,而这需要对离差平方和进行分解, 通过运算可证明3种离差平方和具有如下关系:=+(6.8)也即SST=SSE+SSR。在给定样本中,当SST不变时,若SSR在SST中所占的比重越大,则实际样本点离样本回归线就越近,也即表明回归方程的拟合效果较好,因此回归直线的拟合优度系数可用下面的统计量进行计算:(6.9)其中,是拟合优度系数,又称为可决系数或判定系数。拟合优度系数取值范围为0,1,其取值越接近1,表明各实际趋势点离样本线越近,拟合优度越高。在线性相关分析中,拟合优度系数()=相关系数()的平方,即=。2. 估计标准误差估计标准误差是指因变量各实际值与其估计值之间的平均差异程度,用于反映实际观察值在回归直线周围的分散状况,也即回归估计值对各实际观察值代表性的强弱。其值越小,回归方程的代表性越强,用回归方程估计或预测的结果越准确。估计标准误差用表示,其计算公式为=(6.10)将=代入式(6.10)中,可得=(6.11)例6.5 某地区10家企业的月营业收入和月营业支出数据如表6.8所示。表6.8 企业月营业收入和支出数据 单位:百万元月营业收入x20303340151326383543月营业支出y7981154810910根据以上资料求10家企业月营业支出关于月营业收入的线性回归方程,并求出回归方程的拟合优度系数,以及估计标准误差。解:设,求得故月营业支出关于月营业收入的线性回归方程为。将各家企业的月营业收入代入上述回归模型中,可求得月营业支出估计值,如表6.9所示。表6.9 各企业月支出估计值 单位:百万元月营业收入x20303340151326383543月营业支出估计值yc6.178.178.7710.176.174.777.379.779.1710.77据此可根据式(6.9)求出0.9由于,表明该回归方程拟合效果较好。该回归模型的估计标准误差为0.73,其值较小,故反映出模型回归效果较好。6.3 回归方程的预测回归方程的一个主要作用是用来进行预测,当通过多种检验证明一个回归方程的线性关系显著,也即拟合效果较好时,便可利用线性回归方程进行预测。6.3.1 值的点估计对于自变量的一个给定值,可根据回归方程得到因变量的一个估计值。值的点估计可分为两种类型:一类是的平均值的点估计;另一类是的个别值的点估计。(1)的平均值的点估计是指当给出一个时,将得到所有个体因变量平均值的一个估计值,它是一个期望值。(2)的个别值的点估计是指当给出某一个体的时,将得到该个体因变量的一个估计值,它是一个具体值。上述的点估计的两种类型所使用的公式是一样的,只不过所表述的意义不同。例6.6 某集团欲了解其旗下各子公司广告费投入对企业销售收入的影响,已知该集团旗下10家子公司广告费(单位:万元)和销售收入(单位:百万元)的资料如表6.10所示。表6.10 企业广告费投入与销售收入资料广告费x / 万元40553364828560359575销售收入y / 百万元14131218252514123825试根据以上资料解决如下问题。(1)判断广告费和销售收入的线性相关关系。(2)求出广告费关于销售收入的线性回归方程,并计算拟合优度系数。(3)当广告费投入为100万元时,该集团旗下各子公司的平均销售收入约为多少?(4)若某子公司在明年的广告费投入为100万元,预计该子公司销售收入约为多少?解:(1)因为,所以销售收入和广告费之间呈高度正相关关系。(2)设,求得故销售收入关于广告费的线性回归方程为。(3)将=100代入上述回归方程中,得。当广告费投入为100万元时,预计该集团旗下各公司的平均销售收入约为3263万元。(4)将=100代入上述回归方程中,得。即若某公司在明年的广告费投入为100万元,预计该公司销售收入约为3263万元。6.3.2 值的区间估计点估计不能给出估计的精度,点估计值与实际值之间是有误差的,因此需要进行区间估计。对于自变量的一个给定值,可根据回归方程得到因变量的一个估计区间,其也包括两种类型:一类是的平均值的区间估计;另一类是的个别值的区间估计。1. 的平均值的区间估计利用估计的回归方程,对于自变量的一个给定值,求出因变量的平均值的估计区间,这一估计区间称为置信区间。在置信水平下的估计区间为(6.12)其中,是的平均值的估计值;是估计标准误差。2. 的个别值的区间估计利用估计的回归方程,对于自变量的一个给定值,求出因变量y的一个个别值的估计区间。的个别值在置信水平下的估计区间为(6.13)其中,是的个别值的估计值;是估计标准误差。例6.7 某行业协会欲了解该行业下10家高技术公司研发投入对新产品产出的影响。已知该行业下10家公司研发投入(单位:百万元)和新产品产出(单位:百万元)的资料如表6.11所示。表6.11 企业研发投入与新产品产出资料 单位:百万元研发投入x10211523443235405352新产品产出y24362830553548456560试根据以上资料解决如下问题。(1)求出该行业新产品产出关于研发投入的线性回归方程,并计算拟合优度系数。(2)当研发投入为8000万元时,预计该行业下各公司的平均研发产出的估计区间约为多少()? (3)若某公司预计今年研发投入为8000万元,预计该公司新产品产出的估计区间约为多少()? 解:(1)设,可得故新产品产出关于研发投入的线性回归方程为得。(2)将=80代入上述回归方程中,=85.85=2030.575.4596.26即当研发投入为8000万元时,预计该行业下各公司的平均研发产出的估计区间为7545,9626万元。(3)将=80代入上述回归方程中,得=85.85。71.7999.91若某公司预计今年研发投入为8000万元,预计该公司新产品产出的估计区间为7179,9991万元。6.4 多元线性回归分析多元线性回归的基本原理和一元线性回归的完全相同,但由于自变量个数的增加,而导致模型参数的估计变得较为复杂。在实际统计分析中,一般利用统计软件对多元回归模型进行估计,如Eviews、SPSS、STATA、SAS等,其中,前两种软件对于初学者较为常用。6.4.1 多元线性回归模型的基本式设被解释变量为,个解释变量分别为,则元线性回归模型的一般形式为(6.14)如果个样本观测值为,则将上述个样本观测值代入式(6-14)可得用矩阵表示为, (6.15)6.4.2 多元线性回归方程的估计使用最小二乘法可对回归参数进行估计,其估计原理与一元线性回归的。使目标函数达到最小值。根据求极值原理,令目标函数对各未知参数求偏导数,并令偏导数为0,则可得方程组:最终解上述方程组,可得回归参数的估计值,其矩阵表示为(6.16)6.4.3 多元线性回归模型的检验1. 拟合优度检验被解释变量的变化可由两部分解释:第一,由个解释变量的变化引起的的变化;第二,由其他随机因素引起的的变化。由第一部分引起的的变化的离差平方和记为SSR,称为回归平方和;由第二部分随机因素引起的的变化的离差平方和记为SSE,称为残差平方和;SST称为总离差平方和,有SST=SSR+SSE。(6.17)其中,是拟合优度系数,又称为可决系数或判定系数。拟合优度系数取值范围为0,1,其取值越接近1,表明各实际样本点离趋势线越近,拟合优度越高。2. 检验在多元回归模型分析中,个变量组合在一起是否合理、组合在一起建立的模型是否具有良好的稳定性,回答这些问题需要借助于方程的显著性检验,也即检验被解释变量与所有解释变量之间的线性关系是否显著,可用线性模型来描述它们之间的关系是否恰当。提出如下假设。:=0。:(=1,2,)不全为0。原假设成立则表明各个回归系数同时与0无显著差异。这意味着当偏回归系数同时为0时,无论各个取值如何变化都不会引起y的线性变化,所有均无法解释的线性变化,与的全体不存在线性关系,不能用线性模型来描述它们之间的关系。在原假设成立条件下,可建立如下统计量:(6.19)该统计量服从F (,)分布。由样本指标值可求得F。给定显著性水平,查表可得到临界值。若,则拒绝原假设,认为多元线性回归模型总体显著。若,则接受原假设,认为多元线性回归模型总体不显著。6.5 Excel在相关与回归分析中的应用6.5.1 一元相关分析与回归分析判断变量间的一元相关关系的方法有3种:绘制散点图、计算相关系数和计算协方差。散点图是对所选变量之间相关关系的一种直观描述,可在进行两个变量的相关分析之前绘制散点图,从图中观察两个变量之间的相关关系;统计函数可以直接计算相关系数和协方差,相关系数可以确定两变量相关程度的方向和大小。6.5.2 实例应用1. 实例的数据描述例6.8 为研究广告费用与销售额之间的关系,对某公司抽取12个月的广告费用和销售额数据,如表6.12所示,试计算广告费用与销售额之间的相关系数并对二者进行回归分析(显著性水平0.05)。表6.13 广告费用与销售额数据资料广告费用(万元)42807614265132561264811644102销售额(万元)1321661521861481761421801561681481702. 实例的操作步骤首先新建Excel工作簿,命名为“广告费用与销售额数据资料”,将数据和相关文字输入工作表中。利用回归分析工具进行回归分析。(1)选择回归分析工具。单击【数据】,选择【数据分析】,随即弹出【数据分析】对话框,在“分析工具”列表框中选择“回归”选项,然后单击【确定】按钮,如图6.17所示,出现【回归】对话框。图6.17 选择回归分析工具(2)在【回归】对话框中,在“Y值输入区域”,选取单元格B1:B13,在“X值输入区域”,选取单元格A1:A13,勾选“标志”,“置信度”默认为95%,在“输出选项”下选中“新工作表组”以将输出结果显示在一个新的工作表上。再将“残差”“正态分布”的选项全部选中,最后单击【确定】按钮,得到回归结果,如图6.18图6.23所示。 图6.18 设置回归参数 图6.19 回归结果 图6.20 残差和正态概率 图6.21 残差图 图6.22 线性拟合图 图6.23 正态概率图3. 实例的结果分析回归分析工具法可获取大量信息,首先是回归方程(与散点图法的回归方程一致):其次可输出相关的回归图形。从图6.19可分析出该回归方程的拟合优度和显著性检验结果。在图6.19中,可决系数R Square为0.850744802,说明该回归方程拟合效果较好,表明该公司销售额的增长中,约有85.074%是由广告投入的增加而造成的。在该回归方程中,值为1.9E-05,小于显著性水平0.05,说明拒绝原假设,即该回归系数显著,广告投入对销售额有明显影响;Significance F=1.94842E-05<=0.05,说明拒绝原假设,即该回归方程显著。 问题与应用:在现实生活中,许多现象与事物之间都存在着有机联系、相互依赖并相互制约,比如收入与支出之间的关系;学习时间与学习成绩之间的关系等。在定性分析的基础上,计算相关系数,由此可判断变量间相关的程度、方向、形态。问题与应用:如果要考虑一家公司的经营收入和营业支出之间的关系,可用一元线性分析法,通过构建回归方程,判断收入对支出的影响。 问题与应用:回归分析的主要作用就是进行预测,当回归方程通过检验,便可利用该方程进行预测,从而对事物发展进行控制。