统计学原理与技能训练 第9章相关分析与回归分析.ppt
-
资源ID:67553924
资源大小:885KB
全文页数:74页
- 资源格式: PPT
下载积分:16金币
快捷下载
会员登录下载
微信登录下载
三方登录下载:
微信扫一扫登录
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
统计学原理与技能训练 第9章相关分析与回归分析.ppt
第九章第九章 相关分析与回归分析相关分析与回归分析1学习目标:学习目标:1.1.掌握相关分析的概念、分类及与函数关系的区掌握相关分析的概念、分类及与函数关系的区别;别;2.2.能够利用相关系数对相关关系进行测定,并且能够利用相关系数对相关关系进行测定,并且掌握相关函数的性质;掌握相关函数的性质;3.3.明确相关分析与回归分析各自特点以及它们的明确相关分析与回归分析各自特点以及它们的区别与联系;区别与联系;4.4.掌握回归分析基本理论和方法。掌握回归分析基本理论和方法。2第一节第一节 相关分析的一般问题相关分析的一般问题一、变量之间的关系一、变量之间的关系(一一)函数关系(确定性关系)函数关系(确定性关系)函数关系指现象间在数量上存在着确定的、严函数关系指现象间在数量上存在着确定的、严格对应的依存关系。格对应的依存关系。特点:对于某一变量的每一个数值,都有另一特点:对于某一变量的每一个数值,都有另一个变量的确定的值与之相对应,并且这种关系可以个变量的确定的值与之相对应,并且这种关系可以用精确的数学函数式表示出来,因此称为函数关系。用精确的数学函数式表示出来,因此称为函数关系。3(1 1)是一一对应的确定关系;)是一一对应的确定关系;(2 2)设设有有两两个个变变量量 x 和和 y,变变量量 y 随随变变量量 x 一一起起变变化化,并并完完全全依依赖赖于于 x,当当变变量量 x 取取某某个个数数值值时时,y 依依确确定定的的关关系系取取相相应应的的值值,则则称称 y 是是 x 的的函函数数,记记为为 y=f(x),其其中中 x 称称为为自自变变量,量,y 称为因变量;称为因变量;(3 3)各观测点落在一条线上。)各观测点落在一条线上。x xy y4 函数关系的例子函数关系的例子某某种种商商品品的的销销售售额额(y)与与销销售售量量(x)之之间间的的关系可表示为关系可表示为 y=p x(p 为单价为单价);圆圆的的面面积积(S)与与半半径径之之间间的的关关系系可可表表示示为为S=r2;企企业业的的原原材材料料消消耗耗额额(y)与与产产量量(x1)、单单位位产产量量消消耗耗(x2)、原原材材料料价价格格(x3)之之间间的的关关系系可表示为可表示为y=x1 x2 x3。5 (二二)相关关系相关关系(非确定型关系)非确定型关系)指事物之间的关系数值存在着一定的依存关指事物之间的关系数值存在着一定的依存关系,但它们不是确定的和严格依存的,某一现象系,但它们不是确定的和严格依存的,某一现象在其发展变化中,当数量上为一确定值时,与之在其发展变化中,当数量上为一确定值时,与之有联系的其他现象可以有若干个数值与之对应,有联系的其他现象可以有若干个数值与之对应,在这些数值之间表现出一定的波动性,但这些值在这些数值之间表现出一定的波动性,但这些值按某种规律在一定范围内变化。按某种规律在一定范围内变化。6(1 1)变变量量间间关关系系不不能能用用函函数关系精确表达;数关系精确表达;(2 2)一一个个变变量量的的取取值值不不能能由另一个变量唯一确定;由另一个变量唯一确定;(3 3)当当变变量量 x 取取某某个个值值时时,变变量量 y 的的取取值值可可能能有有几几个;个;(4 4)各各观观测测点点分分布布在在直直线线周围。周围。x xy y7相关关系的特点:相关关系的特点:相关关系表现为数量相互依存关系;相关关系表现为数量相互依存关系;相关关系在数量上表现为非确定性的相互相关关系在数量上表现为非确定性的相互依存关系。依存关系。8 相关关系的例子相关关系的例子商商品品的的消消费费量量(y)与与居居民民收收入入(x)之之间间的的关关系系商品的消费量商品的消费量(y)与物价与物价(x)之间的关系之间的关系商商品品销销售售额额(y)与与广广告告费费支支出出(x)之之间间的的关关系系粮粮食食亩亩产产量量(y)与与施施肥肥量量(x1)、降降雨雨量量(x2)、温度温度(x3)之间的关系之间的关系收入水平收入水平(y)与受教育程度与受教育程度(x)之间的关系之间的关系父亲身高父亲身高(y)与子女身高与子女身高(x)之间的关系之间的关系9相关关系的两种情形:相关关系的两种情形:1.1.现象之间的关系多体现为因果关系,即现象之间的关系多体现为因果关系,即某个现象的变化是由另一个或几个现象变化引某个现象的变化是由另一个或几个现象变化引起的。起的。在数量表现上,把起主动作用的因素称为在数量表现上,把起主动作用的因素称为自变量,一般用自变量,一般用x表示;而把因主动因素的变化表示;而把因主动因素的变化而引起变化的因素称为因变量,用而引起变化的因素称为因变量,用y表示。表示。10 2.两个变量之间有时只存在相互联系而并两个变量之间有时只存在相互联系而并不存在因果关系。难以指出哪一个是原因,哪不存在因果关系。难以指出哪一个是原因,哪一个是结果。在这种情况下,需要根据不同的一个是结果。在这种情况下,需要根据不同的问题和研究目的来确定哪一个为因变量,哪一问题和研究目的来确定哪一个为因变量,哪一个为自变量。个为自变量。11相关关系与函数关系既有区别,也有一定的联系。相关关系与函数关系既有区别,也有一定的联系。有些函数关系由于在实际观察时出现误差,常有些函数关系由于在实际观察时出现误差,常常表现为相关关系。常表现为相关关系。而在研究相关关系时,为了寻求相关关系及数而在研究相关关系时,为了寻求相关关系及数量关系的一般表现形式,又往往运用函数关系的形量关系的一般表现形式,又往往运用函数关系的形式加以描述。式加以描述。12二、相关关系的种类二、相关关系的种类(一一)按相关形式不同按相关形式不同 线性相关线性相关非线性相关非线性相关(二二)根据相关反向划分(在直线相关中)根据相关反向划分(在直线相关中)正相关正相关负相关负相关13(三)按相关的程度(三)按相关的程度完全相关完全相关不完全相关不完全相关不不相关(零相关)相关(零相关)(五)按相关的程度(五)按相关的程度虚假相关虚假相关真实相关真实相关(四)根据相关关系涉及变量的多少(四)根据相关关系涉及变量的多少单相关单相关复相关复相关偏相关偏相关14xy直线负相关15直线正相关xy16曲线相关xy17完全直线相关xy18不相关xy19完全曲线相关xy20 不相关xy21第二节第二节 简单线性相关分析简单线性相关分析一、相关关系的一般判断一、相关关系的一般判断定性分析定性分析是是依据研究者的理论知识和实践经验,对客观依据研究者的理论知识和实践经验,对客观现象之间是否存在相关关系,以及何种关系作现象之间是否存在相关关系,以及何种关系作出判断。出判断。定量分析定量分析在在定性分析的基础上,通过编制定性分析的基础上,通过编制相关表相关表、绘制、绘制相关图相关图、计算、计算相关系数相关系数等方法,来判断现象之等方法,来判断现象之间相关的方向、形态及密切程度。间相关的方向、形态及密切程度。22相关表相关表将自变量将自变量x的数值按照从小到大的顺序,并配合的数值按照从小到大的顺序,并配合因变量因变量y的数值一一对应而平行排列的表。的数值一一对应而平行排列的表。例:为了研究分析某种劳务产品完成量与其单位产品成本之间的例:为了研究分析某种劳务产品完成量与其单位产品成本之间的关系,调查关系,调查30个同类服务公司得到的原始数据如表。个同类服务公司得到的原始数据如表。整理后有整理后有23相关图相关图又称散点图。将又称散点图。将x置于横轴上,置于横轴上,y置于纵轴上,置于纵轴上,将(将(x,y)绘于坐标图上。绘于坐标图上。用来反映两变量之间用来反映两变量之间相关关系的图形。相关关系的图形。24 二、相关系数二、相关系数 1.1.简单线性相关系数的计算简单线性相关系数的计算 对两个变量之间线性相关程度的度量称为简对两个变量之间线性相关程度的度量称为简单相关系数,用单相关系数,用r表示。而对于曲线相关来说,是表示。而对于曲线相关来说,是用相关指数来衡量其相关程度的。用相关指数来衡量其相关程度的。25公式中:公式中:协方差协方差变量变量x的标准差的标准差变量变量y的标准差的标准差262728可化简可化简为:为:29从公式中可以看出:从公式中可以看出:r取正值或负值决定于分子取正值或负值决定于分子30r值的意义是:值的意义是:r愈接近愈接近0,x与与y之间的直线相关程度愈之间的直线相关程度愈小,反之,小,反之,r的值愈接近的值愈接近1,x与与y之间的相关之间的相关程度愈高。程度愈高。但需要注意的是但需要注意的是r只表示只表示x与与y的直线相关密切的直线相关密切程度。当程度。当r值很小甚至等于值很小甚至等于0时,并不一定表时,并不一定表示示x与与y之间就不存在其他类型的关系。之间就不存在其他类型的关系。31例:例:以下表的数据为例,计算以下表的数据为例,计算12个企业产量与生产个企业产量与生产费用之间的简单相关系数。费用之间的简单相关系数。企业编号企业编号产量产量x生产费用生产费用y123456789101112404250556578841001161251301401301501551401501541561701671801751851 6001 7642 5003 0254 2256 0847 05610 00013 45615 62516 90019 60016 90022 50024 02519 60022 50023 71627 22528 90027 88932 40030 62534 2255 2006 3007 7507 7009 75012 01213 86017 00019 37222 50022 75025 900合计合计1 0251 921101 835310 505170 09432根据表中资料:根据表中资料:33即产量与生产费用之间的相关系数即产量与生产费用之间的相关系数r+0+092029202,说说明二者之间存在高度正线性相关关系。明二者之间存在高度正线性相关关系。342.2.相关系数的意义相关系数的意义相关系数的取值范围是:相关系数的取值范围是:-1-1r11(r11)r越接近越接近1 1,表示相关程度越高;,表示相关程度越高;r越接近越接近0 0,表示相关程度越低;,表示相关程度越低;r0 0表示两个变量之间不存在直线相关;表示两个变量之间不存在直线相关;r1 1表示存在着完全正相关;表示存在着完全正相关;r-1-1表示存在着完全负相关。表示存在着完全负相关。35 用相关系数表示的相关程度的等级有如下几用相关系数表示的相关程度的等级有如下几种情形:种情形:r0 0:不相关;:不相关;r0.30.3:极低度相关;:极低度相关;0.3 0.3 r0.50.5:低度相关;:低度相关;0.5 0.5 r0.80.8:中度相关;:中度相关;r0.80.8:高度相关;:高度相关;r1 1:完全相关。:完全相关。36 需注意:变量之间的非线性相关程度较大可能导需注意:变量之间的非线性相关程度较大可能导致致r0 0,当,当r0 0或或r很小时,不能得出变量无关的结论。很小时,不能得出变量无关的结论。-1.0+1.00-0.5+0.5完全负相关完全负相关完全负相关完全负相关无线性相关无线性相关无线性相关无线性相关完全正相关完全正相关完全正相关完全正相关负负负负相关程度增加相关程度增加相关程度增加相关程度增加r正相关程度增加正相关程度增加正相关程度增加正相关程度增加37三、简单线性相关分析的特点三、简单线性相关分析的特点(一)两个变量是对等关系(一)两个变量是对等关系 直线相关分析所研究的两个变量不分彼此不反映直线相关分析所研究的两个变量不分彼此不反映任何自变量和因变量的关系,而是完全对等的。任何自变量和因变量的关系,而是完全对等的。(二)只能算出一个相关系数(二)只能算出一个相关系数 相关系数是一个绝对值在相关系数是一个绝对值在0 0与与1 1之间的系数,其值之间的系数,其值大小反映两变量间相关的密切程度。由于两变量的关大小反映两变量间相关的密切程度。由于两变量的关系是对等的,改变两者的地位不影响相关系数的数值,系是对等的,改变两者的地位不影响相关系数的数值,所以只有一个相关系数。所以只有一个相关系数。38(三)相关系数有正负号,表示正相关或负相关(三)相关系数有正负号,表示正相关或负相关(四)相关系数的计算对资料有一定要求,相关(四)相关系数的计算对资料有一定要求,相关的两个变量必须都是随机的,这也反映对等关系的两个变量必须都是随机的,这也反映对等关系 相关系数的计算与应用有其独立意义,可直相关系数的计算与应用有其独立意义,可直接从给定资料计算,可不经过回归分析。接从给定资料计算,可不经过回归分析。39第三节第三节 回归分析回归分析一、回归分析的概念与特点一、回归分析的概念与特点(一一)回归分析的概念回归分析的概念 根据现象之间相关关系的形式,配合一条最适合根据现象之间相关关系的形式,配合一条最适合的直线或曲线的直线或曲线(本章只介绍直线本章只介绍直线),用这条直线,反映,用这条直线,反映它们之间数量变化的一般关系,即当自变量发生一个它们之间数量变化的一般关系,即当自变量发生一个量的变化时,因变量一般会量的变化时,因变量一般会(或平均会或平均会)发生多大量的发生多大量的变化。变化。40 回归分析的特点:回归分析的特点:1 1回归分析的两个变量是非对等关系;回归分析的两个变量是非对等关系;2 2回归分析中,因变量是随机变量,自变量回归分析中,因变量是随机变量,自变量是可控制变量。是可控制变量。回归分析的内容:回归分析的内容:1.1.确定现象之间相关关系的数学模型;确定现象之间相关关系的数学模型;2.2.测定数学模型的拟合精度。测定数学模型的拟合精度。41(二)相关分析和回归分析的区别与联系(二)相关分析和回归分析的区别与联系 1.1.联系联系 二者具有共同的研究对象,而且在具体应用二者具有共同的研究对象,而且在具体应用时,常常必须互相补充。相关分析需要依靠回归时,常常必须互相补充。相关分析需要依靠回归分析来表明现象数量相关的具体形式,而回归分分析来表明现象数量相关的具体形式,而回归分析则需要依靠相关分析来表明现象数量变化的相析则需要依靠相关分析来表明现象数量变化的相关程度。只有当变量之间存在着高度相关时,进关程度。只有当变量之间存在着高度相关时,进行回归分析寻求其相关的具体形式才有意义。行回归分析寻求其相关的具体形式才有意义。42 2.2.区别区别 (1 1)相关分析研究变量之间相关的方向和相关分析研究变量之间相关的方向和程度,但不能指出变量间相互关系的具体形式,也程度,但不能指出变量间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情无法从一个变量的变化来推测另一个变量的变化情况。况。回归分析则研究变量之间相互关系的具体形式,回归分析则研究变量之间相互关系的具体形式,它对具有相关关系的变量之间的数量联系进行测定,它对具有相关关系的变量之间的数量联系进行测定,确定一个相关的数学方程式,根据这个数学方程式确定一个相关的数学方程式,根据这个数学方程式可以从已知量来推测未知量,从而为估算和预测提可以从已知量来推测未知量,从而为估算和预测提供一个重要的方法。供一个重要的方法。43 (2 2)相关分析可以不必确定变量中哪个是)相关分析可以不必确定变量中哪个是自变量,哪个是因变量,其所涉及的变量可以都自变量,哪个是因变量,其所涉及的变量可以都是随机变量。而回归分析则必须事先研究确定具是随机变量。而回归分析则必须事先研究确定具有相关关系的变量中哪个为自变量,哪个为因变有相关关系的变量中哪个为自变量,哪个为因变量。量。44第四节第四节 回归模型的建立回归模型的建立一、一元线性回归模型一、一元线性回归模型 假假定定因因变变量量y主主要要受受自自变变量量x的的影影响响,它它们们之之间间的的简单线性回归模型如下简单线性回归模型如下 :为参数,为参数,为随机误差项。为随机误差项。对于误差项,在回归分析中有如下假设:对于误差项,在回归分析中有如下假设:(1 1)误差项是随机变量,它的期望值为)误差项是随机变量,它的期望值为0 0;(2 2)对于所有的)对于所有的x值,误差项的方差值,误差项的方差 为常数;为常数;(3 3)误差项之间相互独立,即与一个值相联系的误差)误差项之间相互独立,即与一个值相联系的误差对与另一个值相联系的误差没有影响;对与另一个值相联系的误差没有影响;(4 4)随机误差项服从正态分布。)随机误差项服从正态分布。45(一一)一元线性回归方程一元线性回归方程 描述描述y的均值的均值E(y)与与 x的关系的方程叫做回归方的关系的方程叫做回归方程。程。由于由于 ,所以所以 不难看出,简单线性回归方程的图形是一条直线。不难看出,简单线性回归方程的图形是一条直线。这条直线被称为这条直线被称为总体回归直线总体回归直线。是回归直线的截是回归直线的截距,距,是回归直线的斜率,是回归直线的斜率,E(y)是给定某个是给定某个x的值的值y的的均值或期望值。均值或期望值。各实际观测点与总体回归线垂直方向的间隔,就是各实际观测点与总体回归线垂直方向的间隔,就是随机误差项随机误差项,即,即46 如果因变量如果因变量y y与自变量与自变量x x的相关关系是近似直线的的相关关系是近似直线的关系,则一元线性回归的模型为:关系,则一元线性回归的模型为:y的估计值或预测值,的估计值或预测值,回归系数。回归系数。确定了确定了a与与b的值,直线的位置也就相应地确定了。的值,直线的位置也就相应地确定了。472.2.最小二乘法确定模型参数最小二乘法确定模型参数 最小二乘法的基本原理就是寻一条总的看来最小二乘法的基本原理就是寻一条总的看来离各散点最近的一条直线,使实际值离各散点最近的一条直线,使实际值y 与与 相应的相应的理论值理论值 之间的误差达到最小。即:之间的误差达到最小。即:48 根据微积分的极值定理,根据微积分的极值定理,Q最小的必要条件为:最小的必要条件为:49 整理后得如下方程,称最小二乘法的标准方程:整理后得如下方程,称最小二乘法的标准方程:解方程得解方程得50例:以下表的数据拟合生产费用对产量的回归直线方程例:以下表的数据拟合生产费用对产量的回归直线方程企业编号企业编号产量产量x生产费用生产费用y123456789101112404250556578841001161251301401301501551401501541561701671801751851 6001 7642 5003 0254 2256 0847 05610 00013 45615 62516 90019 60016 90022 50024 02519 60022 50023 71627 22528 90027 88932 40030 62534 2255 2006 3007 7507 7009 75012 01213 86017 00019 37222 50022 75025 900合计合计1 0251 921101 835310 505170 09451将表中将表中有关数据代入公式中:有关数据代入公式中:52生产费用对产量的直线回归方程为:生产费用对产量的直线回归方程为:其中其中a124.15(千克)的含义为生产费用千克)的含义为生产费用的起点值;的起点值;b0.4027表示产品产量每增加表示产品产量每增加1千件,千件,生产费用平均增加生产费用平均增加0.4027千元。千元。53下图可看下图可看散点图与回归直线的关系:散点图与回归直线的关系:54(二)估计标准误差(二)估计标准误差()1.1.估计标准误差的计算方法:估计标准误差的计算方法:(1 1)根据因变量实际值和估计值的离差计算。)根据因变量实际值和估计值的离差计算。式中:式中:估计标准误差;估计标准误差;因变量数列的实际值;因变量数列的实际值;根据回归方程推算出来的估计值。根据回归方程推算出来的估计值。所以,所以,是因变量实际值和估计值的估计误差,是因变量实际值和估计值的估计误差,如果将估计误差总和相加,结果是如果将估计误差总和相加,结果是式中:式中:n因变量的项数。因变量的项数。55例:例:56(三)相关系数和估计标准误差的关系(三)相关系数和估计标准误差的关系则则则则 相关系数和估计标准误差在数值的大小上表现相关系数和估计标准误差在数值的大小上表现为相反的关系。为相反的关系。57三、应用相关分析与回归分析应注意的问题三、应用相关分析与回归分析应注意的问题(一一)注意定性分析与定量分析的结合注意定性分析与定量分析的结合(二二)注意客观现象质的规定性注意客观现象质的规定性(三三)注意社会经济现象的复杂性注意社会经济现象的复杂性(四四)注意对相关系数和回归直线方程的有效性注意对相关系数和回归直线方程的有效性进行检验进行检验58相关分析与回归分析补充习题相关分析与回归分析补充习题591.1.某种产品的产量与单位成本资料如下:某种产品的产量与单位成本资料如下:产量(千件)单位成本(元件)234345737271736968要求:要求:(1)计算相关系数)计算相关系数r,判断其相关方向和程度;判断其相关方向和程度;(2)建立直线回归方程。)建立直线回归方程。60解:相关与回归分析计算表解:相关与回归分析计算表产量产量x单位成本单位成本yxy23434521737271736968426491691625795 3295 1845 0415 3294 7614 62430 2681462162842192763401 48161(1 1)相关系数)相关系数可见,产量与单位成本具有高度负相关关系。可见,产量与单位成本具有高度负相关关系。62(2)(2)建立直线回归方程建立直线回归方程ya+bxY77.36+1.8277.36+1.82x632.2.有几个地区的统计资料如下:有几个地区的统计资料如下:国内生产总值财政收入银行年末存款余额2.22.42.52.72.93.00.80.91.01.21.41.50.20.40.50.70.60.815.76.83.2单位:亿元单位:亿元64要求:要求:(1)计算国内生产总值与财政收入的相关系数;)计算国内生产总值与财政收入的相关系数;(2)计算财政收入与银行年末存款余额的相关系数;)计算财政收入与银行年末存款余额的相关系数;(3)建立国内生产总值与财政收入的直线回归方程。)建立国内生产总值与财政收入的直线回归方程。65解:解:相关与回归分析计算表(其中相关与回归分析计算表(其中x为国内生产总值;为国内生产总值;y为为财政收入;财政收入;z为银行年末存款余额)为银行年末存款余额)xyzxyyz2.22.42.52.72.93.00.80.91.01.21.41.50.20.40.50.70.60.81.762.162.5.3.254.064.500.160.360.500.840.841.204.845.766.257.298.419.000.640.811.001.441.962.250.040.160.250.490.350.6415.76.83.218.223.9041.558.101.9566(1 1)国内生产总值)国内生产总值x x与财政收入与财政收入y y的相关系数的相关系数67财政收入财政收入y与银行年末存款余额与银行年末存款余额z的相关系数的相关系数68(3 3)国内生产总值与财政收入的回归直线方程)国内生产总值与财政收入的回归直线方程 ya+bx 所所求的求的回归直线方程为回归直线方程为y1.2505+0.9111.2505+0.911x693.3.某地高校教育经费某地高校教育经费x与高校学生人数与高校学生人数y连续连续6 6年的统计年的统计资料如下:资料如下:教育经费(万元)教育经费(万元)x在校在校学生数(万人)学生数(万人)y316316343343373373393393418418455455111116161818202022222525要求:要求:(1)建立回归直线方程,估计教育经费为)建立回归直线方程,估计教育经费为500万元万元时的在校学生数;(时的在校学生数;(2)计算估计标准误差。)计算估计标准误差。70解解:回归分析计算表回归分析计算表教育经费教育经费x在校在校学生数学生数yxy3163433733934184551116182022253 4765 4886 7147 8609 19611 37599 856117 649139 129154 449174 724207 025121256324400484625229811244 109892 8322 21071(1 1)建立回归直线方程建立回归直线方程ya+bx72y-17.91+0.0955-17.91+0.0955x在教育经费为在教育经费为500500万元时,在校学生数为:万元时,在校学生数为:y-17.91+0.0955-17.91+0.095550050029.8429.84(万人)万人)73(2 2)计算估计标准误差计算估计标准误差(万(万人)人)74