《应用统计学相关与回归分析学习教案.pptx》由会员分享,可在线阅读,更多相关《应用统计学相关与回归分析学习教案.pptx(52页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、会计学1应用统计学相关与回归应用统计学相关与回归(hugu)分析分析第一页,共52页。函数关系指的是变量之间存在着的严格的依存关系,它们之间的关系值是固定的,对于某一变量的每一个(y)值,都有另一个(y)变量的完全确定的值与之相对应。例如(lr),圆的面积等于圆周率乘以半径的平方。第1页/共52页第二页,共52页。相关关系是指变量(binling)之间确实存在的但关系值不固定的相互依存关系。在这种关系中,当一个(或几个)变量(binling)的值确定以后,另一个变量(binling)的值虽与它(或它们)有关,但却不能完全确定。这是一种非确定性的关系。例 如,电 视 机 的 拥 有 率 与 人
2、均 收 入 水 平(shupng)有关,但对于人均收入水平(shupng)相同的地区,其电视机的拥有率可能不尽相同。在客观事物中,尤其是在经济现象中,相关(xinggun)关系普遍存在。统计很有必要对这种关系进行研究。第2页/共52页第三页,共52页。在相关关系中,通常(tngchng),在相互联系的现象之间存在着一定的因果关系,这时就把其中的起着影响作用的现象具体化,通过一定的变量反映出来,这样的变量称为自变量。由于受到自变量变动的影响(yngxing)而发生变动的变量称为因变量。第3页/共52页第四页,共52页。在相关关系中,有时两个变量(binling)之间只存在相互联系而并不存在明显的
3、因果关系。确定哪一个是自变量(binling),哪一个是因变量(binling),主要决定于研究的目的。例如,在粮食(ling shi)亩产量与施肥量之间,施肥量这一变量是自变量,亩产量这一变量是因变量。当研究的是两个变量之间的关系(gun x)时,通常以符号X表示自变量,以符号Y表示因变量。第4页/共52页第五页,共52页。二、相关关系二、相关关系二、相关关系二、相关关系(gun x)(gun x)的种类的种类的种类的种类相关关系从不同(b tn)的角度可以划分成不同(b tn)的类型。(一一)正相关正相关(xinggun)与负相关与负相关(xinggun)从相关的方向看,相关关系可以分为正
4、相关和负相关。第5页/共52页第六页,共52页。负相关(xinggun)是指相关(xinggun)变量之间的变化趋势相反,即当自变量的值增加,因变量的值随之减少;当自变量的值减少,因变量的值随之增加。例如,产品产量与单位(dnwi)产品成本之间的关系。正相关(xinggun)是指相关(xinggun)变量之间的变化趋势相同,即当自变量的值增加,因变量的值也随之增加;当自变量的值减少,因变量的值也随之减少。例如,汽车的使用年限与汽车的修理费用之间的关系。第6页/共52页第七页,共52页。(二二)线性相关线性相关(xinggun)与与非线性相关非线性相关(xinggun)从相关(xinggun)的
5、形式上来看,相关(xinggun)关系可分为线性相关(xinggun)和非线性相关(xinggun)。线性相关也称直线(zhxin)相关,是指相关的两个变量之间变化的趋势呈线性或近似于线性。即自变量发生变动,因变量随之发生变动,其增加或减少量是大致均等的,从图形上看,其观察点的分布近似表现为直线(zhxin)形式。第7页/共52页第八页,共52页。非线性相关也称曲线相关,是指相关的两个变量之间变化的趋势呈非线性。即自变量发生变动,因变量随之发生变动,但其增加或减少量不是(b shi)均等的,从图形上看,其观察点的分布表现为各种曲线形式。第8页/共52页第九页,共52页。(三三)单相关单相关(x
6、inggun)和复相关和复相关(xinggun)从相关变量的个数来看,相关关系(gun x)可分为单相关和复相关。单相关是指两个变量(binling)之间的相关关系。复相关是三个或三个以上变量之间的相关关系。例如,仅仅考虑施肥量对产量的影响,这就是一种单相关;如果除了施肥量之外,再考虑降雨量及深耕程度对产量的影响,则这种相关关系就是一种复相关。第9页/共52页第十页,共52页。三、回归与相关三、回归与相关三、回归与相关三、回归与相关(xinggun)(xinggun)分析的概念分析的概念分析的概念分析的概念在对变量之间存在的相关关系进行分析研究时,最常用(chn yn)的方法就是回归分析和相关
7、分析。回归分析和相关分析是相互联系的,它们从不同方面研究变量之间相关关系的本质。回归分析是用来研究变量之间关系的可能形式的统计方法。它把两个或两个以上变量之间的变动关系加以模型化,用数学函数表达变量之间的关系。运用这种方法时,最终的目的通常(tngchng)在于预测或估计与某一个或某几个变量的给定值相对应的另一变量的数值。第10页/共52页第十一页,共52页。相关(xinggun)分析是研究如何计量变量之间关系强度的统计方法。它能确定变量之间相关(xinggun)的程度,即变量之间某种关系的确切程度有多大。回归(hugu)分析和相关分析既有联系,又有区别。就其研究对象来说,两者都是研究变量之间
8、的相关关系。但就彼此研究变量之间关系的性质来看,两者存在明显的区别。回归(hugu)分析中,必须将相关变量区分为自变量和因变量,以确定其关系的可能形式,所研究变量属于非对等关系。相关分析中,计量变量之间关系的强度,不必区分自变量与因变量,所研究变量属于对等的关系。第11页/共52页第十二页,共52页。四、相关四、相关四、相关四、相关(xinggun)(xinggun)图表图表图表图表对现象(xinxing)变量之间是否存在相关关系以及存在怎样的相关关系进行分析、作出判断,这是进行回归和相关分析的前提。通过编制相关表和相关图,可以直观地、大致地判断现象(xinxing)变量之间是否存在相关关系以
9、及关系的类型。第12页/共52页第十三页,共52页。(一一一一)相关相关相关相关(xinggun)(xinggun)表表表表相关(xinggun)表是表现现象变量之间相关(xinggun)关系的表格。例如,为研究商店(shngdin)人均月销售额和利润率的关系,调查10家商店(shngdin)取得10对数据,以人均销售额为自变量,利润率为因变量,编制简单相关表如下表。第13页/共52页第十四页,共52页。人均(rn jn)销售额与和利润率相关表编号(bin ho)人均(rn jn)月销售额(千元)利润率()1234567891013345667783.06.26.68.110.412.612.
10、316.316.818.5第14页/共52页第十五页,共52页。(二二二二)相关相关相关相关(xinggun)(xinggun)图图图图所谓相关图,是把相关的两个变量之间的关系在平面直角坐标(第一象限)中反映出来。通常将自变量(x)置于横轴上,因变量(y)置于纵轴上,而将两个变量相对应的变量值用坐标点形式描绘出来。相关图就是用相关点的分布(fnb)状况来描述相关关系的,所以又称为散点图。根据相关图,可以直观地看出变量之间相关关系的模式。第15页/共52页第十六页,共52页。例如,前述人均(rn jn)月销售额与利润率的关系,可用相关图表示如下:利润率(%)人均销售额(千元)120人均销售额与利
11、润率相关图510152384567第16页/共52页第十七页,共52页。从图中,我们可以(ky)清楚地看出,这两个变量之间相关的方向(即正相关)以及相关的具体形式(直线相关)(a)直线关系(b)反直线关系(c)正曲线关系第17页/共52页第十八页,共52页。(e)较分散的反直线(zhxin)关系(d)反曲线(qxin)关系(f)没有(mi yu)关系x与y的一些可能关系的散点图第18页/共52页第十九页,共52页。上图说明了相关图中的一些可能关系。图(a)和(b)表示的是正的和反的直线关系,即正线性相关和负线性相关。图(c)和(d)分别表示的是正的和反的曲线关系,即正非线性相关和负非线性相关。
12、图(e)中是散布域很宽的反直线关系。散布域越宽,则表明(biomng)变量之间的联系程度越差。图(f)中的图象表明(biomng)两个变量之间没有什么关系。第19页/共52页第二十页,共52页。2.2.简单简单(jindn)(jindn)线性回归线性回归一、回归一、回归一、回归一、回归(hugu)(hugu)直线的确定直线的确定直线的确定直线的确定如果变量x和y相关,并且从相关图表中可以看出它们之间大致(dzh)形成一种直线关系,我们就可在相关图上求出一条与各点最相配合的直线。第20页/共52页第二十一页,共52页。由于这些点所代表的若干对数据观察(gunch)值,只是相互有一定关系的变量x、
13、y的总体中的一个样本,故这样求出的直线是总体回归直线的估计线。在估计线上的点的纵坐标是相应于x的y的估计值。y=a+bx如果这个y的估计值用 y 表示,则估计线的方程可写为第21页/共52页第二十二页,共52页。这叫做样本回归直线。它是y对x的回归线,表明y对x的平均(pngjn)关系。式中x为受控制的自变量,通常由研究者事先选定(xun dn)数值。a为样本回归直线(zhxin)y的截距,它是样本回归直线(zhxin)通过纵轴的点的y坐标;b为样本回归直线的斜率,它表示当x增加一个单位时y的平均增加数量,b又称回归系数。第22页/共52页第二十三页,共52页。如何确定回归直线(zhxin)方
14、程呢?也就是说怎样确定方程中的参数a、b呢?若用(xi,yi)(i=1,2,n)表示n组观察(gunch)值,则对任意给定的xi,可得y的估计值为这些数值同实际值yi之间存在(cnzi)着误差;yi=a+bxii=yi yi=yi a bxi第23页/共52页第二十四页,共52页。Q(a,b)=2=(yabx)2为最小。这样便把寻找适当直线问题转化为使 Q(a,b)达到(d do)最小条件下求出a、b的问题。在回归分析中,人们普遍采用的是最小二乘法原则。根据最小二乘法的原则,欲使所求回归直线 y=a+bx最适合于实际资料,必须使每个xi对应的指标实测值yi与回归直线确定的估计值yi的离差平方之
15、和为最小,即必须使第24页/共52页第二十五页,共52页。因为(yn wi)Q(a,b)是a、b的非负二元函数,所以其最小值无疑是存在的。根据数学中的极值原理,令:满足上述(shngsh)条件的a、b即为所求的未知参数。由化简得(yabx)=0(yabx)x=0第25页/共52页第二十六页,共52页。即:y=na+bxxy=ax+bx2上述方程组称为(chn wi)标准方程组。解之,得:a=ybx第26页/共52页第二十七页,共52页。因此即可确定(qudng)回归方程式为:y=a+bx这个方程称为在给定样本条件下的一元线性回归方程,对应的直线称为样本回归直线。显然,回归方程对于不同的样本是有
16、差别的,因而,它具有(jyu)经验的特征,所以在实用上,也将它叫做经验公式。为了(wi le)简化上述回归系数b的表达形式,引入如下离差乘积的和式:Lxy=(xx)(yy)第27页/共52页第二十八页,共52页。Lxx=(xx)2于是(ysh),回归系数可简化为为了相关性检验的需要,顺便(shbin)引入关于 y 的离差平方和:Lyy=(y y)2第28页/共52页第二十九页,共52页。求回归方程式的系数往往是通过列表进行的。这里,我们以下表资料为倒,通过求某钢铁厂炼钢(lin n)精炼时间对含碳量的回归方程,说明回归方程的确定。10.9100炉次含碳量(%)(x)精炼时间(分)(y)某钢铁厂
17、十个炉次钢液含碳量和精炼时间某钢铁厂十个炉次钢液含碳量和精炼时间10234567892.01.01.2 1.41.5 1.61.71.8 1.9105235130145170 175190190220第29页/共52页第三十页,共52页。可以看出,x与 y之间的关系近似为直线关系。我们可以对其配合(pih)一条回归直线。为计算回归方程的系数a、b,我们(w men)先对原始数据进行加工。第30页/共52页第三十一页,共52页。yx2y2xy1001051301451701751901902202350.811.001.441.962.252.562.893.243.614.0010000110
18、25169002102528900306253610036100484005522590105156203255280323342418470166023.762943002642炉次x123456789100.91.01.21.41.51.61.71.81.92.015.0原始数据加工表第31页/共52页第三十二页,共52页。于是(ysh):第32页/共52页第三十三页,共52页。所以(suy):故精炼时间(shjin)关于含碳量的回归方程为:y=14.9525+120.635x第33页/共52页第三十四页,共52页。计算(j sun)结果表明,这个方程显示着钢水溶液的含碳量每增加0.1%,
19、则精炼时间平均来说大约要延长12.06分。根据回归方程,可以给出自变量的任一数值(shz)估计或预测因变量的平均可能值。y=14.9525+120.6352.2=150.4445(分)例如,求含碳量2.2%所需的精炼(jnglin)时间:第34页/共52页第三十五页,共52页。二、估计二、估计二、估计二、估计(gj)(gj)平均误差平均误差平均误差平均误差回归方程的一个重要作用在于根据自变量的已知值估计因变量的可能值。这个估计值和真正的实际值可能一致,也可能不一致。例如,当含碳量为1.8%时,推算的炼钢时间为202.19分钟,而实际为190分钟,相差12.19分钟。这就产生了估计公式即回归方程
20、的可靠性问题(wnt),也就是说,根据回归方程计算的估计值,其代表性如何?第35页/共52页第三十六页,共52页。为了度量估计公式即回归方程的可靠性,通常计算估计平均误差。估计平均误差度量观察值回绕着回归直线的变化程度(chngd)或分散程度(chngd)。通常用Sy代表估计平均误差,其计算公式为:第36页/共52页第三十七页,共52页。注意,公式中根号内的分母是n2,而不是n。这是由于Q=(yy)2有两个线性关系的约束(yush),一是 ,一是 ,因而,Q=(yy)2的自由度为n2。第37页/共52页第三十八页,共52页。当实际观测值很多,而且(r qi)数值较大时,根据上述公式计算估计平均
21、误差十分麻烦。借助下列公式,可以简化计算步骤,所得计算结果也相一致。估计平均误差是一个(y)衡量回归方程代表性大小的分析指标。估计平均误差愈大,则数据点围绕回归直线的分散程度就愈大,回归方程的代表性愈小。估计平均误差愈小,则数据点围绕回归直线的分散程度愈小,回归方程的代表愈大,其可靠性愈高。第38页/共52页第三十九页,共52页。3.3.相关系数相关系数相关分析是用以说明变量之间相关程度的统计工具。相关分析常常与回归分析联合使用,以衡量回归方程所表示的因变量变化的精确度如何。相关分析也可单独用于衡量变量之间的联系程度。本节我们(w men)讨论两个变量之间线性相关程度问题。两个变量之间线性相关
22、程度的描述通常采用相关系数。第39页/共52页第四十页,共52页。一、相关系数的意义一、相关系数的意义一、相关系数的意义一、相关系数的意义(yy)(yy)我们回过头来考察一下线性回归中指标 y的值yi与回归估计值 yi 的离差平方和。记于是(ysh)有:Q=Lyy(1r2)r称为相关(xinggun)系数。它是在线性相关(xinggun)条件下用来说明两个变量之间相关(xinggun)关系密切程度的指标。第40页/共52页第四十一页,共52页。因为(yn wi)Q0,Lyy0,故相关系数有一个重要性质:r 1r=1(1)1 r=0(2)r=0(3)r=0(4)0r1(5)r=1(6)相关图与相
23、关系数经验(jngyn)关系第41页/共52页第四十二页,共52页。由于Lyy对于一组实测数据来讲是定值,故由QLyy(1r2)可知,当r较大接近(jijn)于1时,离差平方和Q就较小而接近(jijn)于0,此时,y与x高度相关。特别当r=1时,称它们是完全相关的,上图(1)、(6)所示。当r较小而接近(jijn)于0时,Q就大,y与x的相关关系很弱,特别当 r=0时,称它们线性无关。如上图(3)、(4)所示第42页/共52页第四十三页,共52页。由于Lxy可正可负,所以(suy)相关系数r也可正可负。若r0则称y与x正相关,如上图(5)、(6)所示。此时,随着x的增大(或减小),y将呈现增大(或减小)的趋势。特别对于上图(6)的情形,由于r=1,故称完全正相关。若rr(0.01;10 2)所以,第二节中求得的回归方程所表达的精炼时间(shjin)y与钢液含碳百分比之间的线性关系对于a=0.01是显著的,也就是说配置的回归方程有意义。这种显著性通常称为高度显著。第51页/共52页第五十二页,共52页。
限制150内