《回归分析和相关分析.ppt》由会员分享,可在线阅读,更多相关《回归分析和相关分析.ppt(40页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第八章 相关与回归分析n第一节 相关与回归分析的基本概念n第二节 相关分析n第三节 一元线性回归分析n第四节 可化为线性回归的非线性回归模型n第五节 多元线性回归分析简介2023/2/211第一节 相关与回归分析的基本概念n一.函数关系和相关关系n变量之间的关系可有两大类:确定性关系(函数关系)和不确定性关系(相关关系):n 确定性关系:变量之间存在确定性依存关系,即当一个或几个变量取一定的值时,另一个变量有确定值与之相对应。n 不确定性关系:变量之间确实存在数量上依存关系但关系数值并不确定,即当一个或几个相互联系的变量取一定数值时,与之相对应的另一变量的值虽然不确定,但它仍按某种规律在一定的
2、范围内变化。2023/2/212第一节 相关与回归分析的基本概念n产生相关关系的原因很多,主要有:n1.存在计量或观测误差。n2.影响变量y取值的因素不止一个变量。n3.变量间的关系是通过其他因素反映出来的。2023/2/213第一节 相关与回归分析的基本概念n二.相关关系的种类n1.按相关的程度可分为完全相关、不完全相关和不相关n2.按相关的方向可分为正相关和负相关n3.按相关的形式可分为线性相关和非线性相关n4.按所研究的变量多少可分为单相关、复相关和偏相关2023/2/214第一节 相关与回归分析的基本概念n三.相关分析与回归分析n相关分析和回归分析是研究现象之间相关关系的两种基本方法。
3、n相关分析:研究两个或两个以上随机变量之间相关关系密切程度和相关方向的统计分析方法。n回归分析:研究某一随机变量(因变量)与其他一个或几个变量(自变量)之间数量变动关系形式的统计分析方法。2023/2/215第二节 相关分析n一.单相关系数n单相关分析是对两个变量之间的相关程度进行分析。n单相关系数是在线性相关的条件下用来说明两个变量之间相关关系和相关密切程度的统计分析指标。n样本相关系数的定义公式是:2023/2/216第二节 相关分析2023/2/217第二节 相关分析相关系数的特点:1.r值在-1和+1之间变动;当|r|=1时称x与y完全线性相关;当|r|=0时称x与y无线性相关;当0|
4、r|1时称x与y有一定程度的线性相关;r0时正相关;r0时负相关;2.r是一个无名数,可以比较不同现象相关程度的高低。3.r是对变量之间线性相关关系的度量。r=0只是表明两个变量之间不存在线性关系,但并不意味着不存在其他类型的关系。2023/2/218第二节 相关分析 一般情况下,通过相关系数判断相关关系密切程度的标准如下:2023/2/219第二节 相关分析r2称为可决系数,是衡量样本回归直线拟合程度的指标,反映由于相关关系,y的变化可以由x来解释的百分比。相关系数与可决系数虽然有密切的联系,但它们在概念上是有区别的:可决系数是就回归模型而言的,而相关系数是就两个变量而言的;可决系数具有非负
5、性,而相关系数可正可负。2023/2/2110第二节 相关分析例1(P119)分析销售额y与推销费x的关系2023/2/2111第二节 相关分析2023/2/2112第二节 相关分析例1解:计算结果表明,销售额和推销费之间高度相关,销售额中的70%可以由推销费来解释。2023/2/2113第二节 相关分析例 我国19902003年GDP和税收收入的资料如下:单位:亿元r=0.9552482023/2/2114第二节 相关分析2023/2/2115第二节 相关分析二.有序数据的相关系数(等级相关系数)对于许多难以用数字准确计量的现象之间的关系难以用单相关系数去衡量,可以用等级相关系数。有序数据是
6、由数据在一个有序名单中的位置值组成。定义Sperman 秩相关系数为:其中:di=xi-yi,xi和yi分别是两个变量按大小(或优劣)排位的等级;n是样本容量。等级相关系数的取值区间在-1和1之间。2023/2/2116第二节 相关分析例3(P121)10个产品销售情况的排序2023/2/2117第三节 一元线性回归分析 回归分析是根据相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量间的平均变化关系。进行回归分析通常要设定一定的数学模型,在回归分析中,最简单的模型是只有一个因变量和一个自变量的线性回归模型。2023/2/2118第三节 一元线性回归分析n一.一元线性回归模型的建立n
7、设因变量y(通常是随机变量)和一个自变量(非随机变量)X之间有某种相关关系。在x的不全相同的取值点x1,x2,xn作为独立观察得到y的个观察值y1,y2,yn记为(x1,y1)(x2,y2),(xn,yn)。根据这组数据寻求X与Y之间关系。n设一元线性回归模型为:yi=a+bxi+ein 2023/2/2119第三节 一元线性回归分析ei(为误差,统计上称为随机误差)的标准假定:假定1:零均值假定。E(ei)=0,即误差项的期望值 为0 假定2:同方差假定。Var(ei)=E(ei2)=2;即误差项的方差为常数 假定3:非自相关性假定。COV(ei,ej)=0;即误差项之 间不存在序列相关关系
8、,其协方差为零 假定4:自变量是给定的变量,与随机误差项线性无关 假定5:随机误差项服从正态分布 2023/2/2120第三节 一元线性回归分析n二.一元线性回归模型的估计n(一)回归系数的估计n在根据样本资料确定样本回归方程时,一般总是希望Y的估计值从整体来看尽可能地接近其实际观测值,即残差ei的总量越小越好。n最小二乘法(oLS估计)就是通过使残差平方和为最小来估计回归系数的一种方法。2023/2/2121第三节 一元线性回归分析n例4(P122)观察家庭月收入与月支出之间的关系,随机抽取10个家庭作调查得如下结果,求回归直线。2023/2/2122第三节 一元线性回归分析2023/2/2
9、123第三节 一元线性回归分析2023/2/2124第三节 一元线性回归分析n解例4:n 2023/2/2125第三节 一元线性回归分析n(二)总体方差的估计n除了回归系数外,一元线性回归模型还包括另一个未知参数,即总体随机误差项的方差2。2 可以反映理论模型误差的大小,它是检验模型时必须利用的一个重要参数。由于随机误差项本身是不能直接观测的,因此需要用最小二乘残差代替随机误差项来估计2。可以证明:2023/2/2126第三节 一元线性回归分析n三.一元线性回归模型的检验n回归模型中的参数估计出来后,还必须对其进行检验,如果通过检验发现模型有缺陷,则必须回到模型的设定阶段或参数估计阶段,重新选
10、择因变量和自变量及其函数形式,或者对数据进行加工整理之后再次估计参数。n回归模型的检验包括理论意义检验、一级检验和二级检验。n理论意义的检验主要涉及参数估计值的符号和取值区间。n一级检验(统计学检验)是利用统计学中的抽样理论来检验样本回归方程的可靠性,具体分为拟合程度评价和显著性检验。n二级检验(经济计量学检验)是对标准线性回归模型的假定条件能否得到满足进行的检验,具体包括序列相关检验、异方差性检验等。2023/2/2127第三节 一元线性回归分析n(一)拟合程度的评价n所谓拟合程度是指样本观测值聚集在样本回归线周围的紧密程度。判断回归模型拟合程度优劣最常用的指标是可决系数(决定系数),该指标
11、建立在对总离差平方和进行分解的基础上。2023/2/2128第三节 一元线性回归分析n可决系数是对回归模型拟合程度的综合度量,可决系数越大,模型拟合程度越高,反之则越小。n由r2的计算公式可以看出:当所有的观测值都位于回归直线上时,r2=1,说明总离差可以完全由所估计的样本回归直线来解释;当观测值并不是全部位于回归直线上时,r2 1;当回归直线没有解释任何离差,即模型中X与Y完全无关时,Y的总离差全部归于残差平方和,这时r2=0。n RSS=(1-r2)Syy2023/2/2129第三节 一元线性回归分析n(二)显著性检验n回归分析中的显著性检验包括两方面的内容:一是对各回归系数的显著性检验,
12、通常采用t检验;二是对整个回归方程的显著性检验,通常是在方差分析的基础上采用F检验。n在应用上最有意义的是检验回归系数b是否为零的问题。nH0:b=0,H1:b0n如果b=0,则回归直线变为y=a,即y的取值与X的值无关,即x、y之间没有线性关系;如果b0,则表明x与y之间有一定的线性关系。2023/2/2130第三节 一元线性回归分析n四.一元线性回归模型预测n建立回归模型的重要目的之一是进行预测。如果拟合的样本回归方程经过检验,被认为具有经济意义,同时被证明有较高的拟合程度,就可以利用其来进行预测。n(一)回归函数a+bx的区间估计 例:资料见例4。估计月收入为750元的家庭的平均月支出(
13、=0.05)2023/2/2131第三节 一元线性回归分析2023/2/2132第三节 一元线性回归分析(二)因变量y的估计(预测)n例:资料见例4。如果随机抽取一个家庭,该家庭的月收入为750元,预测该家庭当月的月支出(=0.05)。2023/2/2133第四节 可化为线性回归的非线性回归模型n在前面,我们一直假定因变量和自变量之间的相关关系可以用线性方程来近似的反映,但是在现实生活中变量x与y的关系仅有一部分能用线性关系来描述,大量的是非线性的相关关系,非线性的回归函数比线性回归函数更能正确地反映客观现象之间的相互联系。但在非线性关系中,有一部分可以通过变量的替换化为线性回归函数来做。20
14、23/2/2134第四节 可化为线性回归的非线性回归模型n非线性回归分析必须着重解决以下两个问题:n第一.如何确定非线性函数的具体形式。与线性回归分析的场合不同,非线性回归函数有多种多样的具体形式,需要根据所要研究的问题的性质并结合实际的样本观测值做出恰当的选择。n第二.如何估计函数中的参数。非线性回归分析最常用的方法仍然是最小二乘法,但需要根据函数的不同类型,作适当的处理。2023/2/2135第四节 可化为线性回归的非线性回归模型n常见的几种非线性函数:n1.抛物线函数:y=a+bx+cx2n2.双曲线函数:y=a+b(1/x)n3.幂函数:y=axbn4.指数函数:y=abxn5.对数函
15、数:y=a+blnxn6.S形曲线函数:2023/2/2136第四节 可化为线性回归的非线性回归模型n许多具有实用价值的非线性回归函数,可以通过适当的变换,转化为线性回归函数,然后再利用线性回归分析的方法进行估计和检验。常用的非线性函数的线性变换方法有:倒数变换、半对数变换、双对数变换和多项式变换等。n提请注意的是,并不是所有的非线性函数都可以通过变换得到与原方程完全等价的线性方程。这时需要利用其他一些方法去进行估计。2023/2/2137第五节 多元线性回归分析简介n多元线性回归分析是研究在线性相关条件下,两个和两个以上自变量对一个因变量的数量变化关系。表现这一数量关系的数学公式,称为多元线性回归模型。多元线性回归模型是一元线性回归模型的扩展,其基本原理与一元线性回归模型相类似,只是在计算上比较麻烦一些而已。n多元线性回归模型的一般形式如下:ny=a+b1x1+b2x2+.+bkxk+ein实际求解回归系数的估计值,用矩阵形式来表达较为简便,也可以依靠统计软件。2023/2/2138第五节 多元线性回归分析简介n具体步骤:n1.进行因素分析,确定因变量和自变量n2.绘制散点图,构造回归方程的一般形式n3.估计参数建立模型n4.回归方程的检验n5.回归方程的预测2023/2/2139 n案例资料n 消费者调查有限公司2023/2/2140
限制150内