简单线性回归模型.ppt
《简单线性回归模型.ppt》由会员分享,可在线阅读,更多相关《简单线性回归模型.ppt(84页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、简单线性回归模型简单线性回归模型(一)经济变量间的相互关系(一)经济变量间的相互关系第一节第一节 回归分析与回归函数回归分析与回归函数一、相关分析与回归分析一、相关分析与回归分析n n 确定性关系确定性关系或或函数关系函数关系n n 统计依赖关系统计依赖关系或或相关关系相关关系经济变量之间的关系,大体可分为两类:经济变量之间的关系,大体可分为两类:例例2.1 假如有一个乡村由假如有一个乡村由20户人家构成的总体,我们研户人家构成的总体,我们研究每月家庭的平均消费支出究每月家庭的平均消费支出 Y 与平均可支配收入与平均可支配收入 X 之之间的关系,统计数据如下:间的关系,统计数据如下:50050
2、0 600600 750750 800800 1000100012001200 12501250 15001500 16501650 175017501800180020002000平平平平均均均均消消消消费费费费支支支支出出出出 Y Y4244244804805225226056056626626326327707707057058088089209209509508938931039103911581158129512951033103311441144124712471300130013551355每月家庭平均可支配收入每月家庭平均可支配收入 X(单位:元)(单位:元)经济变量之间的相关
3、关系可用经济变量之间的相关关系可用散点图散点图描述。描述。50075010001250150017502000250250500750100012501500YX0YYYXXX不完全相关不完全相关完全相关完全相关不相关不相关1.1.按变量数目分按变量数目分相关关系的类型相关关系的类型简单相关:两个变量简单相关:两个变量简单相关:两个变量简单相关:两个变量多重相关:三个及以上变量多重相关:三个及以上变量多重相关:三个及以上变量多重相关:三个及以上变量2.2.按表现形式分按表现形式分线性相关:散点图接近直线线性相关:散点图接近直线线性相关:散点图接近直线线性相关:散点图接近直线3.3.按变化方向分
4、按变化方向分正相关:同增同减正相关:同增同减正相关:同增同减正相关:同增同减非线性相关:散点图接近曲线非线性相关:散点图接近曲线非线性相关:散点图接近曲线非线性相关:散点图接近曲线负相关:相反负相关:相反负相关:相反负相关:相反4.4.按相关程度分按相关程度分完全相关:实际是函数关系完全相关:实际是函数关系完全相关:实际是函数关系完全相关:实际是函数关系不完全相关不完全相关不完全相关不完全相关不相关不相关不相关不相关YYXX负相关负相关正相关正相关YYXX非线性相关非线性相关线性相关线性相关(二二)简单线性相关关系的度量简单线性相关关系的度量总体相关系数总体相关系数:样本相关系数样本相关系数:
5、1.rx,y=ry,x注意:注意:2.2.不能说明非线性关系不能说明非线性关系3.3.不能确定因果关系不能确定因果关系4.4.r 是随抽样变动的随机变量是随抽样变动的随机变量(三)(三)回归分析回归分析相关分析相关分析主要是用相关系数去描述变量间相主要是用相关系数去描述变量间相互依存的性质和程度,但不能说明变量间相互依存的性质和程度,但不能说明变量间相互关系的具体形式,从而不能从一个变量的互关系的具体形式,从而不能从一个变量的变化去推测另一个变量的变化,要做到这一变化去推测另一个变量的变化,要做到这一点,还需要进行点,还需要进行回归分析回归分析。回归回归(Regression)“回归回归”一词
6、最先由一词最先由 F.高尔顿高尔顿(F.Galton)在在家庭身材相似性一文中提出。家庭身材相似性一文中提出。高尔顿高尔顿发现:发现:虽然有一个趋势虽然有一个趋势,父母高父母高,儿女也高儿女也高;父母矮父母矮,儿女也矮。但给定父母的身高儿女也矮。但给定父母的身高,儿女辈的身高儿女辈的身高却趋向或者却趋向或者回归回归到全体人口的平均身高。到全体人口的平均身高。n n高尔顿高尔顿称之为称之为“回归到中等回归到中等”。“回归回归”的现代释义的现代释义n n通过一个或多个通过一个或多个解释变量解释变量在重在重复抽样中的已知值,去估计复抽样中的已知值,去估计被被解释变量解释变量的的总体均值总体均值。二、
7、总体回归函数二、总体回归函数 例:假定武汉市某小区的人口总体由例:假定武汉市某小区的人口总体由 60户户家庭组成,要研究每月家庭消费家庭组成,要研究每月家庭消费 支出支出 Y 和收入和收入 X 之间的关系之间的关系。n n现在假设我们得到该小区总体现在假设我们得到该小区总体60户家户家 庭的收入支出数据,见下表庭的收入支出数据,见下表:表2 每月家庭收入支出表(元)800800100010001200120014001400160016001800180020002000220022002400240026002600每每月月家家庭庭消消费费支支出出5505506506507907908008
8、001020102011001100120012001350135013701370150015006006007007008408409309301070107011501150136013601370137014501450152015206506507407409009009509501100110012001200140014001400140015501550175017507007008008009409401030103011601160130013001440144015201520165016501780178075075085085098098010801080118011
9、801350135014501450157015701750175018001800-880880-113011301250125014001400-160016001890189018501850-11501150-16201620-19101910YXx(收入收入)y图图图图1 1 不同收入的消费分布(散点图)不同收入的消费分布(散点图)不同收入的消费分布(散点图)不同收入的消费分布(散点图)80010001200 1400 1600 1800 2000 2200 2400 2600100015002000(消费)消费)从散点图看出消费与收入之间存在不确从散点图看出消费与收入之间存在不确定
10、性的定性的相关关系相关关系,给定收入,给定收入X的条件下,消的条件下,消费费Y形成一定的分布,称为形成一定的分布,称为X取某一值时取某一值时Y的的条件分布条件分布。当。当X取某一值时,取某一值时,Y取各种值的取各种值的概率,称为概率,称为Y的的条件概率条件概率。由。由Y 的条件分布的条件分布和条件概率可计算和条件概率可计算Y的的条件数学期望条件数学期望或或条件条件均值均值。表2 与表2对应的条件概率 800800100010001200120014001400160016001800180020002000220022002400240026002600Y Y的的条条件件概概率率1/51/51
11、/61/61/51/51/71/71/61/61/61/61/51/51/71/71/61/61/71/71/51/51/61/61/51/51/71/71/61/61/61/61/51/51/71/71/61/61/71/71/51/51/61/61/51/51/71/71/61/61/61/61/51/51/71/71/61/61/71/71/51/51/61/61/51/51/71/71/61/61/61/61/51/51/71/71/61/61/71/71/51/51/61/61/51/51/71/71/61/61/61/61/51/51/71/71/61/61/71/7-1/61/6
12、-1/71/71/61/61/61/6-1/71/71/61/61/71/7-1/71/7-1/71/7-1/71/7均均值值65065077077089089010101010 11301130 12501250 13701370 14901490 16101610 17301730 x(收入收入)y图图图图2 2 条件均值的散点图条件均值的散点图条件均值的散点图条件均值的散点图80010001200 1400 1600 1800 2000 2200 2400 2600100015002000(消费)消费)该函数称为该函数称为总体回归函数总体回归函数(Population Regressio
13、n Function,PRF),它描述了,它描述了平均平均消费支出消费支出(总体均值)(总体均值)与与收入收入之间的之间的关系关系。对对X的每一个值的每一个值Xi,都有,都有Y的条件均值与之对的条件均值与之对应,即应,即x(收入收入)y图图图图3 3 总体回归直线图总体回归直线图总体回归直线图总体回归直线图80010001200 1400 1600 1800 2000 2200 2400 2600100015002000总体回归函总体回归函数(数(PRF)(消费)消费)n n一般来说,收入相同的家庭的支出与支出的一般来说,收入相同的家庭的支出与支出的 均值均值是有差异的。令是有差异的。令三、随
14、机扰动项三、随机扰动项或或则则ui是随机变量,称为是随机变量,称为随机扰动项随机扰动项或或随机误随机误差项差项。Why does the stochastic error term exist n n在解释变量中被忽略因素的影响;在解释变量中被忽略因素的影响;n n变量观测值误差的影响;变量观测值误差的影响;n n模型数学形式设置误差的影响;模型数学形式设置误差的影响;n n其他随机因素的影响。其他随机因素的影响。对于大多数实际问题,总体回归函数是无法对于大多数实际问题,总体回归函数是无法得到的!得到的!怎么办?怎么办?抽样!抽样!总体总体(population)样本样本(sample)四、样
15、本回归函数四、样本回归函数n n假设在上例中我们得到的两个随机样本:假设在上例中我们得到的两个随机样本:表表3 表表2总体的一个随机样本总体的一个随机样本y yx x700700800800650650100010009009001200120095095014001400110011001600160011501150180018001200120020002000140014002200220015501550240024001500150026002600表表4 表表2总体的另一个随机样本总体的另一个随机样本y yx x5505508008008808801000100090090012
16、00120080080014001400118011801600160012001200180018001450145020002000135013502200220014501450240024001750175026002600 如果把如果把Y的样本条件均值表示成的样本条件均值表示成X的某种函的某种函数,这个函数称为数,这个函数称为样本回归函数样本回归函数(Sample Regression Function,SRF),),其图形称为其图形称为样本回归线。样本回归线。一般地说,从不同的样本会得到不同的一般地说,从不同的样本会得到不同的样样本回归线。本回归线。x(收入收入)y(支支出出)图图
17、4 根据两个不同样本的回归线根据两个不同样本的回归线800 1000 120014001600 18002000 22002400 2600500100015002000第一个样本回第一个样本回归线归线第一个样本(表第一个样本(表3)第二个样本(表第二个样本(表4)第二个样本回第二个样本回归线归线n n同样,家庭的实际消费支出并不完全等于同样,家庭的实际消费支出并不完全等于 样本条件均值样本条件均值,令,令或或则则ei是随机变量,称为是随机变量,称为剩余项剩余项或或残差残差。注意:注意:1、总体回归函数总体回归函数虽然未知,但是确定的;虽然未知,但是确定的;2、样本回归函数样本回归函数随抽样波
18、动,不止一条;随抽样波动,不止一条;3、总体回归函数总体回归函数中的参数是确定的常数,中的参数是确定的常数,而而样本回归函数样本回归函数中的参数是随抽样变中的参数是随抽样变 化的随机变量;化的随机变量;4、总体回归函数总体回归函数中的中的ui是不可观测的,而是不可观测的,而 样本回归函数样本回归函数中的中的ei是可以计算的。是可以计算的。YXPRFSRF0uieiYi第二节第二节 简单线性回归模型参数的估计简单线性回归模型参数的估计一、简单线性回归的基本假定一、简单线性回归的基本假定称为称为一元线性回归模型一元线性回归模型或或简单线性回归模型简单线性回归模型.这里的这里的线性线性实际上是针对参
19、数来说的。实际上是针对参数来说的。由于随机项由于随机项u的存在,使得模型中的参的存在,使得模型中的参数数 b b1 1和和b b2 2的数值不能严格算出,只能进的数值不能严格算出,只能进行估计。行估计。在计量经济学中,能否成功地估计出这在计量经济学中,能否成功地估计出这些参数值,取决于随机项些参数值,取决于随机项u 和自变量和自变量X的性质。的性质。随机项随机项u和自变量和自变量X的统计假定:的统计假定:假定假定2:同方差假定,即同方差假定,即假定假定1:零均值假定,即零均值假定,即假定假定3:无自相关无自相关(无序列相关无序列相关)假定假定。或或或或或或假定假定4:非随机变量假定,即解释变量
20、非随机变量假定,即解释变量X是是 确定性变量,与随机项确定性变量,与随机项u不相关。不相关。假定假定5:正态性假定,即正态性假定,即以上假定也称以上假定也称高斯假定高斯假定或或古典假定古典假定。或或在不知道总体回归直线的情况下,利用样本信在不知道总体回归直线的情况下,利用样本信息建立的息建立的样本回归函数样本回归函数应尽可能接近应尽可能接近总体回归总体回归函数函数,有多种方法。,有多种方法。普通最小二乘法普通最小二乘法(Ordinary Least Squares)由德国数学家由德国数学家高斯高斯(C.F.Gauss)提出。提出。二、普通最小二乘法二、普通最小二乘法XY对于给定的对于给定的 Y
21、 和和 X的观测值,我们希望这的观测值,我们希望这样决定样决定SRF,使得,使得SRF上的值尽可能接近上的值尽可能接近实际的实际的 Y。就是使得残差平方和就是使得残差平方和即使得即使得这样就得到这样就得到PRF的一个样本估计的一个样本估计 SRF:记记则则称为称为Xi的的离差离差称为称为Yi的的离差离差三、三、OLS回归线的性质回归线的性质1.1.1.1.样本回归直线通过样本均值,即样本回归直线通过样本均值,即样本回归直线通过样本均值,即样本回归直线通过样本均值,即由下式即得由下式即得由下式即得由下式即得2.Y 的真实值和估计值有相同的均值,即的真实值和估计值有相同的均值,即3.残差和及残差均
22、值为残差和及残差均值为0 0,即,即n n由前面方程组中的:由前面方程组中的:4.Y 的估计值与残差的估计值与残差e不相关不相关,即即5.解释变量解释变量X与残差与残差e不相关不相关,即即(1)无偏性)无偏性四、四、OLS估计式的统计性质估计式的统计性质(2 2)最小方差性最小方差性最小方差性是指在参数的所有无偏估计量中,最小方差性是指在参数的所有无偏估计量中,最小方差性是指在参数的所有无偏估计量中,最小方差性是指在参数的所有无偏估计量中,OLSOLS估计量具有最小方差。标准差为估计量具有最小方差。标准差为估计量具有最小方差。标准差为估计量具有最小方差。标准差为(3 3)线性性线性性线性性是指
23、参数估计式是线性性是指参数估计式是线性性是指参数估计式是线性性是指参数估计式是Y Y的线性函数,即的线性函数,即的线性函数,即的线性函数,即 在古典假定条件下,总体回归函数参数的最在古典假定条件下,总体回归函数参数的最 小二乘估计量具有小二乘估计量具有线性性线性性、无偏性无偏性和和最佳性最佳性,我们把总体参数的最小二乘估计量叫做我们把总体参数的最小二乘估计量叫做最佳最佳 线性无偏估计量线性无偏估计量(Best Linear Unbiased Estimator BLUE)。第三节第三节 拟合优度的度量拟合优度的度量 样本回归线是对样本数据的一种拟合,样本回归线是对样本数据的一种拟合,从散点图上
24、看,回归线上的值(计算值)与从散点图上看,回归线上的值(计算值)与实际样本观测值总是存在或正或负的偏差。实际样本观测值总是存在或正或负的偏差。所谓所谓拟合优度拟合优度就是指拟合的优劣程度。怎样就是指拟合的优劣程度。怎样度量?若仅用度量?若仅用残差残差来度量并没有反映来度量并没有反映Y的变的变化在多大程度上可以用化在多大程度上可以用X的变化来解释。的变化来解释。一、总变差的分解一、总变差的分解该式为该式为0 0,见,见P34P34 TSS=RSS+ESS且三个平方和的自由度有如下关系且三个平方和的自由度有如下关系:dfT=dfR+dfE在一元回归问题中在一元回归问题中:dfT=n-1,dfR=1
25、,dfE=n-2。总离差平方和总离差平方和记记回归平方和回归平方和残差平方和残差平方和1.什么是自由度什么是自由度模型中样本值可以自由变动的个数,称为模型中样本值可以自由变动的个数,称为自由度自由度自由度自由度=样本个数样本个数-样本数据受约束条件样本数据受约束条件(方程)的个数(方程)的个数例如:样本数据个数例如:样本数据个数=n,它们受,它们受k个方程个方程的约束(这的约束(这n个数必须满足这个数必须满足这k个方程)个方程)自由度自由度df=n-k。关于自由度2.对应于平方和分解的自由度的分解dfT=n-1dfR=1 dfE=dfT dfR=n-1-1=n-2约束方程为约束方程为TSS=R
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 简单 线性 回归 模型
限制150内