《简单线性回归》PPT课件.pptx
第二章一元线性(简单)回归模型计量经济学附录:几个 数学和统计概念1.总体和样本总体:所研究问题中涉及到的全部个体的总和。又称为样本空间。样本:总体中的一部分。2.概率与随机变量令A表示样本空间中的一个事件。概率P(A)指在重复实验中时间A将出现次数的比例。P(A)的性质:(1)对每个A有0P(A)1(2)如果A,B,C.构成事件的穷举集,则P(A+B+C+.)=1,其中A+B+C表示A或B或C(3)如果A,B,C.是互斥事件,则P(A+B+C+.)=P(A)+P(B)+P(C)+.概率:例考虑投掷一颗骰子的实验。样本空间由结果1,2,36构成。这6个事件穷举了整个样本空间。任一结果都有相同的概率出现,P(1)=P(2)=P(3)=1/6。由于穷尽,P(1)+P(2)+P(6)=1又由于互斥,P(1+2+3+6)=P(1)+P(2)+P(6)=13.随机变量在数学上,一个变量如果它的值由随机试验的结果决定,就称为随机变量。随机变量分为离散和连续随机变量两种。离散随机变量只取有限多个值,例如投掷两颗骰子,将随机变量X定义为两骰子出现的数字之和,则X将取如下数字之一:2,3,4,5.12.连续随机变量可以取某一区间的任何值。4.概率密度函数(1)离散随机变量的概率密度函数令X为取x1,x2,xn的一个离散随机变量,则函数:f(x)=P(X=xi)对于i=1,2,n =0 对于xxi叫做X的离散概率密度函数,其中P(X=xi)表示离散变量X取值xi的概率例:两颗骰子定义随机变量X表示投掷两颗骰子所出现的数字之和,可取的数值共有11个。此变量的概率密度函数可表示如下:x=23456789101112f(x)1/362/363/364/365/366/365/364/363/362/361/36(2)连续随机变量的概率密度函数令X为一连续随机变量,如果满足以下条件,则称f(x)是X的概率密度函数:P(ax b)是指x落在a到b区间上的概率.例:连续随机变量的概率密度分布考虑如下密度分布验证上述条件,并求X落在(0,1)区间上的概率。5.集中趋势的度量:期望(均值)对于随机变量X,其期望值E(X)就是对X的所有可能值得加权平均,权数为概率密度函数。当X为离散时容易说明。如假定X分别以概率1/8,1/2和3/8取值-1,0,2则E(X)=(-1)1/8+01/2+23/8=5/8期望对于一个随机变量,其期望E(X)为离散变量:其中连续变量:例续:期望的性质性质1:E(c)=c,c为常数性质2:E(aX+b)=aE(x)+b性质3:E(iaiXi)=iaiE(Xi),i=1,2,n6.变异性的度量:方差对于随机变量X,通常记期望E(X)=,反映集中情况方差则度量X距离其期望多远。Var(X)=E(X-)2有用的表述:Var(X)=E(X2)-2标准差:是方差的正的平方根7:样本方差和标准误从样本实际计算估计总体方差和标准差。样本方差:标准误:方差的性质性质1:var(c)=0性质2:var(aX+b)=a2var(X)均值相同方差不同的两个概率密度函数第一节模型的建立和假设条件一、简单回归模型的定义最基本的计量分析研究如下问题:y和x是两个代表某个总体的变量,如中国居民的储蓄和收入。感兴趣的是在其他条件不变的情况下,x对y的影响,或研究y如何随x变化。一般性的,可表示为y=f(x)。有三个问题:(1)y和x的确切关系;(2)其他影响y的因素;(3)如何保证是在其他条件不变的情况下刻画了y和x之间的关系?简单回归方程y=b0+b1x+u或yi=b0+b1xi+ui上式定义了简单线性回归方程,简单回回归的的术语yx因变量被解释变量响应变量回归子自变量解释变量控制变量回归元简单线性回归y=b0+b1x+u简单:只有2个变量,因此也称为双变量线性回归模型。线性:y和x之间、y和b之间为线性关系。从表达式中可以看出,对于三个基本问题,第一个问题由线性函数解决;第二个问题由误差项u解决,将其他因素都归入其中;第三个问题由假设Du=0解决。如果Du=0,Dy=b1Dx,参数b1称为斜率参数,反映了其他条件不变时x对y的影响;参数b1称为截距参数。例2.1大豆收成与施肥量农业研究者常假设大豆收成由以下模型决定:yield=b0+b1fertilizer+uyield表示大豆收成(y);fertilizer表示施肥量(x)。感兴趣的是,在其他因素不变的情况下,施肥量如何影响大豆收成。这一影响由b1给出,误差项u包括了诸如土地质量、降雨量等因素。系数b1度量了在其他条件不变的情况下,施肥量对产出量的影响:Dyield=b1Dfertilizer 例2.2工资与教育程度许多研究都分析了工资与受教育程度之间的关系,我们一般预计,受教育程度越高,收入也越高。以下模型表示一个人的工资水平与他的受教育程度及其他不可观测因素之间的关系:如果工资和教育分别以每小时美元数和受教育的年数来度量,则b1度量了在其他条件不变的情况下,多接受一年教育导致的小时工资的增长量。强调:线性线形一词是指参数和干扰项进入方程的方式,而不一定是指变量之间的关系。如y=b0+b1x+u,y=b0+b1cos(x)+u,y=b0+b1/x+u,ln(y)=b0+b1ln(x)+u 等均为线形方程。关于误差项加入u的原因:(1)省略的变量(2)随机行为(3)数学模型近似(4)总量误差(5)测量误差.二、总体回归线先看一个重要结论。只要方程中包含截距项只要方程中包含截距项b b0,我们总可以假设,我们总可以假设E(u)=0。E为期望符号。为什么?对y=b0+b1x+u求期望,由于和的期望等于期望的和,因此,E(y)=b0+b1x+E(u)如果E(u)=a0,令b b0+a,则E(y)=b+b1x+E(u)-a=b+b1x25.y4y1y2y3x1x2x3x4u1u2u3u4xy简单回归方程的分解:ui=yi(b0+b1xi)总体回归线:E(y)b0+b1x三、关于误差项的假设条件1.零均值假定为了能够估计未知参数b,需要作出u和x之间关系的一个根本假设:假设1:E(u|x)=E(u)=0 第一个等式说的是给定x,u的条件期望等于0,它表明,对于任意给定的x,无法观测因素的平均值(期望)都相等,并因此必然与总体中u的平均值也相等,该假定称为“零条件均值假定零条件均值假定”。在该假定下,总体回归线往往表示为:E(y|x)b0+b1x27.x1x2总体回归线E(y|x)是x的线性函数,对于任何给定的x,y的分布都 以直线E(y|x)=b0+b1x为中心。E(y|x)=b0+b1xyf(y|x)总体回归线关于给定X例(续)为简化,假定u就是不可观测的天生能力。零条件均值的假定有什么含义呢?该假定要求,无论受教育程度如何,能力的平均水平都相同。例如E(abil|9)表示受过9年义务教育者的平均能力,E(abil|16)表示受过16年教育(本科生)的平均能力,零条件均值假定意味着两者相等。事实上所有所有教育程度的人都具有相同的平均能力。如果我们认为平均能力随着受教育程度的增加而增加,即存在相关关系,该假定就是错误的。思考:在大豆收成例中,零条件均值假定有什么含义?2.外生性假定假设2:Cov(u,x)=E(ux)=0即u和x之间的协方差为0,也就是两者之间不存在相关关系。协方差:Cov(x,y)=E(xy)-E(x)E(y)或 Cov(x,y)=E(x-E(x)(y-E(y)相关系数:3.同方差假定假设3:var(u)=2该假定意味着,每个x所对应的随机误差项u都具有相同的常数方差,因此称为同方差方差:var(x)=E(x-)2=E(x2)-2其中,=E(x)为x的均值(期望)在现代计量经济学中,同样以条件方差的形式:var(u|x)=23.同方差假定(续)y的方差与u的方差相同var(y)=var(b0+b1x+u)=var(u)=2或var(y|x)=var(b0+b1x+u|x)=var(u|x)=24.无序列相关假定Cov(ui,uj)=05.正态性假定uiNormal(0,2)第二节 简单回归方程的估计一、样本回归方程由于yi=b0+b1xi+ui中的参数未知,对总体回归线E(y|x)b0+b1x如何通过观察值(xi,yi),对参数b0,b1进行估计。37.y4y1y2y3x1x2x3x4e1e2e3e4xy样本回归线和残差总体和样本回归线、误差项与残差项39.yieixy残差、拟合值的图示ui二、参数的估计:最小二乘法(OLS)原则:使样本回归线处于样本数据的中心位置最合理。(1)用“残差和最小”确定直线位置是一个途径。但很快发现计算“残差和”存在相互抵消的问题。(2)用“残差绝对值和最小”确定直线位置也是一个途径。但绝对值的计算比较麻烦。(3)最小二乘法的原则是以“残差平方和最小”确定直线位置。用最小二乘法除了计算比较方便外,得到的估计量还具有优良特性。OLS的推导OLS的推导:另一种方法三、最小二乘法OLS的运用例:OLS的推导,一个数字例子假设对10个家庭每周收入和支出调查得到序号支出(y)收入(x)155802881003901204801405118160612018071452008135220914524010175260例(续)上面的计算结果表明表明:收入增加1元,消费支出增加元;如果收入为0,支出为元如果收入等于210元,预测的支出应该是多少?课后练习练习1:P39页例子,使用Excel,利用表达式手动计算估计的参数值,判定系数R-方,并保存计算步骤。软件的使用regress 命令Regress 因变量 自变量例:CEO的薪水与业绩中,包含了209位美国CEO的薪水(salary,千美元)和净资产收益率(roe,%)数据,建立一个简单回归方程使用OLS估计净资产收益率对薪水的影响,并解释所得样本回归线的含义。sum salary roereg salary roescatter salary roe|lfit salary roe解释:由计算结果可表述为:首先,从截距上可以看出,当roe=0时,薪水的预测值为963(千美元),其次,薪水的预期变化由斜率表示,即如果净资产收益率增加1%,即roe=1,薪水的预期变化就是(千美元)思考:当roe=9时,预测的薪水应该是多少?例 工资与教育水平在中是1990年劳动力调查数据。变量wage表示每小时获得的工资报酬,如表示每小时工资美元;educ表示受教育年数,如educ=12表示已经完成高中教育。利用简单回归方程研究教育对工资的影响,列出回归表达式并分析截距和斜率的含义;增加4年教育小时工资变化多少?在平均受教育水平上小时工资是多少?例续sum wage educreg wage educ注意截距!List wage educ if educ=0count if educ 0,或H1:0)的图示一、OLS估计量的方差假定5:同方差性。给定解释变量的任何值,误差都具有相同的方差。Var(u|x)=2假定6:u服从正态分布,即uN(0,2)由于正态分布的线性组合也服从正态分布,因此也服从正态分布,由前面的无偏性知道由于正态分布由均值和方差决定,因此需要知道估计量的方差。估计量的方差可以看出,误差项方差越大,估计值的方差也越大,即准确估计参数更加困难;另一方面,自变量的变异越大,估计值的方差越小,即自变量越分散越能得到准确的度量。系数估计值的分布因此,在知道期望和方差后,分别服从的正态分布估计量的均值和方差(标准差)干扰项方差的估计由于误差项的方差2是未知的,一个自然的选择是用残差来近似误差项。除以(n-2)是由于正规方程有2个,使残差的自由度只有(n-2)而非n个。可以证明(略)该估计值是误差项方差的无偏估计,即参数估计值的估计方差和标准差在得到误差项方差的估计值后,即可得到的方差和标准差的估计值。二、系数的假设检验:T检验1.正态分布的标准化附录:正态分布的特征概率密度函数f(x)=随机变量 X 的频数 =总体方差 x=随机变量的取值(-x )=总体均值正态分布函数的重要性质1.正态曲线的最高点在均值,它也是分布的中位数和众数2.正态分布是一个分布族,每一特定正态分布通过均值的标准差来区分。决定曲线的高度,决定曲线的平缓程度,即宽度3.曲线f(x)相对于均值对称。4.服从正态分布的随机变量的线性组合,也服从正态分布。正态分布的概率概率是曲线下的概率是曲线下的面积面积!a ab bx xf f(x x)标准正态分布函数1.任何一个一般的正态分布,可通过下面的线性变换转化为标准正态分布标准正态分布xms一般正态分布一般正态分布一般正态分布=1Z标准正态分布标准正态分布标准正态分布 2.系数估计值的T分布前面我们知道两个系数估计值服从正态分布,如果2已知,即可对其进行标准化,从而可得到标准正态分布的Z值,并与查表所得临界值比较即可判断。但由于2未知,需要用其无偏估计量替换。系数估计值的T分布可以证明(需利用e/的平方和服从自由度(n-2)的c2分布),服从自由度为(n-2)的t分布,即:单个总体参数的假设建议即依据于t分布进行。依据标准正态分布扩展的基本分布(P364)标准正态:ZN(0,1)c2分布:令zi,i=1,n,为n个独立标准正态分布,定义一个新变量c2 为z的平方和,即:则c2服从自由度为n的c2分布基本分布t分布,由标准正态分布z和c2分布复合而来。称t服从n个自由度的t分布。3,T检验的实施(1)基本形式:H0:1=0,H1:10在该虚拟假设下,t统计量为:在给定显著水平的条件下,查自由度(n-2)的t分布表,得临界值c=t/2。如果|t|c,拒绝H0,即解释变量对被解释变量有影响,通常表述为“在(%)的水平上,x对y有显著影响。例 CEO薪水与净资产收益率,判别在,或的水平上,roe的影响是否显著。例 教育与工资,判别在,或的水平上,roe的影响是否显著。(2)检验利用表达式其余一样。如教育的例子中,要检验1,t=(0.5413-0.5)/0.053248=0.777,在任何水平上都不显著,因此不能拒绝。STATA 中检验线性关系,使用test命令进行F检验,要得到t值,开平方根即可。(3)单侧检验如果基于先验或其他考虑,虚拟假设表述为:H0:1=0,H1:10需要进行单侧检验。同样选择显著性水平,说明在虚拟假设正确的情况下只有%的可能性被错误的拒绝。利用t检验我们要需求一个“足够大”的正值以拒绝H0:1=0,而支持H1:10。注意由于单侧,拒绝法则为:例(续):CEO薪水与ROE由前面知t=1.66,双侧检验时在5%的水平上不显著,在10%的水平上显著.查t分布表决定是否5%水平上单侧检验显著?判断系数在多少水平上显著:P值一种更直接的方法,是问:“给定t统计量的观测值,能拒绝虚拟假设的最小显著性水平上多少?”这个水平称为p值在给定t值的情况下,求p=P(|T|t|),即落在t分布右尾的概率。给定p值,可以进行任何水平上的检验,如果p1.66)=2*0.049=0.098.因此我们在10%的水平上拒绝系数=0的假设。在5%的水平上不能拒绝。三、系数估计值的置信区间置信区间:是一个构造出来区间,满足以一定置信水平(概率水平)把总体参数的真值包含在内。由t分布知道:关于置信区间的说明置信区间的随机抽样特征:它表示在给定置信水平下,如果随机抽取多次样本,总体参数以95%的概率出现在区间里。由其表达式可知,置信区间的大小(宽度)由估计值的标准误决定。标准误越小,区间越窄。判定:如果关心的判定:如果关心的 1 1的值不包含在置信区间内,的值不包含在置信区间内,我们说在我们说在 的水平上拒绝的水平上拒绝H0:1=c的虚拟假设的虚拟假设。例:CEO薪水与ROE(置信区间)(0.57)(0.09)写出系数估计值的90%、95%和99%水平上的置信区间六、简单线性回归的预测当我们用一组样本获得了样本回归方程之后,如果经过分析发现能较好的拟合总体回归方程,即可用来进行预测。预测分为点预测和区间预测。点预测,将已知的自变量取值代入回归方程即可。综合运用:江苏省GDP与货物周转量1.计算平均值、最小和最大值,绘制散点图,写出简单线性回归方程2.估计系数。解释截距和系数,报告标准误和R方,写出估计方程。3.检验系数是否显著,已知17个自由度下95水平上t的临界值为,写出系数95%的置信区间。(772.9)(0.39)R2=0.955n=18估计结果写成如下形式