线性回归模型的有偏估计.ppt
计量经济学的统计学基础简要复习数理统计学为什么要复习数理统计学n数理统计学是计量经济学的基础,它为计量经济学提供了唯一而有效的方法。n数理统计较难,而且许多同学对于数学公式与数学符号的健忘,提醒我们有必要在展开计量经济学讨论之前,对本课程中经常使用到的数理统计学基本内容事先进行一些温习和回顾。主要内容n第一节 基本概念n第二节 对总体的描述随机变量的数字特征n第三节 对样本的描述样本分布的数字特征n第四节 随机变量的分布总体和样本的连接点n第五节 通过样本,估计总体(一)估计量的特征n第六节 通过样本,估计总体(二)估计方法n第七节 通过样本,估计总体(三)假设检验 第一节 基本概念n总体和个体n样本和样本容量n随机变量n统计量n随机变量的分布函数和分布密度函数1.1 总体(集合)、个体(构成集合的元素)、样本和样本容量n研究对象的全体称为总体或母体,组成总体的每个基本单位称为个体。n总体中抽出若干个个体组成的集体称为样本。样本中包含的个体的个数称为样本的容量,又称为样本的大小。注意:抽样是按随机原则选取的,即总体中每个个体有同样的机会被选入样本。1.2 随机变量n根据概率不同而取不同数值的变量称为随机变量(Random Variable)。n一个随机变量具有下列特性:可以取许多不同的数值,取这些数值的概率为p,总体、随机变量、样本间的联系n样本就是一个随机变量,所谓“样本容量为 n的样本”就是n个相互独立且与总体有相同分布的随机变量X1,Xn。n每一次具体抽样所得的数据,就是n元随机变量的一个观察值,记为(x1,xn)。n样本是总体的一部分。总体一般是未知的,一般要通过样本才能部分地推知总体的情况。1.3 统计量n设(x1,x2,xn)为一组样本观察值,函数 y=f(x1,x2,xn)若不含有未知参数,则称为统计量。n统计量一般是连续函数。由于样本是随机变量,因而它的函数y也是随机变量,所以,统计量也是随机变量。n统计量一般用它来提取由样本带来的总体信息。1.4 随机变量的分布函数n定义 若X为一随机变量,对任意实数x,称 F(x)P(X x)为随机变量X的分布函数。连续型随机变量的分布密度n定义:对于任何实数x,如果随机变量X的分布函数F(x)可以写成分布密度函数的性质:n概率密度函数的大小能够反映X在x附近取值的概率的大小,从而比分布函数更直观。举例:正态分布nXN(u,)x2x2f(x)F(x)x1x1XX第二节 对总体的描述 随机变量的数字特征n2.1、数学期望n2.2、方差n2.3、数学期望与方差的图示2.1.1 数学期望:一个加权平均值n数学期望描述随机变量(总体)的一般水平。n定义2.1离散型随机变量数学期望的定义:n定义2.2 连续型随机变量数学期望的定义变量X的取值x1x2xn相应概率Pp1p2pn2.1.2数学期望的性质n(1)如果a、b为常数,则 E(aX+b)=aE(X)+bn(2)如果X、Y为两个随机变量,则 E(X+Y)=E(X)+E(Y)n(3)如果g(x)和f(x)分别为X的两个函数,则 Eg(X)+f(X)=Eg(X)+Ef(X)n(4)如果X、Y是两个独立的随机变量,则 E(X.Y)=E(X).E(Y)2.2.1 方差的定义n定义 离均差 如果随机变量X的数学期望E(X)存在,称X-E(X)为随机变量X的离均差。显然,随机变量离均差的数学期望是0,即 E X-E(X)=0n定义 方差、标准差 随机变量离均差平方的数学期望 叫随机变量的方差,记作Var(x)或D(x)。方差的算术平方根叫标准差。2.2.2方差的意义n(1)离均差和方差都是用来描述离散程度的,即描述X对于它的期望的偏离程度,这种偏差越大,表明变量的取值越分散。n(2)一般情况下,我们采用方差来描述离散程度。因为离均差的和为0,无法体现随机变量的总离散程度。方差中由于有平方,从而消除了正负号的影响,并易于加总。2.2.3 方差的性质n(1)Var(c)=0n(2)Var(c+x)=Var(x)n(3)Var(cx)=c2Var(x)n(4)x,y为相互独立的随机变量,则 Var(x+y)=Var(x)+Var(y)=Var(x-y)n(5)Var(x)=E(x2)-(E(x)2数学期望与方差的图示n数学期望描述随机变量的集中程度,方差描述随机变量的分散程度。1.方差同、期望变大 2.期望同、方差变小51055第三节 对样本的描述 样本分布的数字特征一、样本均值:二、样本方差、样本标准差第四节 随机变量的分布 总体和样本的连接点n4.1 几种重要的分布n4.2 分布:总体和样本之间的连接点 学习的重点应放在确定X服从什么分布,和各种分布的联系上。4.1 几种重要的分布n4.1.1 正态分布n4.1.2 卡方分布n4.1.3 t分布n4.1.4 F分布n4.1.5 临界值点4.1.1 正态分布n定义 正态分布的定义n定理 正态分布的数学期望和方差正态分布图示x2x2f(x)F(x)x1x1XX正态分布的标准化n定义 标准正态分布n定理 正态分布标准化关于正态分布的和4.1.2 2 分布n 2 分布的定义N=7N=11概率xN为自由度定理 2 分布的和仍然服从 2 分布4.1.3 t分布nt分布的定义概率密度x标准正态分布t-分布04.1.4 F分布nF分布的定义x概率密度4.1.5 临界值点:(1)标准正态分布、t分布临界值点(双侧)/2/21-类似:临界值点:(2)卡方分布(双侧)、F分布(单侧)临界值点x概率密度1-/2/21-x4.2 分布:总体和样本之间的连接点第五节 通过样本,估计总体(一)估计量的特征n无偏性n有效性n兼顾无偏和有效:最小均方误n一致性n大样本下,具一致性的估计量具“无偏”和“有效”特性。5.1 无偏性定义的真值的真值有偏无偏5.2 有效性定义形象感觉无偏性和有效性:重庆长安厂4支比赛用枪的抽样结果准而不精又精又准精而不准不精不准一次射击就是一一次射击就是一一次射击就是一一次射击就是一次抽样。试问:次抽样。试问:次抽样。试问:次抽样。试问:哪些是无偏估计哪些是无偏估计哪些是无偏估计哪些是无偏估计?哪些是有偏估计哪些是有偏估计哪些是有偏估计哪些是有偏估计?哪些是有效估计哪些是有效估计哪些是有效估计哪些是有效估计?偏差与方差的权衡:最小均方误有偏,方差极小无偏,方差极大5.3 一致性的定义n增大时,一致估计量的“无偏”“有效”特性N小N大N极大的真值。第六节 通过样本,估计总体(二)估计方法n点估计n区间估计n区间估计的概念、步骤n应用:对总体期望的区间估计 1、已知方差,对数学期望E进行区间估计n 正态总体n 一般总体大样本下 2、方差未知,对数学期望E进行区间估计n大样本下/小样本下6.1 区间估计的概念n所谓区间估计就是以一定的可靠性给出被估计参数的一个可能的取值范围。n具体作法是找出两个统计量 1(x1,xn)与2(x1,xn),使 P(1 2)=1-n(1,2)称为置信区间,1-称为置信系数(置信度),称为冒险率(测不准的概率)或者显著水平,一般取5%或1%。对区间估计的形象比喻n我们经常说某甲的成绩“大概80分左右”,可以看成一个区间估计。(某甲的成绩为被估计的参数)P(1 2)=大概的准确程度(1-)如:P(75 =30时,近似地,样本平均数 N(,2/n)。n所以,对于大样本仍可以按正态总体进行均值的区间估计。6.4 方差未知,正态总体,对数学期望Eu的区间估计n(1)大样本下 根据中心极限定理,Var()可以用 代替,所以仍按已知方差正态分布的方法进行的置信区间估计。(2)小样本下区间估计,统计量的选择小结第七节 通过样本,估计总体(三)假设检验n基本概念:假设检验,原假设/备择假设n小概率事件原理在假设检验中的应用n置信水平n假设检验的步骤n应用:n正态总体期望的假设检验(方差已知/方差未知)(t检验等)n方差的假设检验7.1 假设检验的概念n定义:称对任何一个随机变量未知的分布类型或参数的假设为统计假设,简称假设。检验该假设是否正确称为假设检验。n在统计假设,如 H0:p=0.5 (称为原假设)H1:p 0.5 (称为备择假设)7.2 “小概率原理”在假设检验中的应用n数理统计学中的“小概率原理”认为:概率很小的事件在一次抽样试验中几乎是不可能发生的。n在H0成立的条件下,统计量落在拒绝域为一个小概率事件,因此,在一次抽样试验中,依据小概率原理,是不会发生的。n要是小概率事件(“统计量落在拒绝域”)居然发生了。那么,只能是提出的假设H0发生了错误,所以必须拒绝H0。显著性水平n是小概率事件发生的概率;在假设检验中也称为置信水平。7.3 假设检验的步骤:nStep1:分析问题,提出原假设和备择假设;nStep2:选择和计算统计量U:在原假设成立时,U的分布已知;含有要检验的参数;各个参数应该都是已知的、可求的。nStep3:构造小概率事件:nStep4:判断小概率事件是否发生:nStep5:下结论:若小概率事件发生,拒绝原假设H0;选择备择假设H1。否则,原假设成立。假设检验的具体操作步骤(以正态总体、已知方差,检验均值u为例)n1、提出零假设 H0:=0 H1:0n3、确定显著水平,如=0.05,查表得相应的临界值/2n4、判断和下结论:若|U|/2 ,拒绝H0;若|U|/2,接受H0;(判断区域图示)n5、依据结论,作出经济学上的解释。7.4 假设检验的应用正态总体均值u的假设检验 设总体N(,2),0是已知数。对于其参数的假设检验,讨论2种情况:1.已知方差2,H0:=0,H1:0 2.未知方差2,H0:=0,H1:0课本:第二章第三节(P30)n回归系数的区间估计;n随机扰动项方差的区间估计;n回归系数的假设检验(t检验)。n原假设、意义。n随机扰动项方差的假设检验临界值点:(1)标准正态分布、t分布临界值点(双侧)/2/21-类似:返回临界值点:(2)卡方分布(双侧)、F分布(单侧)临界值点x概率密度1-/2/21-x返回判断区域图示如下x f(x)不拒绝H0区域拒绝域拒绝域返回