线性回归模型的有偏估计.pptx
会计学1线性回归模型的有偏估计线性回归模型的有偏估计主要内容主要内容n n第一节第一节 基本概念基本概念n n第二节第二节 对总体的描述对总体的描述随机变量的数字特征随机变量的数字特征n n第三节第三节 对样本的描述对样本的描述样本分布的数字特征样本分布的数字特征n n第四节第四节 随机变量的分布随机变量的分布总体和样本的连接点总体和样本的连接点n n第五节第五节 通过样本,估计总体(一)通过样本,估计总体(一)估计量的特征估计量的特征n n第六节第六节 通过样本,估计总体(二)通过样本,估计总体(二)估计方法估计方法n n第七节第七节 通过样本,估计总体(三)通过样本,估计总体(三)假设检验假设检验 第1页/共61页第一节第一节第一节第一节 基本概念基本概念基本概念基本概念n n总体和个体n n样本和样本容量n n随机变量n n统计量n n随机变量的分布函数和分布密度函数第2页/共61页1.1 总体(集合)、个体(构成集合的元素)、总体(集合)、个体(构成集合的元素)、样本和样本容量样本和样本容量n n研究对象的全体称为总体或母体,组成总体的每个基本单位称为个体。n n总体中抽出若干个个体组成的集体称为样本。样本中包含的个体的个数称为样本的容量,又称为样本的大小。注意:抽样是按注意:抽样是按随机原则随机原则选取的,即总体中每选取的,即总体中每个个体有同样的机会被选入样本个个体有同样的机会被选入样本。第3页/共61页1.2 随机变量随机变量n n根据概率不同而取不同数值的变量称为随机变量(Random Variable)。n n一个随机变量具有下列特性:可以取许多不同的数值,取这些数值的概率为p,第4页/共61页总体、随机变量、样本间的联系总体、随机变量、样本间的联系n n样本就是一个随机变量,所谓“样本容量为 n的样本”就是n个相互独立且与总体有相同分布的随机变量X1,Xn。n n每一次具体抽样所得的数据,就是n元随机变量的一个观察值,记为(x1,xn)。n n样本是总体的一部分。总体一般是未知的,一般要通过样本才能部分地推知总体的情况。第5页/共61页1.3 统计量统计量n n设(设(x x1 1,x x2 2,x xn n)为一组样本观察值,函数)为一组样本观察值,函数 y=fy=f(x x1 1,x x2 2,x xn n )若不含有未知参数,则称为统计量。)若不含有未知参数,则称为统计量。n n统计量一般是连续函数。由于样本是随机变量,因而它的函数统计量一般是连续函数。由于样本是随机变量,因而它的函数y y也是随机变量,也是随机变量,所以,统计量也是随机变量。所以,统计量也是随机变量。n n统计量一般用它来提取由样本带来的总体信息。统计量一般用它来提取由样本带来的总体信息。第6页/共61页1.4 随机变量的分布函数随机变量的分布函数n n定义 若X为一随机变量,对任意实数x,称 F(x)P(X x)为随机变量X的分布函数。第7页/共61页连续型随机变量的分布密度连续型随机变量的分布密度n n定义:对于任何实数定义:对于任何实数x x,如果随机变量,如果随机变量X X的分布函数的分布函数F F(x x)可以写)可以写成成第8页/共61页分布密度函数的性质:分布密度函数的性质:分布密度函数的性质:分布密度函数的性质:n n概率密度函数的大小能够反映X在x附近取值的概率的大小,从而比分布函数更直观。第9页/共61页举例:正态分布举例:正态分布举例:正态分布举例:正态分布n nXN(u,)x2x2f(x)F(x)x1x1XX第10页/共61页第二节第二节第二节第二节 对总体的描述对总体的描述对总体的描述对总体的描述 随机变量的数字特征随机变量的数字特征随机变量的数字特征随机变量的数字特征n n2.1、数学期望n n2.2、方差n n2.3、数学期望与方差的图示第11页/共61页2.1.1 数学期望:一个加权平均值数学期望:一个加权平均值n n数学期望描述随机变量(总体)的一般水平。数学期望描述随机变量(总体)的一般水平。n n定义定义2.12.1离散型随机变量数学期望的定义:离散型随机变量数学期望的定义:n n定义定义2.2 2.2 连续型随机变量数学期望的定义连续型随机变量数学期望的定义变量X的取值x1x2xn相应概率Pp1p2pn第12页/共61页2.1.2数学期望的性质数学期望的性质n n(1 1)如果)如果a a、b b为常数,则为常数,则 E(aX+b)=aE(X)+bE(aX+b)=aE(X)+bn n(2 2)如果)如果X X、Y Y为两个随机变量,则为两个随机变量,则 E(X+Y)=E(X)+E(Y)E(X+Y)=E(X)+E(Y)n n(3 3)如果)如果g(x)g(x)和和f(x)f(x)分别为分别为X X的两个函数,则的两个函数,则 Eg(X)+f(X)=Eg(X)+Ef(X)Eg(X)+f(X)=Eg(X)+Ef(X)n n(4 4)如果)如果X X、Y Y是两个独立的随机变量,则是两个独立的随机变量,则 E(XE(X.Y)=E(X)Y)=E(X).E(Y)E(Y)第13页/共61页2.2.1 方差的定义方差的定义n n定义定义 离均差离均差 如果随机变量如果随机变量X X的数学期望的数学期望E(X)E(X)存在,称存在,称X-X-E(X)E(X)为随机变量为随机变量X X的离均差。显然,随机变的离均差。显然,随机变量离均差的数学期望是量离均差的数学期望是0 0,即,即 E X-E(X)=0E X-E(X)=0n n定义定义 方差、标准差方差、标准差 随机变量离均差平方的数学期望随机变量离均差平方的数学期望 叫随机变量的方差,记作叫随机变量的方差,记作Var(x)Var(x)或或D(x)D(x)。方差的算术平方根叫标准差。方差的算术平方根叫标准差。第14页/共61页2.2.2方差的意义方差的意义n n(1)离均差和方差都是用来描述离散程度的,即描述X对于它的期望的偏离程度,这种偏差越大,表明变量的取值越分散。n n(2)一般情况下,我们采用方差来描述离散程度。因为离均差的和为0,无法体现随机变量的总离散程度。方差中由于有平方,从而消除了正负号的影响,并易于加总。第15页/共61页2.2.3 方差的性质方差的性质n n(1)Var(c)=0n n(2)Var(c+x)=Var(x)n n(3)Var(cx)=c2Var(x)n n(4)x,y为相互独立的随机变量,则 Var(x+y)=Var(x)+Var(y)=Var(x-y)n n(5)Var(x)=E(x2)-(E(x)2第16页/共61页数学期望与方差的图示数学期望与方差的图示n n数学期望描述随机变量的集中程度,方差描述随机变量的分散程度。数学期望描述随机变量的集中程度,方差描述随机变量的分散程度。1.1.方差同、期望变大方差同、期望变大 2.2.期望同、方差变小期望同、方差变小51055第17页/共61页第三节第三节第三节第三节 对样本的描述对样本的描述对样本的描述对样本的描述 样本分布的数字特征样本分布的数字特征样本分布的数字特征样本分布的数字特征一、样本均值:一、样本均值:二、样本方差、样本标准差二、样本方差、样本标准差第18页/共61页第四节第四节第四节第四节 随机变量的分布随机变量的分布随机变量的分布随机变量的分布 总体和样本的连接点总体和样本的连接点总体和样本的连接点总体和样本的连接点n n4.1 4.1 几种重要的分布几种重要的分布n n4.2 4.2 分布:总体和样本之间的连接点分布:总体和样本之间的连接点 学习的重点应放在确定学习的重点应放在确定X X服从什么分布,和各种分布的联系上。服从什么分布,和各种分布的联系上。第19页/共61页4.1 几种重要的分布几种重要的分布n n4.1.1 4.1.1 正态分布正态分布n n4.1.2 4.1.2 卡方分布卡方分布n n4.1.3 t4.1.3 t分布分布n n4.1.4 F4.1.4 F分布分布n n4.1.5 4.1.5 临界值点临界值点第20页/共61页4.1.1 正态分布正态分布n n定义定义 正态分布的定义正态分布的定义n n定理定理 正态分布的数学期望和方差正态分布的数学期望和方差第21页/共61页正态分布图示正态分布图示x2x2f(x)F(x)x1x1XX第22页/共61页正态分布的标准化正态分布的标准化n n定义定义 标准正态分布标准正态分布n n定理 正态分布标准化第23页/共61页关于正态分布的和关于正态分布的和第24页/共61页4.1.2 2 分布分布n n 2 2 分布的定义分布的定义N=7N=11概率xN为自由度第25页/共61页定理定理定理定理 2 2 分布的和仍然服从分布的和仍然服从分布的和仍然服从分布的和仍然服从 2 2 分布分布分布分布第26页/共61页4.1.3 t分布分布n nt分布的定义概率密度x标准正态分布t-分布0第27页/共61页4.1.4 F分布分布n nF分布的定义x概率密度第28页/共61页4.1.5 临界值点临界值点:(1)标准正态分布、标准正态分布、t分布临分布临界值点(双侧)界值点(双侧)/2/21-类似:第29页/共61页临界值点:临界值点:(2)卡方分布(双侧)卡方分布(双侧)、F分布分布(单侧)临界值点(单侧)临界值点x概率密度1-/2/21-x第30页/共61页4.2 4.2 分布:总体和样本之间的连接点分布:总体和样本之间的连接点分布:总体和样本之间的连接点分布:总体和样本之间的连接点第31页/共61页第五节第五节第五节第五节 通过样本,估计总体(一)通过样本,估计总体(一)通过样本,估计总体(一)通过样本,估计总体(一)估计量的特征估计量的特征估计量的特征估计量的特征n n无偏性n n有效性n n兼顾无偏和有效:最小均方误兼顾无偏和有效:最小均方误n n一致性n n大样本下,具一致性的估计量具大样本下,具一致性的估计量具“无偏无偏”和和“有效有效”特性。特性。第32页/共61页5.1 无偏性定义无偏性定义的真值的真值有偏无偏第33页/共61页5.2 有效性定义有效性定义第34页/共61页形象感觉无偏性和有效性:重庆长安厂4支比赛用枪的抽样结果准而不精又精又准精而不准不精不准一次射击就是一一次射击就是一一次射击就是一一次射击就是一次抽样。试问:次抽样。试问:次抽样。试问:次抽样。试问:哪些是无偏估计哪些是无偏估计哪些是无偏估计哪些是无偏估计?哪些是有偏估计哪些是有偏估计哪些是有偏估计哪些是有偏估计?哪些是有效估计哪些是有效估计哪些是有效估计哪些是有效估计?第35页/共61页偏差与方差的权衡:偏差与方差的权衡:偏差与方差的权衡:偏差与方差的权衡:最小均方误最小均方误最小均方误最小均方误有偏,方差极小无偏,方差极大第36页/共61页5.3 一致性的定义一致性的定义第37页/共61页n增大时,一致估计量的“无偏”“有效”特性N小N大N极大的真值。第38页/共61页第六节第六节第六节第六节 通过样本,估计总体(二)通过样本,估计总体(二)通过样本,估计总体(二)通过样本,估计总体(二)估计方法估计方法估计方法估计方法n n点估计n n区间估计n n区间估计的概念、步骤区间估计的概念、步骤n n应用:对总体期望的区间估计应用:对总体期望的区间估计 1 1、已知方差,对数学期望、已知方差,对数学期望E E 进行区间估计进行区间估计n n 正态总体正态总体n n 一般总体大样本下一般总体大样本下 2 2、方差未知,对数学期望、方差未知,对数学期望E E 进行区间估计进行区间估计n n大样本下大样本下/小样本下小样本下第39页/共61页6.1 区间估计的概念区间估计的概念n n所谓区间估计就是所谓区间估计就是以一定的可靠性以一定的可靠性给出被估给出被估计参数的计参数的一个可能的取值范围一个可能的取值范围。n n具体作法是找出两个统计量具体作法是找出两个统计量 1 1(x(x1 1,x,xn n)与与 2 2(x(x1 1,x,xn n),使使 P(P(1 1 2 2)=1-)=1-n n(1 1,2 2)称为置信区间,称为置信区间,1-1-称为置信系数称为置信系数(置信度),(置信度),称为冒险率(测不准的概率)称为冒险率(测不准的概率)或者显著水平,一般取或者显著水平,一般取5%5%或或1%1%。第40页/共61页对区间估计的形象比喻对区间估计的形象比喻n n我们经常说某甲的成绩我们经常说某甲的成绩“大概大概8080分左右分左右”,可以看成,可以看成一个区间估计。(某甲的成绩一个区间估计。(某甲的成绩 为被估计的参数为被估计的参数)P(P(1 1 2 2)=)=大概的准确程度(大概的准确程度(1-1-)如:如:P(75 P(75 85)=95%=1-5%=30时,近似地,样本平均数 N(,2/n)。n n所以,对于大样本仍可以按正态总体进行均值的区间估计。第46页/共61页6.4 方差未知,正态总体,对数学期望方差未知,正态总体,对数学期望E u的的区间估计区间估计n n(1)大样本下 根据中心极限定理,根据中心极限定理,Var(Var()可以用可以用 代替,所以仍按已知方差正态代替,所以仍按已知方差正态分布的方法进行分布的方法进行 的置信区间估计。的置信区间估计。第47页/共61页(2 2)小样本下)小样本下)小样本下)小样本下第48页/共61页区间估计,统计量的选择小结区间估计,统计量的选择小结第49页/共61页第七节第七节第七节第七节 通过样本,估计总体(三)通过样本,估计总体(三)通过样本,估计总体(三)通过样本,估计总体(三)假设检验假设检验假设检验假设检验n n基本概念:假设检验,原假设/备择假设n n小概率事件原理在假设检验中的应用n n置信水平n n假设检验的步骤n n应用:n n正态总体期望的假设检验(方差已知正态总体期望的假设检验(方差已知/方差未知)方差未知)(t t检验等)检验等)n n方差的假设检验方差的假设检验第50页/共61页7.1 假设检验的概念假设检验的概念n n定义:称对任何一个随机变量未知的分布类型或参数的假设为统计假设,简称假设。检验该假设是否正确称为假设检验。n n在统计假设,如 H0:p=0.5 (称为原假设)H1:p 0.5 (称为备择假设)第51页/共61页7.2 “小概率原理小概率原理”在假设检验中的应用在假设检验中的应用n n数理统计学中的数理统计学中的“小概率原理小概率原理”认为:概认为:概率很小的事件在一次抽样试验中几乎是不率很小的事件在一次抽样试验中几乎是不可能发生的。可能发生的。n n在在HH0 0成立的条件下,统计量落在拒绝域为成立的条件下,统计量落在拒绝域为一个小概率事件,因此,在一次抽样试验一个小概率事件,因此,在一次抽样试验中,依据小概率原理,是不会发生的。中,依据小概率原理,是不会发生的。n n要是小概率事件(要是小概率事件(“统计量落在拒绝域统计量落在拒绝域”)居然发生了。那么,只能是提出的假设)居然发生了。那么,只能是提出的假设HH0 0发生了错误,所以必须拒绝发生了错误,所以必须拒绝HH0 0。第52页/共61页显著性水平显著性水平 n n是小概率事件发生的概率;在假设检验中也称为置信水平。第53页/共61页7.3 假设检验的步骤:假设检验的步骤:n nStep1:Step1:分析问题,提出原假设和备择假设;分析问题,提出原假设和备择假设;n nStep2:Step2:选择和计算统计量选择和计算统计量U U:在原假设成立时,:在原假设成立时,U U的分布已知;含有要检验的参数;各个参数的分布已知;含有要检验的参数;各个参数应该都是已知的、可求的。应该都是已知的、可求的。n nStep3Step3:构造小概率事件:构造小概率事件:n nStep4Step4:判断小概率事件是否发生:判断小概率事件是否发生:n nStep5Step5:下结论:若小概率事件发生,拒绝原:下结论:若小概率事件发生,拒绝原假设假设H0H0;选择备择假设;选择备择假设H1H1。否则,原假设成。否则,原假设成立。立。第54页/共61页假设检验的具体操作步假设检验的具体操作步骤骤(以正态总体、已知方差,检验均值(以正态总体、已知方差,检验均值(以正态总体、已知方差,检验均值(以正态总体、已知方差,检验均值u u为例)为例)为例)为例)n n1、提出零假设 H0:=0 H1:0n n3、确定显著水平,如=0.05,查表得相应的临界值/2n n4、判断和下结论:若|U|/2 ,拒绝H0;若|U|/2,接受H0;(判断区域图示)n n5、依据结论,作出经济学上的解释。第55页/共61页7.4 假设检验的应用假设检验的应用正态总体均值正态总体均值u的假设的假设检验检验 设总体N(,2),0是已知数。对于其参数的假设检验,讨论2种情况:1.已知方差2,H0:=0,H1:0 2.未知方差2,H0:=0,H1:0第56页/共61页课本:第二章第三节(课本:第二章第三节(P30)n n回归系数的区间估计;n n随机扰动项方差的区间估计;n n回归系数的假设检验(t检验)。n n原假设、意义。原假设、意义。n n随机扰动项方差的假设检验第57页/共61页临界值点临界值点:(1)标准正态分布、)标准正态分布、t分布临界值点(双侧)分布临界值点(双侧)/2/21-类似:返回第58页/共61页临界值点:临界值点:(2)卡方分布(双侧)卡方分布(双侧)、F分布分布(单侧)临界值点(单侧)临界值点x概率密度1-/2/21-x返回第59页/共61页判断区域图示如下判断区域图示如下x f(x)不拒绝H0区域拒绝域拒绝域返回第60页/共61页