第一章绪论(四) 统计推断:估计与假设检验.ppt
《第一章绪论(四) 统计推断:估计与假设检验.ppt》由会员分享,可在线阅读,更多相关《第一章绪论(四) 统计推断:估计与假设检验.ppt(55页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、统计推断:估计与假设检验统计推断:估计与假设检验1、估计和假设检验:统计推断的两个孪生分支2、参数估计3、点估计量的性质4、假设检验统计推断的含义:l我们知道,总体是指我们所关注现象出现的可能结果的全体,样本是总体的一个子集。统计推断研究的是总体与来自总体的样本之间的关系。l一般地说,统计推断是根据来自总体的样本对总体(概率密度函数)的种种统计特征作出判断。1、估计和假设检验:统计推断的两个孪生分支l统计推断的主要步骤(举例说明):l首先,关注某一总体,如纽约股票交易市场的1758支(90年9月4日)股票,想要研究该总体某一方面的统计特征,比如说股票价格与收入比(P/E)的平均值。在总体中抽取
2、随机样本,如50支股票,求样本中每一支股票的P/E值,然后再计算平均P/E值,即 ,就称为总体平均P/E的估计量(也即E(X)的估计量,E(X)为总体的一个参数)。从而完成统计推断的第一步:参数估计。l其次,判断估计值的“优度”,主要因为估计值很可能不等于真实的参数值。l如果有两个或更多个随机样本,计算这些样本的均值,则得到的估计值很可能不相同。我们把不同样本估计值的差异称为抽样误差,从而引入一些判定估计量优劣的常用标准。l再次,进行假设检验。假设检验是统计推断的另一个重要方面。在假设检验中,可以对某参数的假定值进行先验判断或预期。如以往的经验或专家意见支出1758值股票总体的平均P/E值为1
3、2,若随机样本计算出的值为11,则根据假设检验的内容接受假设或者拒绝假设。2、参数估计l点估计:假定随机变量X(P/E)服从某一未知均值和方差的正态分布。并且有来自该正态总体的一个随机样本(50个P/E值),见下表。l如何根据这些样本数据计算总体的均值和方差呢?先假设只关注总体均值x=E(X)。l根据表中数据,50个P/E的样本均值为11.4,显然我们可以选择11.4作为x的估计值,称这个单一数值为x的点估计值,称 计算公式为x的点估计量 67891011121314151618P/E频数225657543461均值=11.5样本方差=9.2755样本标准差=3.0456中位数=众位数=11总
4、计:50假设的样本(50值股票的P/E值)注意:点估计是一个随机变量,因为其值随样本的不同而不同,那么,某一特殊的估计值的可信度有多大呢?为了更好地估计总体特征,引入区间估计。区间估计:区间估计的主要思想源于估计量抽样分布(概率分布)的概念。我们知道,如果随机变量XN(x,x),则,或若x未知,可用其估计量S来替代,则有:服从自由度为(n-1)的t分布。在上里中,由50个样本观察值,故自由度为49。查t分布表得到:P(-2.0096t2.0096)=0.95即区间-2.0096,2.0096包括t的概率为95%。将t变量公式带入,经整理得:10.63 x 12.36,即为x的95%的置信区间。
5、自由度为49的t分布2.5%95%2.5%02.0096-2.0096由计算式 P(-2.0096t2.0096)=0.95可得出:整理得:在统计学中,上述公式称为未知的总体均值x的一个95%的置信区间。0.95称为置信系数。表示随机区间包括真实x的概率为0.95。区间下限区间上限需要特别强调一点:上式给出的区间是随机的区间,它依赖于样本值的变化而变化,尽管总体均值x是未知的,但它是固定值,而非随机量。由此,我们不能说x位于上述区间的概率为0.95,只能说该区间包括真实的x的概率为0.95。归纳区间估计概念假定随机变量X服从某一概率分布,若要对其参数(如x)进行估计。选取容量为n的随机样本,X
6、1,X2,Xn,并根据样本计算两个估计量L和U:P(L x U)=1-01即从L到U的随机区间包括真实x的概率为(1-)。L称为区间下限,U称为区间上限。该区间称为x的置信区间。(1-)称为置信系数,称为显著水平,或犯第一类错误的概率。3、点估计量的性质l在P/E一例中,用样本均值作为x的点估计量,满足了以下性质:l 线性l 无偏性l 有效性l 最优线性无偏估计量l 一致性3.1 线性l线性估计量:若估计量是样本观察值的线性函数,则称该估计量是线性估计量。l上式看出,样本均值是样本观察值Xs的线性函数,即Xs仅以一次幂的形式出现。3.2 无偏性l无偏估计量:如果重复使用某种方法,得到的估计量的
7、均值(如E())与真实参数值x一致,该估计量就是无偏估计量。即如果二者不相等,则称该估计量是有偏的估计量。例1:若XiN(x,),假定从该正态总体中随机抽取容量为n的样本。则样本均值 是真实x的无偏估计量。(参考样本均值的抽样分布或概率分布)。例2:若XiN(x,),假定从该正态总体中随机抽取容量为n的样本。Xmed表示样本中位数,可以证明E(Xmed)=x,即样本中位数也是真实均值的无偏估计量。3.3 有效性l有效估计量:若仅考虑唯一一个参数估计量,则方差最小的估计量是最好的或称为有效的估计量。l对比样本均值和样本中位数。l假定随机变量X的取值构成一随机样本,样本容量为n,并且每个XN(x,
8、),令 、Xmed分别表示样本均值和样本中位数。已知:l N(x,/n)l若样本容量足够大,可以证明,l XmedN(x,(/2)(/n)即对大样本而言,样本均值和样本中位数均服从均值为x 的正态分布,但样本中位数的方差是样本均值的方差的(/2)倍。根据有效性的性质,用样本均值 估计x比用样本中位数Xmed更准确,即样本均值提供了一个比样本中位数更为准确的总体均值的估计值。3.4 最优线性无偏估计量l最优线性无偏估计量:如果一个估计量是线性的和无偏的,并且在参数的所有线性无偏估计量中,这个估计量的方差最小,则称这个估计量是最优线性无偏估计量。l显然,该性质包括了线性、无偏性和最小方差性。3.5
9、 一致性l假定XN(x,),从该正态总体中抽取一容量为n的随机样本。现考虑x的两个估计量:第一个估计量是常用的样本均值,则 E()=x。可以证明,显然第二个估计量X*是一个有偏估计量。两个估计量的差别在于前者的分母是n而后者的分母是n+1。但是,假定我们增大样本容量,则随着样本容量的增大,第二个估计量X*的均值也将近似等于真实的x,在统计学中,我们成这样的估计量(如X*)为一致估计量。有时得不到无偏估计量,但却可以得到一个一致估计量。xn=100n=80n=50n=25概率密度f(X*)随着样本容量的增大,总体均值估计量X*的变化示意图统计推断:估计与假设检验统计推断:估计与假设检验1、估计和
10、假设检验:统计推断的两个孪生分支2、参数估计3、点估计量的性质4、假设检验4、假设检验l在股票的P/E一例中,上一节我们根据50个P/E值组成的随机样本,建立了x 的一个95%的置信区间。即在该区间内包括x 的概率为95%。l现在改变策略,不是建立一个置信区间,而是假设真实的x 取某一特定值,如x=13。然后去检验这个假设,检验结果是接受或拒绝该假设?下面以此为例说明。67891011121314151618P/E频数225657543461均值=11.5样本方差=9.2755样本标准差=3.0456中位数=众位数=11总计:50假设的样本(50支股票的P/E值)用假设的语言,将x=13称为零
11、假设,用符号H0表示。即,H0:x=13与零假设相对应的是备择假设,用符号H1表示,备择假设有以下几种形式:H1:x13 称为单边备择假设;H1:x13 称为单边备择假设;H1:x13 称为双边备择假设。为了检验零假设(和备择假设),根据样本数据及统计理论建立判定规则来判断样本信息是否支持零假设。若支持,不拒绝零假设,反之拒绝零假设,接受备择假设。建立判定规则有两种方法:置信区间法、显著性检验法。4.1 置信区间法l在上述例子中,我们知道样本均值服从均值为x,方差为/n的正态分布,由于真实的方差未知,以样本方差代替。在这种情况下,样本均值服从t分布,从而得到x 的一个95%的置信区间:l10.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第一章 绪论四 统计推断:估计与假设检验 绪论 统计 推断 估计 假设检验
限制150内