复习概率统计知识.ppt
计量经济学的统计学基础复习数理统计学第一节 总体、样本和随机变量总体、样本与随机变量u总体和个体u样本和样本容量u随机变量总体(集合)和个体(构成集合的元素)u研究对象的全体称为总体或母体,组成总体的每个基本单位称为个体。注意:u总体中个体的数目称为总体容量,用N或T表示。N可以是有限数也可无限,分别称为有限总体和无限总体。样本和样本容量u总体中抽出若干个个体组成的集体称为样本。样本中包含的个体的个数称为样本的容量,又称为样本的大小。u根据样本信息来推测总体的情况,并给出这个推测的可靠程度,称为推断统计。推断统计要求抽样是按随机原则选取的,即总体中每个个体有同样的机会被选入样本。u重复抽样和不重复抽样。随机变量u按一定的概率取不同数值的变量称为随机变量(Random Variable)。u注意:u(1)一个随机变量具有下列特性:RV可以取许多不同的数值,取这些数值的概率为p,p满足:0=p=1。u(2)随机变量以一定的概率取到各种可能值,按其取值情况随机变量可分为两类:离散型随机变量和连续型随机变量。离散型随机变量的取值最多可列多个;连续型随机变量的取值充满整个数轴或者某个区间。u(3)本书中,随机变量用x、y、等符号表示离散型随机变量与连续型随机变量 10 20 30 40 501.0概率概率xx1.0离散型随机变量连续型随机变量总体、随机变量、样本间的联系u总体就是一个随机变量,所谓样本就是n个(样本容量n)相互独立且与总体有相同分布的随机变量x1,xn。u每一次具体抽样所得的数据,就是n元随机变量的一个观察值,记为(X1,Xn)。u通过总体的分布可以把总体和样本连接起来。总体分布是总体和样本的连接点u所谓分布,它是从全局而言的。通俗地说,分布就是某个对象在什么地方,堆积了多少。u任何一个随机变量都有自己的分布,这个什么地方就是在数轴上取什么值,堆积多少就是在那里占有的比例是多少或者概率有多大。u总体可以表示为随机变量,并具有自身的分布。u样本则是相互独立与总体具有相同分布的n元随机变量。因此,总体分布是总体和样本的连接点。从而,可以通过对样本特征的研究达到对总体进行研究的目的。因为它们具有相同的分布。u须知,如果对于一个随机变量完全掌握了它的分布规律,就完全明白无误了。样本与总体之间的关系样本是总体的一部分,是对总体随机抽样后得到的集合。对观察者而言,总体是不了解的,了解的只是样本的具体情况。我们所要做的就是通过对这些具体样本的情况的研究,来推知整个总体的情况。Xn+1XnX1样本总体第二节随机变量的分布(一)离散型随机变量的分布u定义:如果随机变量只取有限个或可列多个可能值,而且以确定的概率取这些值,则称为离散型随机变量。u通常用分布列表示离散型随机变量:u的概率分布也可用一系列等式表示:uP(=xi)=pi (i=1,2,)称为的概率函数。注意这里xi只出现一次。u显然满足概率的定义:u离散型随机变量的分布就是指它的分布列或概率函数。离散型随机变量举例1u例1 一批产品的废品率为5%,从中任取一个进行检验,以随机变量来描述这一试验并写出的分布。u以X=0表示“产品为合格产品”,X=1表示“产品为废品”,那么分布列如下:u其概率函数p(X=0)=0.95,p(X=1)=0.05,离散型随机变量举例2u用随机变量X描述掷一颗骰子的试验。u分布的概率函数为:uP(X=i)=1/6(i=1,2,3,4,5,6)(二)随机变量的分布函数u定义:若X是一个随机变量(可以是离散的,也可以是非离散的),对任何实数x,令F(x)=P(X=x),称F(x)为随机变量X的分布函数。uF(x),即事件“X=x”的概率,是一个实函数。u对任意实数x1x2,有uP(x1Xx2)=P(X=x2)-P(X=x1)=F(x2)-F(x1)u由此可知,若已知X的分布函数,就知道X在任何区间上取值的概率。所以,分布函数完整的描述了随机变量的变化情况。分布函数F(x)的性质(三)连续型随机变量的分布u定义:对于任何实数x,如果随机变量X的分布函数uF(x)可以写成u概率分布密度函数的性质:(四)分布函数、概率函数、密度函数三者的关系u分布函数既适用于离散型也适用于连续型,是描述各种类型随机变量最一般的共同形式。但是,它不够直观。u概率函数对于离散型的描述很直观。u概率密度函数的大小能够反映X在x附近取值的概率的大小,从而比分布函数更直观。u所以,在实际应用中我们分别用概率函数和密度函数对离散型和连续型随机变量进行描述。(五)多元随机变量un元随机变量的定义:每次试验同时处理n个随机变量(X1,X2,Xn),它们的取值随试验的进行而变化。如果对任何一组实数(x1,x2,xn),事件“X1x1,X2x2,Xnxn”有着确定的概率,则称n个随机变量(X1,X2,Xn)总体为一个n元随机变量。un元随机变量分布函数的定义:n元函数uF(x1,x2,xn)=P(X1x1,X2x2,Xnxn)u(x1,x2,xn)属Rn,为n元随机变量分布函数。u离散二元随机变量的定义:如果二元随机变量(X,Y)所有可能取值为有限或可列多个,并且以确定的概率取各个不同数值,则称(X,Y)为二元随机变量。(X,Y)的联合分布表和联合分布函数u(X,Y)为离散型的二元随机变量,通常用联合分布函数与联合分布表表示。连续二元随机变量的定义第三节 对总体的描述随机变量的数字特征u一、数学期望u二、方差一、数学期望u两个最重要的数字特征u(1)数学期望u(2)方差u求出总体的分布往往不是一件容易的事情;而且,在很多情况下,我们并不需要全面考察随机变量的变化情况,只需要了解总体的一些综合指标。一般说来,常常需要了解总体的一般水平和它的离散程度。期望是随机变量的平均值,它度量了集中趋势;方差是随机变量偏离期望的离散程度的度量。数学期望的定义u离散型随机变量数学期望的定义:u假定有一个离散型随机变量X有n个不同的可能取值x1,x2,xn,而p1,p2,pn是X取这些值相应的概率,则这个随机变量X的数学期望定义如下:u数学期望描述的是随机变量(总体)的一般水平。u连续型随机变量数学期望的定义女儿期待父亲钓多少鱼回家?女儿期待父亲钓多少鱼回家?u数学期望是最容易发生的,因而是可以期待的。它反映数据集中的趋势。数学期望的性质u(1)如果a、b为常数,则u E(aX+b)=aE(X)+bu(2)如果X、Y为两个随机变量,则u E(X+Y)=E(X)+E(Y)u(3)如果g(x)和f(x)分别为X的两个函数,则 u Eg(X)+f(X)=Eg(X)+Ef(X)u(4)如果X、Y是两个独立的随机变量,则u E(X.Y)=E(X).E(Y)二、方差u表示总体的离散程度,记为Var(.),或u方差的算术平方根叫标准差。u方差的性质u(1)若c为常数,则Var(c)=0u(2)a,b为常数,x,y为两个相互独立的随机变量,则(ax+by)=a2Var(x)+b2Var(y)方差的意义u(1)方差是用来描述离散程度的,即描述X对于它的期望的偏离程度,这种偏差越大,表明变量的取值越分散。u(2)一般情况下,我们采用方差来描述离散程度。事实上正偏差大亦或负偏差大,同样是离散程度大。方差中由于有平方,从而消除了正负号的影响,并易于加总,也易于强调大的偏离程度的突出作用。第四节 对样本的描述样本分布的数字特征u样本分布的数字特征 称为统计量,是一个随机变量,常用的统计量有下面几个:u一、样本平均数u二、样本方差一、样本平均数u总体的数字特征是一个固定不变的数,称为参数;样本的数字特征是随抽样而变化的数,是一个随机变量,称为统计量。u样本平均数的定义u样本平均数用来描述样本的平均水平(一般Common)水平。二、样本方差和标准差u 样本方差和标准差的定义第五节 几个重要的连续型随机变量的分布u如果一个随机变量的分布已经确定,那么这个随机变量的一切性质对于我们便都是已知的。因为随机变量的分布是对随机变量最完整的描述。u例如X是广西十万大山中树木的高度,它的分布函数为F(x)=P(X=x)。此时,你对任意给定的高度x,都确知不超过这个高度的树木在整个十万大山中所占的比例,你还会说整个十万大山树木高度的情况不清楚吗?u再如,已知X服从数学期望和方差已知的正态分布,那么你便了解这个X自身的一切性质。可以通过查正态分布表确定研究中所需的一切数据。u分布的数学形式和图形属“技术问题”,精力应集中于X究竟属于何种分布上。1.正态分布u正态分布的定义u定理 正态分布的数学期望和方差u 标准正态分布概率密度x标准正态分布0正态分布在统计中具有重要的理论和实践意义:现实中的许多随机现象都服从或近似服从正态分布;随着样本容量的增大,很多统计量近似于正态分布;许多离散型随机变量可用正态分布来近似。正态分布的重要性质2.2 分布u 2 分布的定义X2=x12+x22+xn2为服从n个自由度的 2 分布,记为:2(n)。其中自由度是指一个表达式中可以自由取值的变量个数,在这里,自由度是平方中独立变量的个数。如果这些变量存在约束,自由度将降低。2 分布具有如下性质:(1)只取正值,并且是偏斜分布(参看教材图2),自由度越小越右偏,随着自由度增大,分布逐渐对称,接近正态分布。(2)具有期望为n、方差为2n的特殊性质。N=7N=11概率xN为自由度 2 分布的图象3.t分布ut分布的定义:t分布又称学生t分布。它与正态分布密切相关。可以从一个标准正态分布和一个 2 分布得到。u设Z服从标准正态分布,X服从自由度为n的 2 分布,并且两者相互独立,于是随机变量 为服从自由度为n的t分布,记为t(n).t分布的密度函数曲线的形状与标准正态分布相似.t分布和正态分布概率密度x标准正态分布t-分布04.F分布uF分布的定义:u若随机变量X12X2(n1),X22X2(n2),且X12与X22相互独立,则称为服从第一个自由度为n1,第二个自由度为n2的F分布,记为FF(n1,n2).F分布的密度函数曲线位于第一象限.如下图F分布的图象x概率密度一些重要结论一些重要结论u相互独立两个总体样本方差与总体方差间联系的定理。第六节 通过样本,估计总体(一)估计量的特征u对总体的数量特征可以提出若干估计量。所谓估计量的特性指的是衡量一个统计量用以估计总体参数的好坏标准。我们构造一个统计量时,它们就应当具有这些优良性,否则就不采用他来估计总体参数。估计量的优良性可从四个方面进行衡量:u一、无偏性u二、有效性u三、均方误最小性u四、一致性一、无偏性u无偏性的直观意义:u根据样本推得的估计值和真值可能不同,然而如果有一系列抽样依据同一估计方法就可以得到一系列估计值,很自然会要求这些估计的期望值与未知参数的真值相等。这就是无偏性的概念,无偏性的直观意义是:样本估计量的数值在真值周围摆动,即无系统误差。定义 无偏性的定义的真值的真值有偏无偏u无偏性是估计量最重要的优良性;u无偏性是对估计量最重要的要求之一,它只能保证估计量的期望等于真值。而且,对于总体某个待定参数,其无偏估计量不只一个。二、有效性u总体某个参数的无偏估计量往往不只一个,而且无偏性仅仅表明的所有可能的取值按概率平均等于,它的可能取值可能大部分与相差很大。为保证的取值能集中于附近,必须要求的方差越小越好。所以,提出有效性标准。有效性的定义的真值的真值的概率的概率无偏有效估计量的意义u(1)一个无偏有效估计量的取值在可能范围内最密集于附近。换言之,它以最大的概率保证估计量的取值在真值附近摆动。u(2)可以证明,样本均值是总体数学期望的有效估计量。三、一致性u一致性既是从概率又是从极限性质来定义的,因此只有样本容量较大时才起作用。u一致性作为评价估计量好坏的一个标准,计量经济学家在无偏性和一致性之间更偏重选择一致性。u虽然一个一致估计量可能在平均意义上与真值不同,但是当样本容量加大时,它会变得与真值十分接近,即有偏的一致估计量具有大样本下的无偏性。同时,根据大数定律,当n增大时,方差会变得很小,所以一致估计量具有大样本下的“无偏性”和“有效性”。N小N大N极大小的概率