第二章概率统计基础优秀课件.ppt
第二章概率统计基础第1页,本讲稿共74页提要n介绍计量经济分析的概率统计基础知识n包括随机性和概率、随机变量和概率分布、参数估计和假设检验n在相同的概率统计知识平台上学习计量n对于学习和理解计量经济分析方法有启发n有较好概率统计基础的读者阅也会有所收获。第2页,本讲稿共74页随机现象 事件 事件概率n随机现象:随机现象:事前不可预言的现象,即在相同条件下重复对一个事前不可预言的现象,即在相同条件下重复对一个现象进行观察,每次观察的结果具有多种可能性,而且现象进行观察,每次观察的结果具有多种可能性,而且在每次观察之前都无法预言会出现哪一个结果,这种现在每次观察之前都无法预言会出现哪一个结果,这种现象称为随机现象。象称为随机现象。n事件:对现象观察(试验)的结果。事件:对现象观察(试验)的结果。n对某种自然现象作一次观察称为一个试验。对某种自然现象作一次观察称为一个试验。第3页,本讲稿共74页n事件在一次观察(试验)中是否发生是不确定的,但在大量重复观察(试验)中,它的发生具有统计规律性。n当试验的次数很大时,事件A发生的频率具有一定的稳定性,当事件A发生的频率稳定地在某一常数p附近摆动,则称常数p为事件A的概率。第4页,本讲稿共74页概率的频率定义概率的频率定义概率定义:第5页,本讲稿共74页条件概率和统计独立性条件概率和统计独立性 条件概率条件概率 n已知事件B发生的条件下,事件A发生的概率,称为A以B为条件的“条件概率”。第6页,本讲稿共74页 事件独立性事件独立性n若果事件A发生的可能性不受事件B发生与否的影响 则称它们是“统计独立的”。第7页,本讲稿共74页随机变量和概率分布随机变量和概率分布n在概率统计和计量经济分析中,人们更关心的是有随机性的经济指标水平,都是数量化的随机事件。n例如某时刻的股票价格,某天某银行吸收的存款数量,某商场某月的销售额,某商品的市场价格水平等。第8页,本讲稿共74页n随机事件都可以采取数量标识,扔骰子的点数、某地区的降雨量。n对随机现象观察的结果有多种可能性(多个事件),每一个可能结果(每一事件),都对应一个实数,这个实数随观察的结果而改变,观察的结果是一个变量,称之为随机变量。第9页,本讲稿共74页例如:(1)射击击中目标记为射击击中目标记为1分,未中目标记分,未中目标记0分。用分。用表示表示射击的得分,它是随机变量,可取射击的得分,它是随机变量,可取0 0和和1 1两个值。两个值。(2)抛一枚硬币抛一枚硬币,表示正面出现的次数,它是随机变表示正面出现的次数,它是随机变量,可取量,可取0 0和和1 1两个值。两个值。(3)某段时间内候车室旅客数目记为某段时间内候车室旅客数目记为,它可取它可取0及一切及一切不大于最大容量不大于最大容量M的自然数。的自然数。(4)一块土地上农作物的产量一块土地上农作物的产量是随机变量,它可以取区是随机变量,它可以取区间间0,T的一切值。的一切值。第10页,本讲稿共74页随机变量按取值情况分为两类:随机变量按取值情况分为两类:(1)离散型随机变量离散型随机变量只可能取有限个或无限可列个值。只可能取有限个或无限可列个值。(2)非离散型随机变量非离散型随机变量可以在整个数轴上取值,或至少有一部分值取某实可以在整个数轴上取值,或至少有一部分值取某实数区间的全部值。数区间的全部值。非离散型随机变量中最常用的是连续型随机变量。非离散型随机变量中最常用的是连续型随机变量。即取值于一个连续区间全部数值的随机变量。即取值于一个连续区间全部数值的随机变量。第11页,本讲稿共74页(二)概率分布(二)概率分布n随机变量重要的是它们取特定值的可能性,称为随机变量的“概率分布”(Probability distribution)(概率函数)。n离散型随机变量只能取有限或可数个值,概率分布可以用罗列、表格、图形表示等。n连续要用分布函数。第12页,本讲稿共74页 1 2 3 4 5 6 P 1/6 1/6 1/6 1/6 1/6 1/6n 连续型随机变量要用分布函数和概率密度函数第13页,本讲稿共74页(三)分布函数(三)分布函数n连续型随机变量可能的取值无穷多,每个取值(每个事件)的概率无穷小,无法用罗列概率方法表达研究。n只能用反映随机变量的取值在某个特定范围内的概率“分布函数”来描述。n分布函数随机变量取值不大于给定水平的概率构成的函数:第14页,本讲稿共74页分布函数反应的是随机变量取值落在 (-,x)这个区间的概率大小。已知随机变量的分布函数就知道了随机变量在任何区间上取值的概率,分布函数完整地描述了随机变量的情况,掌握分布函数就等于掌握了随机变量的随机性规律。第15页,本讲稿共74页(四)密度函数(四)密度函数n连续型随机变量概率分布另一个概念,“密度函数”(Density function)或称“概率密度函数”。n密度函数密度与分布函数关系第16页,本讲稿共74页 1.定义定义(p33)对于随机变量对于随机变量X,若存在非负函数若存在非负函数f(x),(-x+),使对任意实数使对任意实数x,都有都有则称则称X为连续型随机变量,为连续型随机变量,f(x)为为X的的概率密概率密度函数度函数,简称概率密度或密度函数,简称概率密度或密度函数.常记为常记为X f(x),(-x+)第17页,本讲稿共74页密度函数的密度函数的几何意义几何意义为为第18页,本讲稿共74页三、三、随机变量的数字特征随机变量的数字特征(一)期望(一)期望(二)方差(二)方差(三)期望和方差的性质(三)期望和方差的性质(四)协方差和相关系数(四)协方差和相关系数 第19页,本讲稿共74页(一)数学期望的定义(一)数学期望的定义例例1 设某班设某班40名学生的概率统计成绩及得分人数名学生的概率统计成绩及得分人数如下表所示:如下表所示:分数分数 40 60 70 80 90 100 人数人数 1 6 9 15 7 2则学生的平均成绩是总分则学生的平均成绩是总分总人数。即总人数。即数学期望数学期望描述随机变量取值的平均特征(集中趋势)描述随机变量取值的平均特征(集中趋势)第20页,本讲稿共74页为X的数学期望,简称期望或均值。第21页,本讲稿共74页例:掷一颗均匀的骰子,以例:掷一颗均匀的骰子,以X表示掷得的点数,求表示掷得的点数,求X的数学的数学期望。期望。定义定义 3 若若Xf(x),-x0,DY0,则称为X与Y的相关系数相关系数.3.相关系数的性质相关系数的性质 (1)|XY|1;(2)|XY|=1存在常数a,b 使PY=aX+b=1;(3)X与Y不相关 XY=0;第26页,本讲稿共74页四、四、常见分布常见分布(一)正态分布(一)正态分布(二)(二)分布分布(三)(三)t分布分布(四)(四)F分布分布 第27页,本讲稿共74页 正态分布是实践中应用最为广泛,在理论上正态分布是实践中应用最为广泛,在理论上 研究最多的分布之一,故它在概率统计中占有特研究最多的分布之一,故它在概率统计中占有特 别重要的地位。别重要的地位。A,B间真实距离为间真实距离为,测量值为,测量值为X。X的概率密度应该是什么形态?AB(一)正态分布第28页,本讲稿共74页其中其中 为实数,为实数,0,则称,则称X服从参数为服从参数为 ,2的的正态分布正态分布,记为记为N(,2),可表为可表为XN(,2).若随机变量随机变量第29页,本讲稿共74页(1)单峰对称单峰对称 密度曲线关于直线密度曲线关于直线x=对称对称;f()maxf(x).正态分布有两个特性正态分布有两个特性:第30页,本讲稿共74页(2)的大小直接影响概率的分布的大小直接影响概率的分布 越大,曲线越平坦越大,曲线越平坦,越小,曲线越陡峻越小,曲线越陡峻,。,。正态分布也称为高斯正态分布也称为高斯(Gauss)分布分布第31页,本讲稿共74页4.标准正态分布标准正态分布 参数参数 0,21的正态分布称为的正态分布称为标准正态分布,记标准正态分布,记作作XN(0,1)。第32页,本讲稿共74页分布函数表示为分布函数表示为其其密度函数密度函数表示为表示为第33页,本讲稿共74页一般的概率统计教科书均附有标准正态分布表供读一般的概率统计教科书均附有标准正态分布表供读者查阅者查阅(x)的值。如,若的值。如,若ZN(0,1),(0.5)=0.6915,P1.32Z2.43=(2.43)-(1.32)=0.9925-0.9066注注:(1)(x)1(x);(2)若XN(,2),则第34页,本讲稿共74页例:例:一种电子元件的使用寿命(小时)服从正态分布一种电子元件的使用寿命(小时)服从正态分布(100,15(100,152 2),),某仪器上装有某仪器上装有3 3个这种元件,三个元件损坏与个这种元件,三个元件损坏与否是相互独立的否是相互独立的.求:使用的最初求:使用的最初9090小时内无一元件损坏小时内无一元件损坏的概率的概率.解:设设Y为为使用的最初使用的最初9090小时内损坏的元件数小时内损坏的元件数,故则YB(3,p)其中第35页,本讲稿共74页判断正态分布n根据密度函数的形态进行判断:用频数直方图的上方边缘作为密度函数的近似,判断随机变量是否服从正态分布。n根据偏度、峰度特征检验:利用观测样本计算三阶矩和四阶矩的近似值(与后面讲的抽样分布有关),偏度和峰度近似值,如果接近0和3,则认为随机变量服从正态分布,也称“通过了正态性检验”。第36页,本讲稿共74页第三节第三节 参数估计和假设检验参数估计和假设检验 n随机变量取值往往无穷多,不可能通过全面调查了解总体分布,只能根据从总体抽取的部分样本推断总体情况。这称为“统计推断”,包括参数估计和假设检验等。n计量经济分析的观测数据相当于随机变量总体抽取的样本,计量经济的回归分析就是根据样本推断总体情况,因此计量经济分析与统计推断有非常密切的联系。第37页,本讲稿共74页一、总体与样本一、总体与样本 1.1.总体总体:研究对象的全体。通常指研究对象的某项数量指标。组成总体的元素称为个体。个体。从本质上讲,总体就是所研究的随机变量或随机从本质上讲,总体就是所研究的随机变量或随机变量的分布。变量的分布。第38页,本讲稿共74页2.样本:样本:来自总体的部分个体X X1 1,X Xn n 如果满足:如果满足:(1)同分布性:同分布性:Xi,i=1,n与总体同分布.(2)独立性:独立性:X1,Xn 相互独立;则称为容量为容量为n n 的简单随机样本,的简单随机样本,简称样本样本。而称X1,Xn 的一次取值为样本观察值,记为x1,xn 第39页,本讲稿共74页3.总体、样本、样本观察值的关系总体、样本、样本观察值的关系总体总体 样本样本 样本观察值样本观察值 理论分布理论分布 统计是从手中已有的资料统计是从手中已有的资料样本观察值,去推断总体的情样本观察值,去推断总体的情况况总体分布。样本是联系两者的桥梁。总体分布决定了总体分布。样本是联系两者的桥梁。总体分布决定了样本取值的概率规律,也就是样本取到样本观察值的规律,样本取值的概率规律,也就是样本取到样本观察值的规律,因而可以用样本观察值去推断总体因而可以用样本观察值去推断总体第40页,本讲稿共74页二、统计量二、统计量定义:称样本X1,Xn 的函数g(X1,Xn)是总体X的一个统计量统计量,如果如果g(X1,Xn)不含不含 未知未知 参数参数几个常用的统计量:第41页,本讲稿共74页三、三、抽样分布抽样分布 统计量的分布称为抽样分布。数理统计中常用到如下三个分布:2 2分布、t t 分布 F F分布。第42页,本讲稿共74页(一)(一)2分布分布第43页,本讲稿共74页2.2分布的分布的密度函数曲线密度函数曲线a.分布可加性分布可加性 若X 2(n1),Y 2(n2),X,Y独立,则 X+Y 2(n1+n2)b.期望与方差期望与方差 若X 2(n),则E(X)=n,D(X)=2n第44页,本讲稿共74页1.构造构造 若 N(0,1),2(n),与 独立,则t(n)称为自由度为n的t分布。(二)(二)t分布分布第45页,本讲稿共74页t(n)(n)的概率密度为第46页,本讲稿共74页2.2.基本性质基本性质:(1)(1)f(t)f(t)关于t=0t=0(纵轴)对称。(2)(2)f(t)f(t)的极限为N(0N(0,1)1)的密度函数,即 3.3.分位点分位点设T Tt(n)t(n),若对:0:0 1,0(n)0,满足PTPT t t(n)=(n)=,则称t t(n)(n)为t(n)t(n)的上侧分位点第47页,本讲稿共74页注注:第48页,本讲稿共74页(三)(三)F分布分布1.构造构造 若 1 2(n1),2 2(n2),1,2独立,则 称为第一自由度为n1,第二自由度为n2的F分布,其概率密度为第49页,本讲稿共74页2.2.FF分布的分位点分布的分位点对于对于:00 10)0,满足满足PFPF F F(n(n1 1,n n2 2)=)=,则则称称F F(n(n1 1,n n2 2)为为F(nF(n1 1,n n2 2)的的上侧上侧 分位点;分位点;第50页,本讲稿共74页四、四、正态总体的抽样分布定理正态总体的抽样分布定理证明证明:是是n 个独立的正态随机个独立的正态随机变量的线性组合变量的线性组合,故服故服从正态分布从正态分布第51页,本讲稿共74页(3)证明证明:且且U与与V独立独立,根据根据t分布的构造分布的构造得证得证!第52页,本讲稿共74页五、参数估计的概念五、参数估计的概念 定义定义 设X1,Xn是总体X的一个样本,其分布函数为F(x;),。其中为未知参数,为参数空间,若统计量g(X1,Xn)可作为 的一个估计,则称其为的一个估计量,记为注:注:F(x;)也可用分布律或密度函数代替.第53页,本讲稿共74页若x1,xn是样本的一个观测值。由于g(x1,xn)是实数域上的一个点,现用它来估计,故称这种估计为点估计点估计。点估计的经典方法是矩估计法与极大似然估计法极大似然估计法。第54页,本讲稿共74页估计量的评选标准估计量的评选标准第55页,本讲稿共74页区间估计区间估计一、概念一、概念 定义:定义:设总体X的分布函数F(x;)含有未知参数,对于给定值(0 10620由pT t0.05(9)=0.05,得拒绝域为T t0.05(9)=1.8331这里接受H0第74页,本讲稿共74页