lec11正态分布样本分布.pptx
正态分布样本分布第十一讲大纲正态分布性质、计算与应用样本分布总体与样本参数、样本统计量与估计样本分布及其观察正态分布统计学中最常用、最重要的分布正态分布发现的历史对正态分布的认识始于对测量误差的研究,因此最初被称为“lawoferrors”几个重要人物AbrahamDeMoivre1667-17541733年私下里出版了一本小册子,Doctrine of Chance。他第一次提到,独立的离散随机变量可以近似地用一个指数函数来描述MarquisdeLaplace1749-1827长期对测量误差的性态进行研究,他证明了,几乎所有独立同分布的随机变量都会随着样本的增加迅速收敛于一个指数分布,即正态分布CarlFriedrichGauss1777-1855正态分布也被称为“高斯分布”。高斯在1809年第一个建立了两参数的指数函数,来描述天文观测中的误差分布1924年,英国统计学家KarlPearson偶然发现,DeMoivre在1733年就已经写出了正态分布的概率密度的数学表达式形状特点钟型,对称正态分布的曲线是钟形,故有时又称为“钟形曲线”,它反映了这样一种极普通的情况:天下形形色色的事物中,“两头小,中间大”的居多,如人的身高,太高太矮的都不多,而居于中间者占多数均值=中位数=众数随机变量值域无限正态分布与颐和园玉带桥它们的形状极其相像05级经济学系刘振楠提供的拟合结果蓝色的曲线为一条正态分布曲线正态分布的重要性正态分布在数理统计学中占有极重要的地位描述许多随机的活动和连续现象统计推断基础现今仍在常用的许多统计方法,就是建立在“所研究的量具有或近似地具有正态分布”这个假定的基础上,而经验和理论(概率论中“中心极限定理”)都表明这个假定的现实性现实世界许多现象看来是杂乱无章的,如不同的人有不同的身高、体重。大批生产的产品,其质量指标各有差异。看来毫无规则,但它们在总体上服从正态分布。这一点,显示在纷乱中有一种秩序存在正态分布概率密度函数与概率密度函数p=3.14159;e=2.71828=总体的标准差 =总体均值x 的定义域为(,+)正态分布的概率:正态分布概率密度曲线概率密度曲线的性质图形以直线x=为对称轴呈钟形对称曲线,并且f(x)在x=处达到最大值在x=处有拐点当x 时,曲线以x轴为渐进线参数和 变化对分布图形的影响如果 固定,改变 的值,则f(x)的图形沿着x轴平行移动,但不改变形状如果固定,大时,曲线平缓,小时,曲线陡峭f(x)图形的形状完全由决定,而位置完全由决定正态分布的标准化一般正态分布:XN(,2)记它的密度函数和分布函数为f(x)和F(x)正态分布:ZN(1,0)记它的密度函数和分布函数为f(x)和F(x)一般正态分布与标准正态分布的关系:示例证明对于XN(,2),有令 ,则有即运用Excel计算正态分布的概率正态分布函数NORMDIST用于计算给定均值和标准差的正态分布的累积函数语法结构为:NORMDIST(x,mean,standard_dev,cumulative)cumulative为是否返回累积分布函数标准正态分布函数NORMSDIST用于计算标准正态分布的累积函数,该分布的均值为0,标准差为1语法结构为:NORMSDIST(z):。其中:z为需要计算其分布的数值。续正态分布函数的反函数:NORMINV根据已知概率等参数确定正态分布随机变量值。其语法结构为:NORMINV(probability,mean,standard_dev)标准正态分布函数的反函数NORMSINV根据概率确定标准正态分布随机变量的取值。其语法结构为:NORMSINV(probability)练习设ZN(1,0),求Pr(Z-0.09)Pr(|Z|1.96)Pr(2.15 Z 6.7)设XN(1,4),求 P(0 X 1.6)已知XN(2,2),且 P(2 X 4)=0.3,求 P(X 0)自学查正态分布表例:已知分布求概率一种自动包装机向袋中装糖果,标准是每袋64g。但因随机误差,每袋的具体重量有波动,根据以往的资料显示,一袋糖果的重量服从均值为64g,标准差为1.5g的正态分布。问随机抽出一袋糖果,其重量超过65g的概率为多少?重量不足62g的概率为多少?例:已知概率求x值某企业对生产中某关键工序调查后发现,工人们完成该工序的时间(以分钟计)近似服从正态分布N(20,32)。问:从该工序生产工人中任选一人,其完成该工序时间少于17分钟的概率是多少?要求以95%的概率保证该工序生产时间不多于25分钟,这一要求能否满足?为鼓励先进,拟奖励该工序生产时间用得最少的10%的工人,奖励标准应定在什么时间范围内?例假设某种汽车电池的寿命服从正态分布,平均数为800天,标准差为100天。现随机抽取一个汽车电池,其寿命小于500天的概率有多大?大于1000天的概率有多大?介于700天至900天的概率有多大?如果该公司想制定一个保质期,在保质期内可以免费更换电池,公司最多可以承担1%的免费更换,保质期应该定在多长?样本分布总体与样本参数、样本统计量与估计样本分布及其观察什么是总体描述统计中的总体定义被观察对象的全体,我们所感兴趣的全体总体分布表征总体的分组变量的次数分布,与总体均值、方差联系在一起例:某班学生按性别分组按性别分组人数(频数)人数比重(频率)%男生3060女生2040合计50100用随机变量表示总体现在我们从班上任意抽取一名学生,令随机变量X表示该名学生的性别,有随机变量X的概率分布于是为:发现:随机变量X的概率分布与它所对应的总体的次数分布完全一致X12pi0.60.4概率分布与总体分布我们可以用一个随机变量来表示一个总体,这个随机变量的概率分布就是该总体分布总体分布表征总体的随机变量X的概率分布分布频率概率均值期望方差方差样本从总体中按照随机原则抽出的个体组成的小群体设X1,X2,Xn是一组相互独立与X具有相同分布的随机变量,称(X1,X2,Xn)为来自总体X的简单随机样本,简称样本,n为样本容量X1,X2,Xn为样本单位或样本点样本观察值或观察结果(x1,x2,xn)称为样本值总体与样本我们可以用一个随机变量X来描述一个总体因为它们具有相同的概率分布以及相同的数字特征,如期望和方差我们可以用一组相互独立与总体X具有相同分布的随机变量(X1,X2,Xn)来描述一个样本按照随机原则从总体X中抽取的每一个样本点一定与总体X具有相同分布参数、样本统计量与估计参数:与总体有关的数字特征总体的均值 与方差总体原点距、中心距等样本统计量:根据样本值构造出的一些特定的量,是样本的函数样本的函数,用它对总体参数进行估计时,又称作估计量样本均值=,用来估计;样本方差=,用来估计2样本矩用于估计总体矩样本分布样本分布样本统计量的概率分布样本统计量是随样本不同而变化的量,是随机变量,有一定的概率分布。例:已知一个盒子里放了8个球,每个球的重量分别为1g,2g,8g。现从中简单随机(即放回重复抽取)抽取2个球,求样本平均重量的概率分布。两个球的平均重量第二个球的重量12345678第一个球的重量111.522.533.544.521.522.533.544.55322.533.544.555.542.533.544.555.56533.544.555.566.563.544.555.566.57744.555.566.577.584.555.566.577.58Xbar的概率分布11.522.533.544.5p1/64 2/64 3/64 4/64 5/64 6/64 7/64 8/6455.566.577.58p7/64 6/64 5/64 4/64 3/64 2/64 1/64总体与样本均值分布图n=2n=3样本均值分布的性质样本均值的期望等总体均值:因为来自总体的简单随机样本X1,X2,Xn相互独立,并与总体具有相同的分布,则所以有样本均值的方差等于总体方差除以样本容量 含义:样本容量越大,样本均值越稳定正态总体样本均值分布的性质如果总体服从正态分布XN(,2),则其样本均值Xbar,服从参数为(,2/n)的正态分布,即:并有样本均值性质的Excel模拟 模拟工具:随机数发生器从均值为3,标准差为5的正态总体中分别抽取样本容量为4,10,40的样本,每种样本容量的抽取各重复2000次观察不同样本容量下的样本均值的描述统计结果样本均值样本方差Xbar的描述统计结果样本容量n41040均值2.987733 3.038573标准误差 这里的n为2550.054672 0.035098中值3.019952 3.075469模式#N/A#N/A标准偏差S2.444986 1.569619方差5.977957 2.463705峰值0.215253-0.08111偏斜度0.005460.000619区域19.95369 10.13068最小值-6.21058-1.94074最大值13.74311 8.189938例股市中随机选取16支股票。假定该日股市波动幅度服从以均值为1.5,标准差为2的正态分布。试问所选取的16支股票的平均价格上涨的概率是多少?令为16支股票的平均波动幅度则=1-normdist(0,1.5%,0.5%,true)=99.87%,所选取的16支股票的平均价格上涨的概率是99.87%Stata模拟从l=3的指数分布总体中分别抽取样本容量为4,25,400的样本,每种样本容量的抽取各重复20000次progsimurndexp43/rnd用于生成各种分布中的随机数quisumxe/rndexp产生的随机数记作xeendsimulatesimum=r(mean),reps(20000)histm,normal分布图l=3的均匀分布总体n=4的样本均值分布n=25的样本均值分布n=100的样本均值分布作业15.125.13设由自动线加工的某种零件的内径 X(mm)N(,1)。已知销售每个零件的利润T(元)与销售零件的内径 X 有如下的关系:问平均直径 为何值时,销售一个零件的平均利润最大?作业2请你运用散点图工具分别作一下均值和标准差为(0,1)以及(-5,42)的正态分布的概率密度图以及概率分布图,并回答以下问题:在这两个分布中,X落在以均值为中心,一个标准差为半径的区间中的概率分别为多少?请写出你所输入的Excel函数形式。你从计算的结果中得到了什么启示?请你在这两个分布中,分别找到一个以均值为中心的对称区间,保证X落在该区间的概率为99%。请写出你所输入的Excel函数形式。你从计算出的这两个区间中发现了什么规律?