数学建模概率论学习教案.pptx
会计学1数学数学(shxu)建模概率论建模概率论第一页,共46页。设 x1,x2,xn 是来自总体 X 的一个样本,我们用一个统计量 的取值作为 的估计值,称为 的点估计(量),简称估计。在这里如何(rh)构造统计量 并没有明确的规定,只要它满足一定的合理性即可。这就涉及到两个问题:其一 是如何给出估计,即估计的方法问题;其二 是如何对不同的估计进行评价(pngji),即估 计的好坏判断标准。第2页/共46页第二页,共46页。6.1 6.1 点估计的几种点估计的几种点估计的几种点估计的几种(j zhn)(j zhn)方方方方法法法法 替换原理替换原理(yunl)(yunl)和矩法估计和矩法估计 一、矩法估计 替换(t hun)原理是指用样本矩及其函数去替换(t hun)相应的总体矩及其函数,譬如:用样本均值估计总体均值E(X),即 ;用样本方差估计总体方差Var(X),即用样本的 p 分位数估计总体的 p 分位数,用样本中位数估计总体中位数。第3页/共46页第三页,共46页。例 对某型号的20辆汽车记录其每加仑汽油的行驶里程(km),观测数据如下:29.8 27.6 28.3 27.9 30.1 28.7 29.9 28.0 27.9 28.7 28.4 27.2 29.5 28.5 28.0 30.0 29.1 29.8 29.6 26.9 经计算有 由此给出总体(zngt)均值、方差和中位数的估计分别为:28.695,0.9185 和 28.6。矩法估计的实质是用经验分布函数去替换总体(zngt)分布,其理论基础是格里纹科定理。第4页/共46页第四页,共46页。二、概率函数二、概率函数二、概率函数二、概率函数P(x,)P(x,)P(x,)P(x,)已知时未知参数已知时未知参数已知时未知参数已知时未知参数(cnsh)(cnsh)(cnsh)(cnsh)的矩的矩的矩的矩法估计法估计法估计法估计 设总体具有已知的概率函数设总体具有已知的概率函数 P(x,P(x,1,1,k)k),x1,x1,x2,xn x2,xn 是样本,假定总体的是样本,假定总体的k k阶原点矩阶原点矩 k k存在存在(cnzi)(cnzi),若,若 1,1,k k 能够表示成能够表示成 1,1,k k 的函数的函数 j=j=j(j(1,1,k)k),则可给出诸,则可给出诸 j j 的矩法的矩法估计为估计为 其中其中第5页/共46页第五页,共46页。例 设总体服从指数分布,由于EX=1/,即=1/EX,故 的矩法估计为 另外,由于Var(X)=1/2,其反函数为 因此,从替换原理来看,的矩法估计也可取为 s 为样本(yngbn)标准差。这说明矩估计可能是不唯一的,这是矩法估计的一个缺点,此时通常应该尽量采用低阶矩给出未知参数的估计。第6页/共46页第六页,共46页。例 x1,x2,xn是来自(a,b)上的均匀分布U(a,b)的样本(yngbn),a与b均是未知参数,这里k=2,由于 不难推出 由此即可得到a,b的矩估计:第7页/共46页第七页,共46页。极极极极(最最最最)大似然估计大似然估计大似然估计大似然估计(gj)(gj)(gj)(gj)定义(dngy)设总体的概率函数为P(x;),是参数 可能取值的参数空间,x1,x2,xn 是样本,将样本的联合概率函数看成 的函数,用L(;x1,x2,xn)表示,简记为L(),称为样本的似然函数。第8页/共46页第八页,共46页。如果某统计(tngj)量 满足 则称 是 的极(最)大似然估计,简记为MLE(Maximum Likelihood Estimate)。人们通常更习惯于由对数似然函数lnL()出发寻找 的极大似然估计。当L()是可微函数时,求导是求极大似然估计最常用的方法,对lnL()求导更加(gnji)简单些。第9页/共46页第九页,共46页。例 设一个试验有三种可能(knng)结果,其发生概率分别为 现做了n次试验,观测到三种结果发生的次数分别为 n1,n2 ,n3(n1+n2+n3=n),则似然函数为 其对数似然函数为第10页/共46页第十页,共46页。将之关于 求导,并令其为0得到(d do)似然方程解之,得由于所以 是极大值点。第11页/共46页第十一页,共46页。极大似然估计有一个简单而有用的性质:如果 是 的极大似然估计,则对任一函数 g(),其极大似然估计为 。该性质称为极大似然估计的不变性,从而使一些复杂(fz)结构的参数的极大似然估计的获得变得容易了。第12页/共46页第十二页,共46页。则称随机区间 为 的置信水平为1-的置信区间,或简称 是 的1-置信区间.和 分别称为 的(双侧)置信下限(xixin)和置信上限.这里置信水平1-的含义(hny)是指在大量使用该置信区间时,至少有100(1-)%的区间含有。第14页/共46页第十四页,共46页。例 设x1,x2,x10是来自N(,2)的样本,则 的置信水平为1-的置信区间为 其中(qzhng),,s 分别为样本均值和样本标准差。这个置信区间的由来将在节中说明,这里用它来说明置信区间的含义。若取=0.10,则t0.95(9)=1.8331,上式化为第15页/共46页第十五页,共46页。现假定=15,2=4,则我们可以用随机模拟方法由N(15,4)产生一个容量为10的样本,如下即是这样一个样本:14.85 13.01 13.50 14.93 16.97 13.80 17.9533 13.37 16.29 12.38 由该样本可以算得 从而得到(d do)的一个区间估计为 该区间包含 的真值-15。现重复这样的方法 100次,可以得到(d do)100个样本,也就得到(d do)100个区 间,我们将这100个区间画在图上。第16页/共46页第十六页,共46页。由图可以由图可以看出,看出,这这100100个个区间中区间中有有9191个个包含包含(bohn(bohn)参数真参数真值值1515,另外另外9 9个个不包含不包含(bohn(bohn)参数真参数真值。值。图 的置信水平为0.90的置信区间 第17页/共46页第十七页,共46页。取取=0.50=0.50,我,我们也可以给出们也可以给出100100个这样的个这样的区间,见图。区间,见图。可以看出可以看出(kn(kn ch)ch),这,这100100个区间中有个区间中有5050个包含参数真个包含参数真值值1515,另外,另外5050个不包含参数个不包含参数真值。真值。图 的置信水平为0.50的置信区间 第18页/共46页第十八页,共46页。定义 沿用定义的记号,如对给定的(0 1),对任意的,有 ()称 为 的1-同等置信区间。同等置信区间是把给定的置信水平1-用足了。常在总体为连续分布(fnb)场合下可以实现。第19页/共46页第十九页,共46页。定义定义 若对给定的若对给定的(0(0 1)1)和任意的和任意的,有,有 ,则称,则称 为为 的置信水平为的置信水平为1-1-的(单侧)的(单侧)置信下限置信下限(xixin)(xixin)。假如等号对一切。假如等号对一切 成立,则称成立,则称 为为 的的1-1-同等置信下限同等置信下限(xixin)(xixin)。若对给定的。若对给定的(0 (0 1)1)和任意的和任意的,有,有 ,则称则称 为为 的置信水平的置信水平为为1-1-的(单侧)置信上限。若等号对一切的(单侧)置信上限。若等号对一切 成立,则成立,则称称 为为1-1-同等置信上限。同等置信上限。单侧置信限是置信区间的特殊情形。因此,寻求置信区间的方单侧置信限是置信区间的特殊情形。因此,寻求置信区间的方法可以用来寻找单侧置信限。法可以用来寻找单侧置信限。第20页/共46页第二十页,共46页。单个正态总体单个正态总体单个正态总体单个正态总体(zngt)(zngt)(zngt)(zngt)参数的置信区间参数的置信区间参数的置信区间参数的置信区间 一、一、已知时已知时 的置信区间的置信区间由此给出了的同等置信区间为由此给出了的同等置信区间为 ,。()()这是一个以这是一个以 为中心,半径为为中心,半径为 的对称的对称(duchn)(duchn)区间,常将之表示为区间,常将之表示为 。第21页/共46页第二十一页,共46页。例 用天平秤某物体的重量9次,得平均值为 (克),已知天平秤量结果(ji gu)为正态分布,其标准差为0.1克。试求该物体重量的0.95置信区间。解:此处1-=0.95,=0.05,查表知u0.975=1.96,于是该物体重量 的0.95置信区间为 ,从而该物体重量的0.95置信区间为 15.3347,15.4653。第22页/共46页第二十二页,共46页。例 设总体为正态分布N(,1),为得到 的置信水平为0.95的置信区间长度不超过1.2,样本容量应为多大?解:由题设条件(tiojin)知 的0.95置信区间为 其区间长度为 ,它仅依赖于样本容量n而与样本具体取值无关。现要求 ,立即有n(2/1.2)2u21-/2.现1-=0.95,故u1-/2=1.96,从而n(5/3)2 1.962=10.6711。即样本容量至少为11时才能使得 的置信水平为0.95的置信区间长度不超过1.2。第23页/共46页第二十三页,共46页。二、二、2 2未知时未知时 的置信区间的置信区间 的1-置信区间为 此处 是 2的无偏(w pin)估计。第24页/共46页第二十四页,共46页。例 假设轮胎的寿命服从(fcng)正态分布。为估计某种轮胎的平均寿命,现随机地抽12只轮胎试用,测得它们的寿命(单位:万公里)如下:4.68 4.85 4.32 4.85 4.61 5.025.20 4.60 4.58 4.72 4.38 4.70 此处正态总体标准差未知,可使用t分布求均值的置信区间。经计算有 =4.7092,s2=0.0615。取=0.05,查表知t0.975(11)=2.2010,于是平均寿命的0.95置信区间为(单位:万公里)第25页/共46页第二十五页,共46页。在实际问题中,由于轮胎的寿命(shumng)越长越好,因此可以只求平均寿命(shumng)的置信下限,也即构造单边的置信下限。由于 由不等式变形可知 的1-置信下限为 将t0.95(11)=1.7959代入计算可得平均寿命(shumng)的0.95置信下限为4.5806(万公里)。第26页/共46页第二十六页,共46页。三、三、三、三、2 2的置信区间的置信区间的置信区间的置信区间 2 2的1-置信区间为 第27页/共46页第二十七页,共46页。例某厂生产的零件重量服从正态分布例某厂生产的零件重量服从正态分布N(N(,2)2),现从该厂生产的零,现从该厂生产的零件中抽取件中抽取9 9个,测得其重量为(单位:克)个,测得其重量为(单位:克)45.3 45.4 45.1 45.3 45.5 45.7 45.4 45.3 45.645.3 45.4 45.1 45.3 45.5 45.7 45.4 45.3 45.6 试求总体标准差试求总体标准差 的的0.950.95置信区间。置信区间。解:由数据解:由数据(shj)(shj)可算得可算得 s2=0.0325 s2=0.0325,(n-1)s2=8(n-1)s2=80325=0.26.0325=0.26.查表知查表知 2 0.025(8)=2.1797 2 0.025(8)=2.1797,20.975(8)=17.534520.975(8)=17.5345,代入可得代入可得 2 2的的0.950.95置信区间为置信区间为 从而从而 的的0.950.95置信区间为置信区间为:0.1218:0.1218,0.34540.3454。第28页/共46页第二十八页,共46页。在样本容量充分大时,可以用渐近分布(fnb)来构造近似的置信区间。一个典型的例子是关于比例p 的置信区间。大样本大样本大样本大样本(yngbn)(yngbn)(yngbn)(yngbn)置信区间置信区间置信区间置信区间 第29页/共46页第二十九页,共46页。设x1,xn是来自b(1,p)的样本(yngbn),得到p的置信区间为 其中记=u21-/2,实用中通常略去/n项,于是可将置信区间近似为第30页/共46页第三十页,共46页。例 对某事件(shjin)A作120次观察,A发生36次。试给出事件(shjin)A发生概率p 的0.95置信区间。解:此处n=120,=36/120=0.3 而u0.975=1.96,于是p的0.95(双侧)置信下限和上限分别为 故所求的置信区间为 0.218,0.382第31页/共46页第三十一页,共46页。例 某传媒公司欲调查电视台某综艺节目收视率p,为使得 p 的1-置信区间长度(chngd)不超过d0,问应调查多少用户?解:这是关于二点分布比例p的置信区间问题,由()知,1-的置信区间长度为 这是一个随机变量,但由于 ,所以对任意的观测(gunc)值有 。这也就是说p的1-的置信区间长度不会超过 。现要求p的的置信区间长度不超过d0,只需要 即可,从而 ()第32页/共46页第三十二页,共46页。这是一类常见的寻求样本量的问题(wnt)。比如,若取d0=0.04,=0.05,则 。这表明,要使综艺节目收视率p的0.95置信区间的长度不超过0.04,则需要对2401个用户作调查。第33页/共46页第三十三页,共46页。两个两个两个两个(lin)(lin)(lin)(lin)正态总体下的置信正态总体下的置信正态总体下的置信正态总体下的置信区间区间区间区间 设x1,xm是来自N(1,12)的样本,y1,yn是来自N(2,22)的样本,且两个样本相互独立。与 分别是它们的样本均值,和 分别是它们的样本方差。下面(xi mian)讨论两个均值差和两个方差比的置信区间。第34页/共46页第三十四页,共46页。一、一、1 1-2 2的置信区间的置信区间1、12和 22已知时的两样(lingyng)本u区间 2、12=22=2未知时的两样(lingyng)本t区间 第35页/共46页第三十五页,共46页。3、22/12=已知时的两样(lingyng)本t区间 第36页/共46页第三十六页,共46页。4、当m和n都很大时的近似置信区间 5、一般情况(qngkung)下的近似置信区间 其中 第37页/共46页第三十七页,共46页。例 为比较两个小麦品种的产量,选择18块条件相似的试验田,采用相同的耕作方法作试验,结果播种(b zhng)甲品种的8块试验田的亩产量和播种(b zhng)乙品种的10块试验田的亩产量(单位:千克/亩)分别为:甲品种 628 583 510 554 612 523 530 615 乙品种 535 433 398 470 567 480 498 560 503 426 假定亩产量均服从正态分布,试求这两个品种平均亩产量差的置信区间.(=0.05)。第38页/共46页第三十八页,共46页。解:以x1,x8记甲品种的亩产量,y1,y10记乙品种的亩产量,由样本数据可计算得到(d do)=569.3750,sx2=2140.5536,m=8 =487.0000,sy2=3256.2222,n=10 下面分两种情况讨论。第39页/共46页第三十九页,共46页。(1)若已知两个品种(pnzhng)亩产量的标准差相同,则可采用两样本t区间。此处 故1-2的0.95置信区间为第40页/共46页第四十页,共46页。(2)若两个品种亩产量的方差不等,则可采用近 似 t 区间。此处 s02=2110.5536/8+3256.2222/10=589.4414,s0=24.2784 于是(ysh)1-2的0.95近似置信区间为 31.3685,133.3815第41页/共46页第四十一页,共46页。二、12/22的置信区间 由于(m-1)sx2/12 2(m-1),(n-1)sy2/22 2(n-1),且sx2与sy2相互独立,故可仿照F变量构造如下枢 轴量 ,对给定(i dn)的1-,由 经不等式变形即给出 12/22的如下的置信区间第42页/共46页第四十二页,共46页。例 某车间有两台自动机床加工一类(y li)套筒,假设套筒直径服从正态分布。现在从两个班次的产品中分别检查了5个和6个套筒,得其直径数据如下(单位:厘米):甲班:5.06 5.08 5.03 5.00 5.07 乙班:4.98 5.03 4.97 4.99 5.02 4.95 试求两班加工套筒直径的方差比 甲2/乙2的0.95置信区间。解:由数据算得sx2=0.00037,sx2=0.00092,故置信区间0.0544,3.7657 第43页/共46页第四十三页,共46页。n n习题习题1、在一批货物中随机抽取、在一批货物中随机抽取80件,发现有件,发现有11件不合格品,试件不合格品,试求这批货物的不合格品率的求这批货物的不合格品率的0.90置信区间置信区间.n n习题习题2、某商店某种商品的月销、某商店某种商品的月销售量服从泊松分布,为合理进售量服从泊松分布,为合理进货,必须了解销售情况。现记货,必须了解销售情况。现记录了该商店过去的一些录了该商店过去的一些(yxi)销售量:销售量:n n月销售量月销售量 9 10 11 12 13 14 15 16n n月份数月份数 1 6 13 12 9 4 2 1n n试求平均月销售量的试求平均月销售量的0.95置信区置信区间间第44页/共46页第四十四页,共46页。n n习题习题习题习题3 3、假设人体身高、假设人体身高、假设人体身高、假设人体身高(shn(shn o)o)服从正态服从正态服从正态服从正态分布,今抽测甲、乙两地区分布,今抽测甲、乙两地区分布,今抽测甲、乙两地区分布,今抽测甲、乙两地区1818岁岁岁岁2525岁女岁女岁女岁女青年身高青年身高青年身高青年身高(shn(shn o)o)得数据如下:甲地区得数据如下:甲地区得数据如下:甲地区得数据如下:甲地区抽取抽取抽取抽取1010名,样本均值名,样本均值名,样本均值名,样本均值1.64m1.64m,样本标准差为,样本标准差为,样本标准差为,样本标准差为0.2m0.2m;乙地区抽取;乙地区抽取;乙地区抽取;乙地区抽取1010名,样本均值名,样本均值名,样本均值名,样本均值1.62m1.62m,样本标准差样本标准差样本标准差样本标准差0.4m0.4m,求,求,求,求n n(1 1)两正态总体方差比的)两正态总体方差比的)两正态总体方差比的)两正态总体方差比的95%95%置信区间置信区间置信区间置信区间n n(2 2)两正态总体均值差的)两正态总体均值差的)两正态总体均值差的)两正态总体均值差的95%95%置信区间置信区间置信区间置信区间第45页/共46页第四十五页,共46页。感谢您的观看感谢您的观看(gunkn)!第46页/共46页第四十六页,共46页。