数理统计 学习.pptx
基本思想基本思想通过大量实践,人们对小概率事件(即一次试验中发生的概率很小的事情)总结出一条原理:并称此为实际推断原理,其为判断假设的根据。在假设检验时,若一次试验中小概率事件发生了,就认为是不合理的。小概率事件在一次试验中发生的概率记为,一般取在假设检验中,称为显著水平、检验水平。小概率事件在一次试验中几乎不会发生。第1页/共108页基本思想基本思想可能犯的错误有两类:-第一类错误(弃真)-第二类错误(取伪)样本容量固定时,由于人们作出判断的依据是一个样本,由部分来推断整体。所以假设检验不可能绝对准确。概率增大。减少犯一类错误,则另一类错误为真时拒绝 不真时接受 两个假设第2页/共108页 假设检验的两类错误H0为真实际情况决定拒绝H0接受H0H0不真弃真正确正确取伪P拒绝H0|H0为真=,P接受H0|H0不真=.犯两类错误的概率:显著性水平 为犯第一类错误的概率.P第一类错误=P第二类错误=第3页/共108页显著性检验:只对犯第一类错误的概率加以控制,而不考虑犯第二类错误的概率。单个正态总体均值与方差的假设检验单个正态总体均值与方差的假设检验设总体称 为显著性水平。为X的样本,P拒绝|为真第4页/共108页第一节第一节 单个正态总体参数的假设检验单个正态总体参数的假设检验在实际工作中,往往把不轻易否定的命题作为原假设.-原假设(零假设)-备选假设(对立假设)一、总体均值 的假设检验其中 是已知常数已知时,的检验 第5页/共108页例例1 某车间生产铜丝,某车间生产铜丝,X的大小。铜丝的主要质量指标是折断力由资料可认为今换了一批原料,从性能上看,估计折断力的方差不会有变化,但不知折断力的大小有无差别。解 此问题就是已知方差检验假设抽出10个样品进行检验,测得其折断力(斤)为(=0.05)看在H0条件下会不会产生不合理的现象,第6页/共108页样本均值 为 的无偏估计,能较好反映 的大小.当 为真时,差异不能过大。有较大偏差 较小 若差异较大,即小概率事件发生,则拒绝假设 当 为真时,衡量 的大小 第7页/共108页设一临界值 k0,若就认为有较大偏差;则认为 不真,拒绝 则接受 若第8页/共108页显著性检验:P拒绝|为真拒绝域第9页/共108页由样本值求出这说明小概率事件竟在一次试验中发生了,故拒绝H0,可以接受H1。即认为折断力大小有差别第10页/共108页提出原假设和备择假设 第一步:已知已知,第二步:选取统计量检验假设检验假设的过程分为五个步骤:第三步:拒绝域为第11页/共108页第四步:查表确定临界值第六步:判断则否定H0,接受H1则H0相容,接受H00第五步:计算第12页/共108页某车间用一台包装机包装葡萄糖.包得的袋装糖当机器正常时,某日开工后为检验包装机是否正常,包装的糖9袋,称得净重为(公斤):0.497 0.506 0.518 0.524 0.4980.511 0.520 0.515 0.512问机器是否正常?例例2 2重是一个随机变量X,且其均值为=0.5公斤,标准差=0.015公斤.随机地抽取它所解:先提出假设(=0.05)第13页/共108页选取统计量:拒绝域:计算得于是拒绝 ,认为包装机工作不正常。第14页/共108页选择假设H1表示Z可能大于0,也可能小于0这称为双边假设检验。单边检验右边检验左边检验第15页/共108页右边检验查表确定临界值(4)取 (2)选取统计量:(3)拒绝域为 (5)计算 则拒绝 ,接受反之,接受 第16页/共108页左边检验查表确定临界值(4)取 (2)选取统计量:(3)拒绝域为 (5)计算 则拒绝 ,接受反之,接受 第17页/共108页例3(2)选取统计量:某大学男生身高 今测得9名男生身高 平均为 问是否可以认为该校男生平均身高 超过170cm呢?(3)拒绝域为 解 第18页/共108页查表确定临界值(4)取 (5)计算 可以认为该校男生平均身高超过170cm.则拒绝 ,重点保护 ,拒绝它有足够理由,不拒绝它而 接受它的理由就不充分。例如“这个城市小偷很少”如题目问:是否有明显提高 是否有明显下降 第19页/共108页(2)选取统计量:(3)拒绝域为例4 设某厂灯泡平均寿命为2000小时,标准差为250小时 从技术改造后的灯泡中随机抽取 n=25只,测得平均 寿命为2250小时,问此产品寿命是否较前有显著提高.第20页/共108页查表确定临界值(4)取 (5)计算 则拒绝 ,即认为这些产品较以往有显著提高.第21页/共108页提出原假设和备择假设 第一步:第二步:选取统计量第四步:查表确定临界值第三步:拒绝域为未知时,的检验 未知 ,可用样本方差代替 第22页/共108页选择假设H1表示Z可能大于0,也可能小于0这称为双边假设检验。第六步:判断则否定H0,接受H1则H0相容,接受H00第五步:计算第23页/共108页显著差别?爆破压力X服从正态分布 =0.05解:提出假设 H0:=549;H1:549对一批新的某种液体存储罐进行耐裂试验,重复测量5次,测得爆破压力数据为(单位斤/寸2):545 545 530 550 545过去该种液体存储罐的平均爆破压力为549斤寸(可看作真值),因为未知方差2,故采用t检验法。取统计量例例5 5试问这批新罐的平均爆破压力与过去有无第24页/共108页由样本算得这里接受H0。即这批新罐的平均爆破压力与过去无显著差别。拒绝域查表第25页/共108页32.56,29.66,31.64,30.00,31.87,31.03例例6 6解(1)(2)(3)拒绝域取统计量 某工厂生产一种螺钉,标准要求是长度是32.5毫米,实际生产的产品其长度X服从正态分布 未知,现从该厂生产的一批产品中抽取6件,得 尺寸数据如下:问这批产品是否合格?第26页/共108页(5)将样本值代入算出统计量 T0的实测值,没有落入拒绝域故接受 为真,即可认为产品是合格的。(4)查表第27页/共108页右边检验查表确定临界值(4)取 (2)选取统计量:(3)拒绝域为 (5)计算 则拒绝 ,接受反之,接受 第28页/共108页左边检验查表确定临界值(4)取 (2)选取统计量:(3)拒绝域为 (5)计算 则拒绝 ,接受反之,接受 第29页/共108页4.28;4.40;4.42;4.35;4.37.如果标准差不变,解:拒绝H0例例1 1某日测得5炉铁水含碳量如下:该日铁水的平均含碳量是否显著偏低?=0.05已知某炼铁厂的铁水含碳量 在正常情况下(2)取统计量第30页/共108页某次考试的考生成绩从中随机地抽取36位考生的成绩,平均成绩为63.5分,未知,例例2 2标准差 s=15分,问在显著水平0.05下是否可以认为全体考生的平均成绩为70分?求的置信水平为0.95的置信区间。拒绝域为解 先提出假设计算第31页/共108页故落在拒绝域之内,拒绝H0,接受H1即不能认为全体考生的平均成绩为70分。的置信水平为0.95的置信区间为第32页/共108页设总体为X 的样本。对2 作显著性检验(,其中检验)引例 已知某种延期药静止燃烧时间今从一批延期药中任取10副测得静止燃烧时间(单位秒)数据为问:是否可信这批延期药的静止燃烧时间T的方差为未知时,的检验 第33页/共108页解解 提出假设提出假设取统计量为 的无偏估计,不应过大也不应过小 第34页/共108页说明和在H0成立的条件下都是小概率事件。第35页/共108页因此,因此,在样本值下计算若或则拒绝H0。若则接受H0。本题根据样本值算得第36页/共108页双边假设检验的拒绝域为或则接受H0。即可信延期药的静止燃烧时间T的方差为显然由上例可得第37页/共108页提出原假设和备择假设 第一步:第二步:取统计量的过程分为五个步骤:第三步:拒绝域为第38页/共108页第六步:判断,若则拒绝H0,接受H1第五步:计算反之则接受H0。第四步:查表确定临界值第39页/共108页(=0.05)某次统考后随机抽查26份试卷,测得平均成绩成绩标准差是否为已知该次考试成绩例例2 2(2)选取统计量(3)拒绝域为解(1)假设分,样本方差 试分析该次考试 分左右。第40页/共108页(4)查表确定临界值(5)计算故接受H0。即可认为该次考试成绩标准差为分左右。第41页/共108页四四 两个正态总体参数的假设检验两个正态总体参数的假设检验分别是这两个样本的均值,且 X 与 Y 独立,X1,X2,是取自X 的样本,Y 的样本,分别是这两个样本的样本方差,则有Y1,Y2,是取自和 第42页/共108页且X与Y独立,四四.检验两正态总体均值相等检验两正态总体均值相等1.提出假设H0:1=2;H1:12 取统计量拒绝域的形式对给定查表确定第43页/共108页则否定H0,接受H1则接受H0即认为两个正态母体均值无显著差异即认为两个正态母体均值有显著差异,显著性水平为由样本值 代入算出统计量第44页/共108页H0:1=2;H1:12 取统计量提出假设拒绝域的形式给定显著性水平第45页/共108页且X与Y独立,1.提出假设 检验两正态总体均值之差检验两正态总体均值之差取统计量拒绝域的形式给定第46页/共108页算出统计量则否定H0,接受H1则接受H0注意 在关于的假设检验中,通常遇到的情况是,即检验与是否相等.第47页/共108页例3 某苗圃用两种育苗方案对杨树进行育苗试验,已知在两组育苗试验中苗高的标准差分别为cm,cm.cm,设杨树苗高服从正态分布,试在显著性水平下,判断两种试验方案对平均苗高有无显著影响?现各抽取80株树苗作为样本,算得苗高的样本均值分别为cm.第48页/共108页解 设第一种方案的苗高为第二种方案的苗高为则检验假设选取检验统计量 该拒绝域为第49页/共108页现在,统计量的值因为所以拒绝原假设即这两种试验方案对苗高有显著影响.第50页/共108页拒绝域拒绝域未知,的单边检验 第51页/共108页 五、检验两正态总体方差相等 F检验取统计量分别是样本方差,第52页/共108页(4)查表则否定H0,接受H1(2)选取统计量(3)拒绝域(5)计算 第53页/共108页拒绝域拒绝域第54页/共108页例1 两家银行分别对21个储户和16个储户的年存款余额进行抽样调查,测得其平均年存款余额分别为元和元.样本标准差相应为元和试比较两家银行的储户的平均年存款余额有无显著差异。(取显著性水平)元。假设年存款余额服从正态分布,解 设两家银行的储户的平均年存款余额分别为X,Y,则 为了使用检验,依题意要检验与是否相等,但方差未知,因此首先需要检验与是否相等。第55页/共108页拒绝域这里查表选取统计量(1)检验假设第56页/共108页F的值为因为所以接受选取统计量(2)检验假设第57页/共108页(3)拒绝域(4)查表统计量t 的值为 因为,所以拒绝这说明两家银行的储户的平均年存款余额有显著差异 第58页/共108页六、六、大子样检验总体均值的假设检验大子样检验总体均值的假设检验的假设检验是总体的前提下提出的。当总体X不服从正态分布时,只要n较大,对 假设检验均可选取Z统计量。第59页/共108页 大子样的两总体均值相等的 假设检验 U检验 分别是这两个样本的且X与Y独立,分别是这两个样本的样本方差,均值,大样本,由中心极限定理,第60页/共108页未知,用样本标准差S近似代替.当都很大时第61页/共108页H0:1=2;H1:12 取统计量提出假设拒绝域的形式给定显著性水平第62页/共108页五五.总结总结:参数假设检验的一般步骤参数假设检验的一般步骤本讲内容作简单小结.第63页/共108页在大样本的条件下,若能求得检验统计量的极限分布,依据它去决定临界值C.F 检验 用 F分布一般说来,按照检验所用的统计量的分布,分为U 检验 用正态分布t 检验 用 t 分布检验用分布第64页/共108页 按照对立假设的提法,分为单侧检验,它的拒绝域取在左侧或右侧.双侧检验,它的拒绝域取在两侧;第65页/共108页 例4 为比较两台自动机床的精度,分别取容量为10和8的两个样本,测量某个指标的尺寸(假定服从正态分布),得到下列结果:在 =0.1时,问这两台机床是否有同样的精度?车床甲:1.08,1.10,1.12,1.14,1.15,1.25,1.36,1.38,1.40,1.42车床乙:1.11,1.12,1.18,1.22,1.33,1.35,1.36,1.38第66页/共108页解:设两台自动机床的方差分别为在 =0.1下检验假设:取统计量分别是的样本方差,拒绝域为或由样本值可计算得F的实测值为:F=1.51第67页/共108页查表得由于 0.3041.513.68,故接受H0 .第68页/共108页假设检验会不会犯错误呢?由于作出结论的依据是下述小概率原理小概率事件在一次试验中基本上不会发生.不是一定不发生 如果H0成立,但统计量的实测值落入否定域,从而作出否定H0的结论,那就犯了“以真为假”的错误.如果H0不成立,但统计量的实测值未落入否定域,从而没有作出否定H0的结论,即接受了错误的H0,那就犯了“以假为真”的错误.第69页/共108页 假设检验的两类错误H0为真实际情况决定拒绝H0接受H0H0不真弃真正确正确取伪P拒绝H0|H0为真=,P接受H0|H0不真=.犯两类错误的概率:显著性水平 为犯第一类错误的概率.P第一类错误=P第二类错误=第70页/共108页对给定的显著性水平,H0关于 的接受域:H0关于 的拒绝域:第71页/共108页把本来正确的东西给丢弃了这就范了“弃真”的错误,其概率是P拒绝H0|真=而结论是:若 落在H0的接受域内,就接受H0,但结论是:若 落在H0的拒绝域内,就拒绝H0,(1)在H0正确的情况下,落在R上的每一点都是可能的范了“取伪”的错误,第72页/共108页 注意:积分区间长度不变:但积分区间的中心第73页/共108页(2)要同时降低两类错误的概率 ,或者要在 不变的条件下降低 ,需要增加样本容量.(1)当样本容量固定时,一类错误概率的减少导致另一类错误概率的增加.因减少,积分区间长度:第74页/共108页6.6.非参数假设检验非参数假设检验一个总体的检验分布的卡方拟合检验/柯尔莫哥洛夫拟合检验二个总体相等的检验柯尔莫哥洛夫-斯米尔诺夫/符号检验法/秩和检验法/游程检验法第75页/共108页分布拟合优度检验概率图纸法2-拟合优度检验柯尔莫洛夫-斯米尔诺夫检验6.1 概率图纸法1.正态概率图纸的构造原理设总体X有分布函数 F(x),N(,2)表示正态分布族,需要检验假设第76页/共108页在原假设 H0 为真时,通过中心化变换即而函数 u(x)是 x 的线性函数,在(x,u(x)直角坐标平面上是一条直线,这条直线过点(,0),且斜率为 1/第77页/共108页图 6-1在平面上直接标出(xi,Fi),我们以横轴上的刻度表示 x;在纵轴上先刻出 u 的刻度(均匀),而后根据 u 的值,从正态 N(0,1)分布表中查出对应的分布函数值(u),刻在 u 的位置上,然后把 u 的刻度抹去,留下 x 与 F(%)的刻度就构成一张正态概率图纸。-3 -2 -1 0 1 2 3 4 4 3 2 1 0 -1 -2 -3 -4F(%)99.8797.7284.1315.872.280.13xu第78页/共108页2.检验步骤由格里汶科定理知道子样的经验分布函数Fn(x)依概率收敛于总体分布函数 F(x)。因此若为真,则点(xi,Fn(xi),i=1,2,n 在正态概率图纸上也应该近似地在一条直线附近。根据上述想法,用正态概率图纸检验假设 H0的具体步骤如下:1)整理数据:把样本观察值按大小排列。假如 n 次观察值中有 m 个不同的值,则按大小次序列入下表。第79页/共108页观察值观察值x(1)x(2)x()频数频数r1r2rmFn(x)1由于(x(m),1)在正态概率图纸上无法标出,不少统计学家建议对 Fn 的值作如下两种修正:这种修正对小样本是必要的;2)描点:把点(x(k),Fn(x(k)描在正态概率图纸上;第80页/共108页3)目测这些点的位置,若这一列点大概在一条直线附近,我们就可以接受原假设,否则就拒绝原假设。若通过概率图纸检验已经知道总体服从正态分布,我们就凭目测在概率图纸上画出最靠近各点(x(i),Fn(x(i),i=1,n 的一条直线 l。在概率图纸上画一条 F=0.5 的水平直线,这条直线与直线 l 的交点的横坐标 x 0.5 就可作为参数的估计。其次,我们还可用 x 0.8413 x 0.5 来估计3.未知参数与2的估计第81页/共108页6.2 2 拟合检验法 设总体X的分布函数为具有明确表达式的 F(x),我们把随机变量X的值域 R 分成 k 个互不相容的区间 A1=a0,a1),A2=a1,a2),Ak=a k-1,ak,这些区间不一定有相同的长度设 是容量为 n 的样本观测值,ni 为样本观测值 中落入 Ai 的频数。则在 n 次试验中事件 Ai 出现的频率为我们现在检验原假设 H0:F(x)=F0(x).设在原假设 H0 成立下,总体X落入 Ai 的概率为 pi,即第82页/共108页由大数定律,在 H0 为真时,频率 ni/n 与概率 pi 的差异不应太大。根据这个思想,Person 构造了一个统计量 定理 6.1:当 H0 为真时,即为总体的真实概率时,第83页/共108页如果原假设 H0 只确定总体分布的类型,而分布中还含有未知参数,,m,则下面的 Fisher 定理解决了含未知参数情形的分布检验问题。定理 6.2:设 为总体的真实分布,其中 为 m 个未知参数。在在 中用 的极大似然估计 代替 ,并且以 去估计 pi 得到则有下面的统计量第84页/共108页Person 2拟合优度检验的步骤:1)把总体X的值域划分为 k 个互不相交的区间 ai,a i+1),i=1,k,其中 a1,ak+1 可以分别取-,+;(每个划分的区间必须包含不少于5个个体,若个体数少于5个时,则可指导这种区间并入其相邻的区间,或者把几个频数都小于5,但不一定相邻的区间并成一个区间)。2)在H0成立下,用极大似然估计法估计分布所含的未知参数;3)在H0成立下,计算理论概率第85页/共108页并且算出理论频数 npi ;4)按照样本观察值 落在区间 ai,ai+1)中的个数,即实际频数 ni,i=1,k 计算5)按照所给出的显著性水平,查自由度为k-m-1 的2-分布表得6)若 ,则拒绝原假设H0,否则认为原假设成立。这里 m 是未知参数的个数;第86页/共108页【例6.1】某研究人员在某地随机抽查了150户3口之家,结果全家无某疾病有112户,家庭中1人患病的有20户,2人患病的有11户,3人全患病有7户,问该病在该地是否有家族聚集性。解:如果家庭成员之间的发病与否(X)互不影响,则X符合二项分布(两种互斥结果、试验条件不变、各次试验独立)。也就表明疾病不具有家族聚集性。H0:该病分布服从二项分布,H1:不服从二项分布=0.05第87页/共108页理论家庭数=150*理论概率 理论概率n=3-1-1=1,20.05(1)=3.84,具有家庭聚集性第88页/共108页拟合优度卡方检验的问题1.分组不同,拟合的结果可能不同。2.需要有足够的样本含量。对于连续型变量的优度拟合,卡方检验并不是理想的方法。统计学家推荐的拟合检验方法是:Kolmogorov-Smirnov检验柯尔莫洛夫-斯米尔诺夫检验第89页/共108页采用Kolmogorov-Smirnov法进行正态性检验由Kolmogorov与Smirnov提出。原理:寻找最大距离(Distance),所以常简称为D法。适用于大样本。具体做法:比较实际频数与理论频数的累积概率间的差距,找出最大距离D,根据D值来判断实际频数分布是否服从理论频数分布。统计量:H0:F(x)=F0(x).第90页/共108页D 拟合优度检验的步骤:1)将n个子样值按从小到大排列,把相同的数合并,并指出其频数2)算出经验分布函数3)计算D的值,即4)若 ,则拒绝原假设H0,否则认为原假设成立。第91页/共108页 Kolmogorov-Smirnov拟合优度检验 图示第92页/共108页1.柯尔莫哥洛夫-斯米尔诺夫H0:F1(x)=F2(x).二个总体相等的检验2.符号检验法3.秩和检验法4.游程检验法第93页/共108页H0:F1(x)=F2(x).二个总体相等的检验子样的经验分布函数F1m(x),F2n(x)是来自两个独立总体的样本,1.柯尔莫哥洛夫-斯米尔诺夫原假设H0成立的条件下,不应该太大下,第94页/共108页H0:F1(x)=F2(x).2.符号检验法是来自两个独立总体的样本,(容量相等)H0为真时,第95页/共108页H0:F1(x)=F2(x).H0为真时,H0为真时,第96页/共108页符号检验法缺点要求数据配对,没有充分利用样本所提供的信息优点是简单,直观,不要求被检验量所服从的分布第97页/共108页3.秩和检验法定义:按从小到大排列,第98页/共108页3.秩和检验法H0:F1(x)=F2(x).两个 样本大秩和检验法大步骤和思想如下:以此得到的秩代替原来的样本,于是得到两个样本为 混合后,再按由小到大排序,便可得到m+n个秩,比较两个样本容量的大小,选出较小的,如果m=n,就任选一个.假设mn.取容量为m的样本,把样本的秩加起来得秩和第99页/共108页3.秩和检验法H0:F1(x)=F2(x).秩和统计量H0为真时,第一个样本的秩一定均匀的分布在这m+n个自然数中而不会过度集中在较小或较大的数中,从而不会太靠近取值范围两端度值,否则就认为出现了小概率事件.第100页/共108页4.游程检验法H0:F1(x)=F2(x).把合样本按从小到大的顺序排列,得到合样本的顺序统计量:凡来自总体X的均记为0,来自总体Y的均记为1于是合样本的顺序统计量就成为仅由0和1两个元素组成的序列.把每一个连续出现的0(或1)的一组数称为一个游程,每个游程所含元素的个数称为游程的长度.R表示序列游程总数,L表示序列的最大游程长度.第101页/共108页4.游程检验法H0:F1(x)=F2(x).H0为真时,即X与Y有相同的分布,此时可以看成从同一个总体中抽取的样本,他们能均匀的混合,因此序列的游程总数R将比较大,而序列的最大游程长度L将比较小.因此,游程总个数R比较小或最大游程长度L比较大,都应该 拒绝H 0基于游程总个数R的检验法基于最大游程长度L的检验法第102页/共108页H0:F1(x)=F2(x).关于二个总体相等的非参数检验介绍了四种方法,同一个问题如果用上述四种方法检验,得出不同结论则其中只要有一个检验结果是拒绝则应该拒绝H 0H 0第103页/共108页 提出假设 根据统计调查的目的,提出原假设H0 和备选假设H1作出决策抽取样本检验假设 对差异进行定量的分析,确定其性质(是随机误差还是系统误差.为给出两者界限,找一检验统计量T,在H0成立下其分布已知.)拒绝还是不能拒绝H0显著性水平P(T W)=-犯第一类错误的概率,W为拒绝域总 结第107页/共108页感谢您的观看。第108页/共108页