概率统计基础知识1.pdf
《概率统计基础知识1.pdf》由会员分享,可在线阅读,更多相关《概率统计基础知识1.pdf(66页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、概率统计基础知识及其在matlab中的实现-假设检验的基本概念前面我们讲了如何根据子样去得到母体分布所含参数的优良估计。用这样得到的估计值作为参数的母体必须与真的母体作比 较,考察它们之间是否在统计意义上相吻合。显 然,这种比较也只能在子样的基础上进行。怎样在子样基础上作出一个有较大把握的结论就是统计假设检验问题。假设检验是统计推断的一个基本问题,在总体的分布函数完全未知或只知其形式但不知其参数的情况下,为了推断总体的某些 性 质,先对总体的分布类型或总体分布的参数做某种假设,然后根据样本提供的信息,对所作的假设作出是接受,还是拒绝的决 策,这一过程就是假设检验。(1)假设检验的基本原理假设检
2、验在统计方法中的地位参数估计 假设检验例 某鱼池中养着有红鱼及黑鱼,总数为1 0 0,但不知红鱼和黑鱼各占多少。现提出假设“0:其 中99条鱼是红鱼。现在来判断这个假设是否成立。先假设“成立(”。为 真),那么“从池子中任意捞一条鱼,捞出的是黑鱼”这一事件的概率为0.0 1 ,我们认为这是一个小概率事件。如果捞一条鱼居然是黑鱼,那么就应该拒绝“,即认为白鱼的数不是99。如果任意捞出一条是白鱼,此 时 没 有 拒 绝 的 理 由,则接受8.。(但是,这样作的决策就没有问题吗?肯定是正确的吗?)什么小概率?1 .在一次试验中,一个几乎不可能发生的事件发生的概率2 .在一次试验中小概率事件一旦发生,
3、我们就有理由拒绝原假设3.小概率由研究者事先确定假设检验的基本原理:首先提出原假设a。,其次在4 成立的条件下,考虑已经观测到的样本信息出现的概率。如果这个概率 很 小,这就表明一个概率很小的事件在一次实验中发生了。而小概率原理认为,概率很小的事件在一次实验中几乎是不发生的,也就是说在“。成立的条件下导出了一个违背小概率原理的结 论,这 表 明 假 设 是 不 正 确 的,因此拒绝”0 ,否则接受“0。(2)假设检验的两类错误假设检验中作出推断的基础是一个样本,是以部分来推断总体,因此不可避免地会犯错误。第一类错误(弃真错误):为真而拒绝 0 ;第二类错误(取伪错误):o不真而接受“0。犯第一
4、类错误的概率记为P 当名 为真拒绝ao ,犯第二类错误的概率记为。当 o不真接受 o。我们当然希望犯两类错误的概率都很小,但 是,进一步讨论可知,当样本容量固定时,若减少犯一类错误的概率,则犯另一类错误的概率往往增大。若要使犯两类错误的概率都减小,则须增加样本容拒绝H0第一类错误(a)功效(1-b)在给定样本容量的情况下,一般来说,我们总是控制犯第一类错误的概率,使它不大于a,即令P 当 名 为 真 拒 绝V。,2通常取0.1,0.0 5,0.0 1等。这种只对犯第一类错误的概率加以控制。而不考虑犯第二类错误的概率的检验,称为显著性检验。是一个事先指定的小的正数,称为显著性水平或检验水平。(3
5、)假设检验的步骤例1某车间用一台包装机包装葡萄糖。包得的袋装糖重是一个随机变量,它服从正态分布。当机器正常时,其均值为65公斤,标准差为0 0 1 5公斤。某日开工后为检验包装机是否正常,随机地抽去它包装的糖9袋,称得净重为(公斤):0.4 97 0.50 6 0.51 8 0.52 4 0.4 98 0.51 10.52 0 0.51 5 0.51 2问机器是否正常?该问题可叙述为:在检验水平。下,检验假设 o:=4 o =0.5,H.N 手 No称为双边检验。与双边检验对应的内容是单边检验,包括:右边检验:”0:/为左边检验:H。:心 外,H:NO下面来求解例3解 设X :这天袋装糖的重量
6、,则X N(,0.0 1 52),未知。H。;从=氏=。5,H ji 手 /I。又是的无偏估计 o为真时,又一不应过分大即:若 一X-7 己u之左,则拒绝.。九为了确定常数左,我们首先选取检验统计量-N(0,1)cr/yjnX n X u当 o为真时,p N(0,l),记u P (检验统计(y/yjn),尸 当名 为真拒绝/=以|U|k=ao令P 当H为 真 拒 绝/=。,即 以 “乂 =。,则 即此 为真时,事件“三答J为小概率事件。取二二 0.05,代入样本值,阡3 =2.2ua=1.96,所以cy/yjn 2拒绝”0 ,即认为该天包装机工作不正常。不等式4华 卜 仁,即时之与称为拒绝域产
7、上称为临界点。|b/g|5 2 2假设检验的步骤:1、提出原假设。和备择假设修2、给定a及 3、选取检验统计量及确定拒绝域的形式4、令P 当名 为真拒绝,求拒绝域5、由样本值作出决策:拒绝。或接受。例1中,我们选取的检验统计量为U,所用的检验/4n方法称为。检验法。例2某种产品质量XN(12,l)(单位:g)o更新设备后,从新生产的产品中随机抽取100个,测得样本均值元=12.5g。若方差没有变化,问设备更新后,产品的平均质量是否有显著变化?(a=0.05)解 Ho/=o=12 H/手 A。拒绝域为毛/华2 uaa=0.0 5ua=1.961 2.5-1 21/Vl OO=5 ua=1.961
8、故拒绝 o ,即认为产品平均质量有显著变化。(4)其他例题问 题 1.根据以前资料,其大学体育系百米跑平均成绩旬=1 2 5%=0.2 今随机抽测1 6人,百米跑平均成绩亍=1 2 3 ,问该系百米跑成绩与以前相比有无显著变化?问题2 某人以前投篮命中率为70%,经过一段时间训练,抽测1 0 次投篮,结果投中8 次,问题其投篮命中率有无提高?问题3 为了研究甲、乙两地1 8岁男子的身高,今从两地分别 随 机 抽 测 5 0人 和 6 0人,得 到 平 均 身 高 分 别 为豆=1 70 c九元2 =1 71 cm,问甲、乙两地1 8 岁男子的身高有无差异?问题4 为了检查某种短跑训练方法的效果
9、,对 2 0 人进行实验测得训练前百米跑平均成绩1 2 1 ,训练后为1 2,问该训练方法是否具有显著效果?二 方 差 分 析在假设检验中,我们研究了一个样本的平均数或比例与假设的总体均值或比例的差异是否显著的问题。我们也研究了两个样本的平均值和比例差异是否显著的问题。但是如果需要检验两个以上总体的均值是否相等,上一章所介绍的方法就不再适用了。这需要用方差分析的方法来解决。方差分析主要用来检验两个以上样本的平均值差异的显著程度,由此判断样本究竟是否抽自具有同一均值的总体。方差分析对于比较不同生产工艺或设备条件下产量、质量的差异,分析不同计划方案效果的好坏和比较不同地区、不同人员有关的数指标差异
10、是否显著时,是非常有用的。(1)单因素方差分析1问题的提出例题为了比较三种不同材料对产品寿命的影响,试验人员分别对三种不同材料所制造的一组产品的寿命进行了测试,所得结果如表1所 示(为简化计算,以各取4个样本为例1表1某种材料使用寿命的抽样统计表材料种类实验1实验2实验3实验4A1151169883B103107118116C73898597现要求根据上述试验结果,显著性水平为。的条件下,检验所选用的材料对最终产品的使用寿命的影响是否显著。从统计的角 度 看,就是要检验三种不同的材料所生产的最终产品的使用寿命的均值是否一致。通 常,在方差分析中,我们把对试验结果发生影响和起作用的自变量称为因素
11、。如果方差分析研究的是一个因素对于试验结果的影响和作用,就称为单因素方差分析。在本例中,因素就是可能影响产品使用寿命的材料。因素的不同选择方案称之为因素的水平。上例中材料有三种不同的选择就说因素有三个水平。因素的水平实际上就是因素的取值或者是因素的分组,例 如,可以在包装、质、价格和销售区域等方面取不同的值或分为不同的组,就表示因素选了不同的水平。方差分析要检验的问题就是当因素取不同的水平时,对结果有无显著的影响。若无显著影响,则随便选择哪一种材料都无所谓。否则就要选择最终产品寿命最长的一种材料。一般地,我们假定所检验的结果受某一因素A 的影响,它可以取 K 个不同的水平:1,2,3,K。对于
12、因素的每一 水平i都进行几次 试 验,结果分别为x),XX 历,我们把这一组样本记作X,,假定,即对于因素的每一个水平,所得到的结果都服从正态分布,且方差相等。用统计的语言来表达,要检验的假设就是:HQ:=.=*,?:不 是 所 有 的 必 都 相 等/)由此可见,方差分析是研究一个或多个可分组的变量(称为自变 量)与一个连续变量(因变量)之间的统计关系,并测定自变量在取各种不同水平时对因变量的影响和作用的一种统计分析方法。方差分析通过比较和检验在因素的不同水平下均值之间是否存在显著的统计差异的方法来测定因素的不同水平对因变的影响和作用的差异。2 方差分析的基本原理和步骤方差分析的基本思路是:
13、一方面确定因素的不同水平下均值之间的方差,把它作为对由所有试验数据所组成的全部总体的方差的一个估计值。另一方面,再考虑在同一水平下不同试验数据对于这一水平的均值的方差。由 此,计算出对由所有试验数据所组成的全部数据的总体方差的第二个估计值;最 后,比较上述两个估计值。如果这两个方差的估计值比较接近就说明因素的不同水平下的均值间的差异并不大,就接受零假设。否 则,就说明因素的不同水平下的均值间的差异比较大,就接受备择假设。根据上述思路我们可以得到方差分析的方法和步骤。1)提出假设H。:4=4=外,即因素的不同水平对试验结果无显著影 响,不是所有的必都相等(,=1,2,.水),即因素的不同水平对试
14、验结果有显著影响。2)方差分解我们先定义总离差平方和为各样本观察值与总均值的离差平方和。记作k 9S S T=ft(X 区 y1=1 j=l其 中:又是样本总均值,即N=成 为样本观察值总数。将总离差平方和分解为两部分:S S T=l(X 又)2Z=1 j=lk n _7=ZZ(x 厂 )+(1)Z=1 J=1心;(5.(32z=l j=l i=l其 中:工是第,.个样本的平均值,即(n /I X /岸J 记SSE=(X/=1 7=1表示同一样本组内,由于随机因素影响所产生的离差平方和,简称为组内平方和。记k _ _ 2SSR=Z(又)一i=表示不同的样本组之间,由于变异因素的不同水平影响所产
15、生的离差平方和,简称为组间平方和。由此可以得到SST=SSR+SSEo对应于SST,SSR和SSE的自由度分别为:N 1,K-1,N K。相应的自由度之间的关系也有:N-1=(K-1)+(N-K).3)尸检验将SSR和SSE分别除以其自由度,即得各自的均方差:组 间 均 方 差MSR=SSR/(K-1)组内的均方差MSE=SSE/(N K)统计上可以证明E(MSE)=(T2E(M S R)=/+717 t 几k I i=2由 此 可 见,如 果 原 假 设H。::M=4=4成 立,则E(MSE)=E(MSR)=tr2;否则E(MSR)CT2O根据歹分布,如果原假设“0:从二4二 二从成立,那么
16、MSR和MSE均是4的无偏估计,因而MSR/MSE就服从自由度为(K 1)和(N K)的歹分布。检验统计量厂 MSRF二-MSE如 上 所 述,当 原 假 设%:4=2 =4,成 立 时,E(MSE)=E(MSR)=cr2。此时MSR较小,尸值也较小。反之不成立时,MSR较大,产值也较大。对于给定的显著性水平。查产分布表得到五(左 1,N%)。如 果/耳1,N%),则原假设不成立,即K个组的总体均值之间有显著的差异,就拒绝“。若方心 伏T N-左),则原假设成立,即K个组的总体均值之间没有显著的差异,就接受“。4)方差分析表上述方差分析的方法可以用一张标准形式的表格来实现这种表格称为方差分析表
17、。它将方差分析的计算方法以简洁的形式进行总结。表格分为五列,第一列表示方差的来源,第二列表示方差的离差的平方和,第三列表示自由度,第四列为均方差,第五列为统计检验尸。表格又分为三行。第一行是组间的方差SSR和均方差M S R ,表示因素的不同水平的影响所产生的方差,其值作为计算统计检验量厂时的分子;第二行是组内方差S S E 和均方差M SE,表示随机误差所引起的方差,其值作为计算统计检验厂的分母,第三行是检验行,表示总的方差SST。由于方差分析表概括了方差分析中的统计量之间的关系,我们在进行方差分析时就可以直接按照方差分析表来逐行,逐列地计算出有关的统计量,最后得到检验尸的值,并把这一厂值与
18、查表所得到的一定显著性水平下的F检验的临界值进行比较,以得出接受或拒绝原假设的结论。总方差表2 单因素方差分析表方差来源离差平方和 自由度均方差统计检验量F组间SSRK 1MSR尸 MSR组内SSEN-KMSE1 MSESSTN-1对于本节开头的例题,我们可计算得到方差分析表如下:表3单因素方差分析表方差来源离差平方和自由度均方差统计检验量F不同材料间130426524.92同种材料间11929132.4总方差249611现假设原问题规定检验的显著性水平。=0.05,查表得到%2,9=4.26。因为1 4.92综052,9=4.26所以拒绝“。,即我们有95%的把握认为三种材料所制造的机器的寿
19、命有显著的差异。(2)双因素方差分析前面所研究的是试验结果仅受一个因素影响的情形。要求检验的是当因素取不同水平时对结果所产生的影响是否显著。但在实践中,某种试验结果往往受到两个或两个以上因素的影响。例 如,产品的合格率可能与所用的设备以及操作人员有关,企业的利润可能与市场的潜力、产品的式样和所投入的广告费用有关等等有关。如果我们研究的是两个因素的不同水平对试验结果的影响是否显著的问题就称作双因素方差分析。双因素方差分析中两个因素的影响既可能是相互联系、相互影响的,也可能是相互独立的。因 此,在分析的方法和步骤上要比单因素时来得复杂一些。双因素方差分析的基本思想与单因素方差分析基本相同。首先分别
20、计算出总变差、各个因素的变差以及随机误差的变差。其次根据各变差相应的自由度求出均方差,最后计算出歹值并作尸检验。双因素方差分析根据两个因素相互之间是否有交互影响而分为无交互影响的和有交互影响的两种情形。我们首先研究两因素无交互影响时的情形。1 无交互影响的双因素方差分析如果某一试验结果受到A和 8 两个因素的影响。这两个因素分别可取K 和M 个 水 平,则双因素方差分析实际上就是要比较因素 A 的K 个水平的均值之间是否存在显著差异,因素8 的M 个水平的均值之间是否存在显著差异。目的是要检验试验中这两个因素所起的作用有多大,是仅仅一个因素在起作用,还是两个因素起作用或者是两个因素的作用都不显
21、著。在假定两个因素无交互影响的情形,通常采用不重复试验,即对于两个因素每一种水平的组合只进行一次试验,这样总共就进行K x M 次试验。假定试验的结果如下表所示。表4双因素分析的试验结果观察值因 素 因素8的水平 _的 行总和口J A 12 3-m1 X”x12 x13 A2XRX?2AX 23 AX 2m4k心Xk2Xk3,.Ax kmA列总和BB2员.Bm其 中:X 是因素A 为水平i,因素B 为水平/时的观察值,lJ J4=1,2,是因素A 在,水平下的所有观察值的总7=1和,鸟二x (j=l,2,加)是因素3在 j水平下的所有观察值/=1的总和。A.=-Y X:=4:因素A 在,水平下
22、的平均值;m mkRB.=X.=-因素8 在/水平下的平均值;j V 1 Ji=l Kk rn k mT=:是所有观察值的总和;i=j=l i=l y=l k m Tx=y y x =:是所有观察值的平均值;N IJ NN =km-是所有观测值的总数。双因素的方差分析问题实际上也是一个假设检验问题。对于无交互影响的双因素方差分析其方法和步骤如下:1 )形成假设由于两因素相互独立,因此可以分别对每一个因素进行检验。对于因素A:“o :因素A的各个水平的影响无显著差异.乩:因素A的各种水平的影响有显著差异.对于因素8:”:因素8的各种水平的影响无显著差异.乩:因素3的各种水平的影响有显著差异.2)
23、进行离差平方和的分解k?SST=Z(X 厂订f=l j=k m 7=Z (x广 4 一 瓦 +反)+(4-又)+(瓦 一 刀)i=l j=l上式展开式中三个二倍乘积项均为零。我们令k m _ _ _ 2SSE=Z Z(X 4-国+又)一1=1 J=1SSA=m (A.反 yZ=1SSB=k-BJ-X)闫于是就有 SST=SSA+SSB+SSE oS S T 的自由度为(N 1),S S A 和S S B 的自由度分别为(K l)和(M 1),而S S E 的自由度为:(N-1)-(K-1)-(M-1)=N-K-M +1=(K-1)(M-1)3)编制方差分析表,进行尸检验用方差分解式所得到的S
24、S A、S S B 和S S E 除以各自的自由度,就得到各自相应的均方差,然后与单因素方差分析时一样,我们可以得到无交互影响时双因素方差分析表如下:表5 双因素无交互影响时的方差分析表方差来源离差平方和自由度均方差统计检验量F因素ASSAK-MSAFA=MSA/MSE因素8SSBMMSBFB=MSB/MSE误差SSEMSE总方差SSTN-l根据方差分析表计算得到乙和金以后 根据问题的显著性水平a,查 表 得 到%(k-1)Q-中 加-1)。于是我们可以分别检验因素 A 和 3 的 影 响 是 否 显 著。对 于 因 素 A而 言,若工工(4-1),(4-1)(机-1).我们就拒绝关于因素A
25、的原假设.说明因素A 对结果有显著的影响。否 则,就接受原假设,说明因素A 对 结 果 没 有 显 著 的 影 响。对 于 因 素 8而 言,若户(4-1)(机-1),我们就拒绝关于因素3的原假设,说明因素B 对结果有显著的影响。否 则,就接受原假设,说明因素3对结果没有显著的影响。2 有交互作用的两因素方差分析前面假定因素A 与因素8 之间相互独立,不存在相互影响,但有时两个因素会产生交互作用,从而使因素A的某些水平与因素8的另一些水平相结合时对结果产生更大的影响。对于有交互作用的两因素之间方差分析的步骤几乎与前一种情形一样,不同的是当两因素之间存在交互作用时情形,先要剔除交互作用的影响,因
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 概率 统计 基础知识
限制150内