生物统计第七章拟合优度检验精.ppt

资源ID：73436337 资源大小：6.14MB 全文页数：81页
资源格式： PPT 下载积分：18金币

快捷下载

会员登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要18金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

生物统计第七章拟合优度检验精.ppt

生物统计第七章拟合优度检验第1页，本讲稿共81页一、一般原理（一）什么是拟合优度检验？拟合优度检验（goodness of fit test）是用来检验实际观测数据与依照某种假设或模型计算出来的理论数之间的一致性，以便判断该假设或模型是否与观测数相配合。第2页，本讲稿共81页（二）主要内容和注意事项1.主要内容1）一致性检验根据某一假设或模型检验观测数与理论数的一致性。例如：A：判断按照回归方程的预测值与实际值之间的符合程度。B：某一组数据的正态性检验。第3页，本讲稿共81页2）独立性检验根据检验两组数据之间的关联性或差异性来判断事件之间的独立性没有假设和理论值。如：A：遗传学中检验子二代花色分离差异性检验。B：对照和处理之间的差异性检验。第4页，本讲稿共81页2.注意事项1）对上述两种类型的检验均用2检验来实现。注意与显著性检验时的2检验的区别。2）2检验主要应用于次数资料的检验。3）2检验也会出现两种类型错误。第5页，本讲稿共81页K.Pearson根据的定义，根据属性性状资料的分布，推导出用于次数资料分析的公式上式中O为观察次数，E为理论次数，自由度为df.（三）2统计量的计算第6页，本讲稿共81页卡方分布图7-1 几个自由度的概率分布密度曲线第7页，本讲稿共81页由于分布是连续性的分布，而次数资料则是间断性的，所以用上式计得的值总是偏大，尤其当自由度df=1时，这种偏差会较大，故在计算时需要用的连续性矫正公式：第8页，本讲稿共81页当自由度大于1时，这时，可不作连续性矫正，但要求各组内的理论次数不小于5。若某组的理论次数小于5，则应把它与其相邻的一组或几组合并，直到理论次数大于5为止。第9页，本讲稿共81页（三）拟合优度检验的一般程序1.分组2.计算理论值3.估计参数4.判断理论数的数目5.计算自由度：df=k-1-6.假设7.计算统计量，作出判断第10页，本讲稿共81页四、适合性检验检验实得次数资料的次数与假设的理论次数是否相互符合的检验称为适合性检验。在适合性检验中，理论次数和自由度的计算：Ei=npidf=k-m第11页，本讲稿共81页在适合性检验中，无效假设为H0：实际观察的属性类别分配符合已知属性类别分配的理论或学说；备择假设为HA：实际观察的属性类别分配不符合已知属性类别分配的理论或学说。并在无效假设成立的条件下，按已知属性类别分配的理论或学说计算各属性类别的理论次数。第12页，本讲稿共81页因所计算得的各个属性类别理论次数的总和应等于各个属性类别实际观察次数的总和，即独立的理论次数的个数等于属性类别分类数减1。也就是说，适合性检验的自由度等于属性类别分类数减1。第13页，本讲稿共81页（一）适合性检验的基本步骤1、建立假设。即无效假设和备择假设：H0:符合假设的总体分布，HA:不符合假设的总体分布。2 确定显著水平3 计算。在无效假设为正确的前提下，计算值。与查表得的值进行比较4 结论，如果接受H0,否定HA第14页，本讲稿共81页（二）次数资料的适合性检验（二）次数资料的适合性检验1、k=2组次数资料的适合性检验组次数资料的适合性检验这种资料仅分成2组，即k=2，其总体分布为二项总体分布。无效假设H0:符合假设的二项分布，对HA：部符合假设的二项分布。由于受到理论总次数等于实际总次数这一条件的限制，即Ei=N,因而约束条件数m=1,自由度df=2-1=1.故需用矫正公式。第15页，本讲稿共81页例8.1 海棠种子发芽试验的结果列于下表，试检验该样本所属的二项总体与假设发芽率p=0.90的二项总体分布之间有无显著差异第16页，本讲稿共81页分组分组实际次数实际次数理论概率理论概率理论次数理论次数种子发芽种子发芽种子不发芽种子不发芽352480.900.1036040合计合计4001.00400第17页，本讲稿共81页（1）直接法统统计计假假设设：H0：符合假设p=0.90的二项分布；HA:不符合假设p=0.90的二项分布显著水平显著水平：=0.05检验计算检验计算：=1.5625第18页，本讲稿共81页df=2-1=1查分布表得右尾临界值 =3.84 推断：推断：因因 =1.5625 =3.84故接受H0,否定HA,即该批海棠种子发芽试验的结果所属的二项分布与假设发芽率p=0.90的二项总体之间无显著性差异。第19页，本讲稿共81页（2）简算法对于k=2 的次数资料O1和O2,欲检验其是否属于r:s的总体二项分布时，可以省略理论次数的计算，简化公式第20页，本讲稿共81页如本例 =1.5625 第21页，本讲稿共81页2、k3组次数资料的适合性检验组次数资料的适合性检验这种资料分3组以上，即k3，其总体分布为多项分布。无效假设H0：符合假设的多项分布。HA:不符合假设的多项分布。这种分布亦受理论次数等于实际总次数即E=N这一条件的限制。自由度df=k-12，不用矫正公式。第22页，本讲稿共81页例8.2 用乳白色和红色金鱼草杂交F2代的实验结果列于下表。试检验该样本所属的总体分布与假设理论比率为 1：2：1的多项分布之间有无显著性差异。第23页，本讲稿共81页分组分组实际次数实际次数理论概率理论概率理论次数理论次数乳白色乳白色粉红色粉红色红色红色2555200.250.500.25255025合计合计1001.00100第24页，本讲稿共81页（1）直接法统计假设：H0符合1：2：1 对HA 不符合1：2：2显著水平=0.05计算：=1.5df=k-1=2第25页，本讲稿共81页查表得右尾检验临界值 =5.99推断：因 =1.5 =5.99 故接受H0,否定HA,即金鱼草杂交F2代的试验结果所属的总体分布与假设理论比率为1：2：1的多项分布之间无显著差异。第26页，本讲稿共81页2）简算法对于k3的次数资料，有下式简化计算式中oi为实际次数，n为总次数，pi为理论概率第27页，本讲稿共81页本例=1.5第28页，本讲稿共81页例：检验200头大白猪仔猪一月窝重的资料是否服从正态分布第29页，本讲稿共81页1、先将资料（原始数据略）整理成次数分布表，组限、组中值、各组的次数列于表7-7的（1）、（2）、（3）栏，再将各组上限列于第（4）栏中。2、计算各组组上限与均数（=65.6kg）之差，列于第（5）栏。3、计算校正标准差Sc。由于由分组资料求得的标准差较不分组时所得标准差为大，故需作校正。第30页，本讲稿共81页4、依公式求各组上限的正态离差，列入第6栏。如第一组5、设该资料服从正态分布，依u值查正态分布表得各组段的累计概率（a），列入第（7）栏。如当u=-2.57时，a=0.0051，u=0.29时，a=0.6141。6、求出每一组段的概率，列入第（8）栏。由下一组段的累加概率减去本组段的累加概率而得。如8 组段的概率为0.0136-0.0051=0.0085。第31页，本讲稿共81页7、以总数n=200头乘以各组概率便得理论次数，列入第（9）栏。凡理论值小于5者应加以合并。本例前三组与后三组分别合并。合并后的实际次数与理论次数分别为10与6.44、7与8.72，见第(3)与第（9）栏。8、求各组2值，列入第（10）栏。9、确定自由度。这里是因为求理论次数时用去均数，标准差与总次数三个统计量，该例经合并共12个组，故df=12-3=9。第32页，本讲稿共81页10、结论。由df=9查2表得：20.05（9）=16.919，而计算所得的2值为：2=8.7808，因为20.05，表明各组实际次数与由正态分布计算的理论次数差异不显著，可以认为大白猪仔猪一月窝重服从正态分布。第33页，本讲稿共81页例：用显微镜检查某样品内结核菌的数目，对某些视野内各小方格的结核菌数计数，然后按不同的结核菌数目把格子分类，记录每类的格子数。其结果见表79第（1）、（2）栏。试检验结核菌数是否服从波松分布。第34页，本讲稿共81页是波松分布所依赖的唯一参数。值愈小分布愈偏倚，随着的增大，分布趋于对称(如图4-11所示)。当=20时分布接近于正态分布；当=50时，可以认为波松分布呈正态分布。所以在实际工作中，当20时就可以用正态分布来近似地处理波松分布的问题。第35页，本讲稿共81页1.计算理论概率设结核菌数服从波松分布P（），其概率计算公式为：其中为平均数，且等于方差2。此时因未知，可利用样本平均数来估计。利用加权法求样本平均数为：则：各项理论概率为计算结果列于第（3）栏第36页，本讲稿共81页2.计算理论次数将总次数N=118乘以各组的理论概率即得各组理论次数T。计算结果列于第（4）栏。由于表后4组的理论次数小于5，故将后4组与第7组合并为一组，合并后的实际格子数为8，理论格子数为9.5818。3.计算2值根据表79第（5）栏的数据可得2值为：第37页，本讲稿共81页因为此例经并组后的分组数为7；计算理论次数利用了样本平均数和总次数，所以自由度为7-2=5。当df=5时，查2值表得：20.05（5）=11.07，因为20.05，表明结核菌的各实际格子数与根据波松分布计算出的理论格子数差异不显著，可以认为结核菌数服从波松分布。第38页，本讲稿共81页注意事项：计算自由度时的的数目确定！df=n-1-第39页，本讲稿共81页五、独立性检验（一）独立性检验根据次数资料判断两类因子彼此相关或相互独立的假设检验就是独立性检验。独立性检验实际上是基于次数资料对子因子间相关性的研究。第40页，本讲稿共81页（二）两项分组次数资料的独立性检验这种资料按两个方向分组，按行分为r个组，按列分为c个组，故称为两项分组次数资料。实得的两向分组资料的次数与假设理论次数间是否相互独立的检验称为独立性检验。可以对任意二维的假设分布进行检验。第41页，本讲稿共81页理论次数和自由度的计算Eij=npij=n =df=rc-r-c+1=(r-1)(c-1)=式中r为行区组；c为列区组；ri 为行合计次数；cj为列合计次数；n为总次数；pij为二维联合概率pij=pipj，这是按独立事件概率的乘法原理计算的。第42页，本讲稿共81页1.22组次数资料的独立性检验这种资料按行分为2组，即r=2；按列分为2组，即c=2；资料的一般形式如下表，其自由度df=(2-1)(2-1)=1,需要用矫正公式。第43页，本讲稿共81页其中Aij为实际观察次数，Tij为理论次数。第44页，本讲稿共81页例.试验用80头小白鼠检验某种疫苗是否有预防效果。结果是注射疫苗的44头中有12头发病，32头未发病；未注射的36头中有22头发病，14头未发病，问该疫苗是否有预防效果？第45页，本讲稿共81页第46页，本讲稿共81页（1）提出无效假设与备择假设 H0：发病与否和注射疫苗无关，即二因子相互独立。HA：发病与否和注射疫苗有关，即二因子彼此相关。（2）计算理论次数根据二因子相互独立的假设，由样本数据计算出各个理论次数。二因子相互独立，就是说注射疫苗与否不影响发病率。也就是说注射组与未注射组的理论发病率应当相同，均应等于总发病率34/80=0.425。依此计算出各个理论次数如下：第47页，本讲稿共81页注射组的理论发病数：T11=4434/80=18.7注射组的理论未发病数：T12=4446/80=25.3，或：T12=44-18.7=25.3；未注射组的理论发病数：T21=3634/80=15.3，或T21=34-18.7=15.3；未注射组的理论未发病数：T22=3646/80=20.7，或T22=36-15.3=20.7。第48页，本讲稿共81页从上述各理论次数Tij的计算可以看到，理论次数的计算利用了行、列总和，总总和，4个理论次数仅有一个是独立的。表中括号内的数据为相应的理论次数。第49页，本讲稿共81页计算值将表中的实际次数、理论次数代入公式：+第50页，本讲稿共81页5、由自由度df=1查临界2值，作出统计推断因为20.01（1）=6.63，而 =7.94420.01（1），P0.01，否定H0，接受HA，表明发病率与是否注射疫苗极显著相关，这里表现为注射组发病率极显著低于未注射组，说明该疫苗是有预防效果的。第51页，本讲稿共81页2 值简算法在（7-6）式中，不需要先计算理论次数，直接利用实际观察次数Aij，行、列总和Ti.、T.j和总总和T.进行计算简便，且误差小。第52页，本讲稿共81页2.2c列联表的独立性检验 2c列联表是行因子的属性类别数为2，列因子的属性类别数为c（c3）的列联表。其自由度df=(2-1)(c-1)，因为c3，所以自由度大于2，在进行2检验时，不需作连续性矫正。2c表的一般形式见下表第53页，本讲稿共81页（i=1，2；j=1，2，c）为实际观察次数。第54页，本讲稿共81页例.在甲、乙两地进行某种作物生长情况调查，将体型按优、良、中、劣四个等级分类，其结果见下表，问两地该作物生长情况是否相同。第55页，本讲稿共81页1.提出无效假设与备择假设 H0：作物生长情况与地区无关，即两地作物生长情况与相同。HA：作物生长情况与与地区有关，即作物生长情况与不同。第56页，本讲稿共81页2.计算各个理论次数，并填在各观察次数后的括号中计算方法与22表类似，即根据两地水牛体型构成比相同的假设计算。如优等组中，甲地、乙地的理论次数按理论比率20/135计算；良等组中甲地、乙地的理论次数按理论比率15/135计算；中等、劣等组中甲地、乙地的理论次数分别按理论比率80/135和20/135计算。甲地优等组理论次数：T11=9020/135=13.3，乙地优等组理论次数：T21=4520/135=6.7，或T21=20-13.3=6.7；其余各个理论次数的计算类似。第57页，本讲稿共81页3.计算计算2值4.由自由度df=3查临界2值，作出统计推断因为20.05（3）=7.815，而2=7.5820.05，不能否定H0,可以认为甲、乙该作物生长情况相同。本例同样可以利用本例同样可以利用 2值简算法。值简算法。第58页，本讲稿共81页生物学研究中有时需将数量性状资料以等级分类这些由数量性状资料转化为质量性状的次数资料检验，也可用2检验。例.分别统计了A、B两个品种各67头试验用小白鼠的产仔情况，结果见下表，问A、B两品种的产仔构成比是否相同？第59页，本讲稿共81页 1、提出无效假设与备择假设H0：A、B两个品种产仔数分级构成比相同。HA：A、B两个品种产仔数分级构成比不同。2、计算2值用简化公式计算为：3、由自由度df=(2-1)(3-1)=2查临界2值，作出统计推断因为20.05（2）=9.21，2 20.01，P0.01，所以否定H0，接受HA，表明A、B两品种产仔数构成比差异极显著。第60页，本讲稿共81页注意本例中A、B两品种产仔数构成比差异极显著。但是无法具体确定分级构成比差异在那样的等级。需用2检验的再分割法。第61页，本讲稿共81页2检验的再分割法（1）先对两个品种产仔数在9头以下和1012头进行2检验，分割后的情况见下表：第62页，本讲稿共81页利用简化公式（7-7）计算21值为：由df1=2-1=1，查2值表得：20.05（1）=3.841，因为210.05，表明这两个品种的产仔数在9头以下和1012头这两个级别内的比率差异不显著。第63页，本讲稿共81页（2）对产仔数在13头以上组与其他合并组（即9头以下和1012头两个组的合并）进行2检验，分割后见下表：第64页，本讲稿共81页简算法计算2值由df2=2-1=1，查2值表得：20.05（1）=3.846，20.01（1）=6.63，因为2220.01（1），P2），列因子的属性类别数为c(c2)的列联表。其一般形式见表第67页，本讲稿共81页rc列联表各个理论次数的计算方法与上述（22）、（2c）表适合性检验类似。但一般用简化公式计算2值，其公式为：第68页，本讲稿共81页【例】对三组小白鼠（每组39头）分别喂给不同的饲料，各组发病次数统计如下表，问发病次数的构成比与所喂饲料是否有关？第69页，本讲稿共81页检验步骤如下：1、提出无效假设与备择假设H0：发病次数的构成比与饲料种类无关，即二者相互独立。HA：发病次数的构成比与饲料种类有关，即二者彼此独立。2、计算理论次数对于理论次数小于5者，将相邻几个组加以合并（见下表），合并后的各组的理论次数均大于5。第70页，本讲稿共81页3、计算2值利用公式计算2值，得：第71页，本讲稿共81页4、查临界2值，进行统计推断由自由度df=(4-1)(3-1)=6，查临界2值得：20.05（6）=12.9，因为计算所得的20.05，不能否定H0，可以认为小白鼠的发病次数的构成比与饲料种类相互独立，即用三种不同的饲料饲喂奶牛，各组小白鼠发病次数的构成比相同。第72页，本讲稿共81页【例】用同一方法对甲、乙、丙三种试管做灭菌试验，每种试管又分为完好和破碎两组，32组次数资料列于下表，试做独立性检验第73页，本讲稿共81页分组分组完好数完好数破碎数破碎数行次数行次数甲种试管甲种试管乙种试管乙种试管丙种试管丙种试管898（908）914（908）912（908）102（92）86（92）88（92）100010001000列次数列次数27242763000第74页，本讲稿共81页统计假设 H0 独立 HA 不独立显著水平=0.05计算直接法：=1.82第75页，本讲稿共81页df=(r-1)(c-1)=2查表得右尾检验临界值 =5.99推断：因 1.82 =5.99，接受H0,否定HA,即甲、乙、丙三种试管在完好数和破碎数的总体分布之间无显著差异。第76页，本讲稿共81页（2）简算法=1.82第77页，本讲稿共81页公式名称公式名称适合性检验适合性检验独立性检验独立性检验统计假设统计假设理论次数理论次数自由度自由度df=1基本公式基本公式df=1简化公式简化公式否定区域否定区域df2基本公式基本公式df2简化公式简化公式否定区域否定区域H0:符合符合HA不符合不符合Ei=npidf=k-mH0:独立独立HA不独立不独立Eij=npijdf=(r-1)(c-1)第78页，本讲稿共81页六、独立性检验与适合性检验的区别1.目的不同2.独立性检验的次数资料是按两因子属性类别进行归组。根据两因子属性类别数的不同而构成22、2c、rc列联表（r为行因子的属性类别数，c为列因子的属性类别数）。而适合性检验只按某一因子的属性类别将如性别、表现型等次数资料归组。第79页，本讲稿共81页3.适合性检验按已知的属性分类理论或学说计算理论次数。独立性检验在计算理论次数时没有现成的理论或学说可资利用，理论次数是在两因子相互独立的假设下进行计算。第80页，本讲稿共81页4.在适合性检验中确定自由度时，只有一个约束条件：各理论次数之和等于各实际次数之和，自由度为属性类别数减1。而在rc列联表的独立性检验中，共有rc个理论次数，但受到以下条件的约束：1、rc个理论次数的总和等于rc个实际次数的总和；2、r个横行中的每一个横行理论次数总和等于该行实际次数的总和。但由于r个横行实际次数之和的总和应等于rc个实际次数之和，因而独立的行约束条件只有r-1个；3、类似地，独立的列约束条件有c-1个。因而在进行独立性检验时，自由度为rc-1-(r-1)-(c-1)=(r-1)(c-1)，即等于（横行属性类别数-1）（直列属性类别数-1）。第81页，本讲稿共81页

注意事项

本文（生物统计第七章拟合优度检验精.ppt）为本站会员（石***）主动上传，淘文阁 - 分享文档赚钱的网站仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知淘文阁 - 分享文档赚钱的网站（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。

生物统计第七章 拟合优度检验精.ppt

生物统计第七章 拟合优度检验精.ppt

生物统计第七章拟合优度检验精.ppt

生物统计第七章拟合优度检验精.ppt