统计推断原理精品文稿.ppt
《统计推断原理精品文稿.ppt》由会员分享,可在线阅读,更多相关《统计推断原理精品文稿.ppt(58页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、统计推断原理第1页,本讲稿共58页本章主要介绍统计推断的意义、原理,统计推断与抽样分布的关系,统计推断的思路和一般步骤,两尾检验和一尾检验,统计推断可能犯的两类错误及防止方法第2页,本讲稿共58页生物统计学的一个重要任务是要生物统计学的一个重要任务是要知道知道所研究总体的特征值所研究总体的特征值(参数)(参数)但是总体特征值一般难以知道:但是总体特征值一般难以知道:一方面是由于总体很一方面是由于总体很大大,即,即N 大,有时是大,有时是无限无限的(无限的(无限总体,总体,N ),因此不可能逐一调查清楚),因此不可能逐一调查清楚另一方面,有时所要研究的总体目前并不存在,或者只另一方面,有时所要研
2、究的总体目前并不存在,或者只能说是能说是虚拟虚拟存在(总体是虚的),无法进行调查存在(总体是虚的),无法进行调查作某一试验时更是如此作某一试验时更是如此 第3页,本讲稿共58页但不管是何种类型的总体,我们总是可以通过随机抽样但不管是何种类型的总体,我们总是可以通过随机抽样(抽样调查)的方法获得该总体的随机样本(抽样调查)的方法获得该总体的随机样本通过通过统计推断统计推断来定性或定量地分析所研究总体的特征值来定性或定量地分析所研究总体的特征值统计推断就是用统计推断就是用样本的特征值样本的特征值(统计量)在一定的(统计量)在一定的概率概率保证保证下下推断推断相应相应总体的特征值总体的特征值(参数)
3、(参数)即:随机抽样即:随机抽样 随机样本随机样本 随机样本特征值随机样本特征值 总体特征值总体特征值 (统计量)(统计量)(参数)(参数)计算估计第4页,本讲稿共58页第一节第一节 统计推断的意义和内容统计推断的意义和内容第5页,本讲稿共58页所谓统计推断(所谓统计推断(statistical inference),就是),就是根据统计量根据统计量的分布和概率理论,由样本统计量来推断总体的参数的分布和概率理论,由样本统计量来推断总体的参数实际工作中,一次试验或一次调查所获得的数据资料,通常实际工作中,一次试验或一次调查所获得的数据资料,通常是一个样本的结果,而我们真正需要知道的是抽取样本的是
4、一个样本的结果,而我们真正需要知道的是抽取样本的总体特征总体特征第6页,本讲稿共58页即:统计分析的结论是针对即:统计分析的结论是针对总体参数总体参数而言的,因此,统而言的,因此,统计推断是科研工作中一个十分重要的工具,对试验计推断是科研工作中一个十分重要的工具,对试验设计也有很大的指导意义设计也有很大的指导意义统计推断包括:统计推断包括:统计假设检验(统计假设检验(hypothesis test)参数估计(参数估计(parametric estimation)这样两部分内容这样两部分内容 第7页,本讲稿共58页统计假设检验又称显著性检验(统计假设检验又称显著性检验(significance
5、test)其原理和过程是:其原理和过程是:对未知的或不完全知道的总体参数提出一些对未知的或不完全知道的总体参数提出一些假设假设(hypothesis 这些假设通常构成完全事件系),然后在某这些假设通常构成完全事件系),然后在某一一基本假设基本假设的基础上,的基础上,计算计算样本的统计量,并分析这样本的统计量,并分析这一统计量的一统计量的分布规律分布规律最后根据这一统计量作出在一定概率意义下应当最后根据这一统计量作出在一定概率意义下应当接受接受何种假设的结论何种假设的结论第8页,本讲稿共58页这里有一个这里有一个定量定量转化为转化为定性定性的过程:的过程:经计算所得到的统计量一般是呈经计算所得到
6、的统计量一般是呈连续分布连续分布的(定量),但的(定量),但最后的检验结论只有两种:接受最后的检验结论只有两种:接受何种假设何种假设(定性)(定性)即:存在一个即:存在一个临界值临界值,统计量未达到临界值,应当接受一,统计量未达到临界值,应当接受一种假设种假设统计量超过临界值,应当接受另一种假设统计量超过临界值,应当接受另一种假设第9页,本讲稿共58页参数估计包括两部分内容:参数估计包括两部分内容:参数的参数的点估计点估计(point estimation)参数的参数的区间估计区间估计(interval estimation)第10页,本讲稿共58页第二节第二节 统计量的抽样分布与统计推断的统
7、计量的抽样分布与统计推断的关系关系第11页,本讲稿共58页前面已经讲过,由样本的统计量组成的总体分布(抽样前面已经讲过,由样本的统计量组成的总体分布(抽样分布)其参数与原总体的相应参数有着很密切的分布)其参数与原总体的相应参数有着很密切的关系关系同时抽样的结果还告诉我们,样本统计量与总体相应参数同时抽样的结果还告诉我们,样本统计量与总体相应参数之间存在着一定的之间存在着一定的抽样误差抽样误差因此,用样本来推断总体的准确性与抽样误差的因此,用样本来推断总体的准确性与抽样误差的大小大小有关,有关,抽样误差的大小用抽样误差的大小用标准误标准误来衡量来衡量第12页,本讲稿共58页标准误不仅反映了抽样误
8、差的标准误不仅反映了抽样误差的大小大小,而且反映了样本统,而且反映了样本统计量与总体相应参数间的计量与总体相应参数间的差异程度差异程度也反映了用某个样本统计量来估计总体参数的也反映了用某个样本统计量来估计总体参数的准确程度准确程度第13页,本讲稿共58页第三节第三节 统计假设检验统计假设检验第14页,本讲稿共58页一、统计假设检验的基本思路一、统计假设检验的基本思路为了说明问题,我们举几个例子进行讨论为了说明问题,我们举几个例子进行讨论例例1、随机抽取一批小鼠,随机分为两组,一组注射催产素,一组、随机抽取一批小鼠,随机分为两组,一组注射催产素,一组作为对照(即不注射催产素),半小时后检查这两组
9、小鼠的血作为对照(即不注射催产素),半小时后检查这两组小鼠的血糖含量,得:注射催产素组为:糖含量,得:注射催产素组为:=106.88 对照组平均值为:对照组平均值为:=109.17 同时我们也发现,同一组内的小鼠其血糖含量也是不同的同时我们也发现,同一组内的小鼠其血糖含量也是不同的两组小鼠的平均血糖含量之间有个差:两组小鼠的平均血糖含量之间有个差:那么我们是否可以认为这个差值就是由于催产素注射与否的结果?显然那么我们是否可以认为这个差值就是由于催产素注射与否的结果?显然仅凭这一差值仅凭这一差值-2.29 是不能说明问题的是不能说明问题的第15页,本讲稿共58页例例2、比较不同日龄(、比较不同日
10、龄(d)正常白化小鼠血浆含)正常白化小鼠血浆含 N 量,得如下一批数据:量,得如下一批数据:日龄日龄 血浆含血浆含 N 量量35d()0.98 0.83 0.94 0.90 0.99 0.92 0.87 0.86 0.8190d()1.00 1.08 0.97 0.93 1.03 0.94 1.11 1.10对这两组数据进行计算,得:对这两组数据进行计算,得:35d 组小鼠的组小鼠的90d 组小鼠的组小鼠的发现两组小鼠的血浆含发现两组小鼠的血浆含 N 量有差异:量有差异:那么我们能否仅凭这一差异就认为日龄的不同,其血浆含那么我们能否仅凭这一差异就认为日龄的不同,其血浆含 N量就量就有差异呢?有
11、差异呢?35d 的小鼠中也有含的小鼠中也有含 N 量高的(如量高的(如 0.99 0.98 0.94)90d 的小鼠中也有含的小鼠中也有含 N 量低的(如量低的(如 0.93 0.94)即:同一组内的小鼠其血浆含即:同一组内的小鼠其血浆含 N 量之间也是有差异的量之间也是有差异的第16页,本讲稿共58页例例3、某药厂宣传说该厂生产的治鱼链球菌病的新药其疗效为、某药厂宣传说该厂生产的治鱼链球菌病的新药其疗效为 90%,我,我们能轻易相信吗?是否需要做一个试验?如果试验结果是们能轻易相信吗?是否需要做一个试验?如果试验结果是 100 尾鱼尾鱼仅康复了仅康复了 88 尾(尾(p=0.88),我们就能
12、对该厂的宣传效果进行否),我们就能对该厂的宣传效果进行否定吗?定吗?如果我们再做一次呢?我们能一直不断地做下去吗?如果我们再做一次呢?我们能一直不断地做下去吗?例例4、试验某种治疗鱼竖鳞病的新药,将其与常规药物相比较,对、试验某种治疗鱼竖鳞病的新药,将其与常规药物相比较,对 400 尾鱼施用常规药物,康复了尾鱼施用常规药物,康复了 340 尾(康复率尾(康复率 ),相应),相应的,对的,对 500 尾鱼施用新药,有尾鱼施用新药,有 435 尾康复了(康复率尾康复了(康复率 ),我们是否就可以认为新药一定好于常规药物?),我们是否就可以认为新药一定好于常规药物?第17页,本讲稿共58页以上几个例
13、题提醒我们,有以下几个以上几个例题提醒我们,有以下几个问题问题是需要我们加以是需要我们加以注意的:注意的:a.我们不可能用我们不可能用总体总体来做试验,各方面的条件不许可我们来做试验,各方面的条件不许可我们这样做,也没有必要这样做这样做,也没有必要这样做b.我们只能用我们只能用样本样本来做试验,且由于时间、经费、人力等因来做试验,且由于时间、经费、人力等因素的限制,一般同一个试验只能做一次,通过素的限制,一般同一个试验只能做一次,通过一次试验一次试验就就希望能得到一个比较可靠的结果希望能得到一个比较可靠的结果c.试验结束以后,用试验结束以后,用什么什么来作为检验的对象?那就是来作为检验的对象?
14、那就是样本样本的的平均值平均值:第18页,本讲稿共58页用样本的平均值来检验总体平均值用样本的平均值来检验总体平均值用两个样本平均值的差异来检验相应两个总体平均值用两个样本平均值的差异来检验相应两个总体平均值的差异的差异用样本平均值作为检验对象的理由是:用样本平均值作为检验对象的理由是:1、我们已经证明了、我们已经证明了 为为最小最小,这说明样本平均值,这说明样本平均值 与各变量与各变量 的差异最小,因此的差异最小,因此 是样本资料最好的是样本资料最好的代代表表2、在抽样分布中,我们已经证明了样本平均值、在抽样分布中,我们已经证明了样本平均值 是总是总体平均值体平均值 的的无偏估计量无偏估计量
15、,即,即 的数学期望是的数学期望是3、中心极限定理告诉我们:样本平均值、中心极限定理告诉我们:样本平均值 服从或近服从或近似服从似服从正态分布正态分布 第19页,本讲稿共58页上述三点,说明样本平均值上述三点,说明样本平均值 可以作为检验的对象可以作为检验的对象但是我们又不能但是我们又不能仅仅凭样本平均值的大小就贸然下结论,认凭样本平均值的大小就贸然下结论,认为试验有效或试验无效为试验有效或试验无效我们必须通过我们必须通过检验检验(test)为什么?为什么?因为任何一次试验都存在误差,即同一组内的观测值都因为任何一次试验都存在误差,即同一组内的观测值都不会完全相同,在正常试验条件下,同一组内的
16、数据不会完全相同,在正常试验条件下,同一组内的数据之间的差异,一般就是误差之间的差异,一般就是误差第20页,本讲稿共58页每一个观测值都是试验的表观效应,每一个数据都可以分成每一个观测值都是试验的表观效应,每一个数据都可以分成两个部分,即试验(处理)效应和误差(各种偶然因素引两个部分,即试验(处理)效应和误差(各种偶然因素引起的差异)起的差异)同一总体中的个体所受到的各种偶然因素是不等的同一总体中的个体所受到的各种偶然因素是不等的每一个数据中所包含的偶然因素是独立的每一个数据中所包含的偶然因素是独立的就总体而言,这种偶然因素的影响是相互抵消的就总体而言,这种偶然因素的影响是相互抵消的用统计学自
17、己的语言来讲,就是:用统计学自己的语言来讲,就是:每一个观测值都有自己每一个观测值都有自己独立的试验误差独立的试验误差第21页,本讲稿共58页因此,我们有以下公式存在:因此,我们有以下公式存在:观测值(表观效应)观测值(表观效应)=处理效应处理效应+误差效应误差效应 即:即:进行样本平均,得:进行样本平均,得:同样,两个样本平均值的差异也可以这样分解:同样,两个样本平均值的差异也可以这样分解:实际上,我们感兴趣的、即我们关心的重点是:实际上,我们感兴趣的、即我们关心的重点是:我们试验所得到的表观效应主要是由我们试验所得到的表观效应主要是由处理效应处理效应所引起、所引起、还是由还是由抽样误差抽样
18、误差所引起?应当进行所引起?应当进行权衡权衡第22页,本讲稿共58页结合上面的实例:结合上面的实例:两组小鼠的平均血糖含量之间的差异是否的确由催产素两组小鼠的平均血糖含量之间的差异是否的确由催产素的注射与否所引起?的注射与否所引起?不同日龄正常白化小鼠血浆含不同日龄正常白化小鼠血浆含N量的差异是否的确由于小量的差异是否的确由于小鼠的日龄不同而引起?鼠的日龄不同而引起?实际试验中鱼链球菌病的治愈率与厂家宣传之间的差异实际试验中鱼链球菌病的治愈率与厂家宣传之间的差异的确是真实差异吗?即厂家是否真的言过其实了?还的确是真实差异吗?即厂家是否真的言过其实了?还是的确是试验时的抽样误差?是的确是试验时的
19、抽样误差?新药和常规药之间的差异是否的确由偶然因素所引起?新药和常规药之间的差异是否的确由偶然因素所引起?第23页,本讲稿共58页为了使得这种比较和权衡所得到的结论更可靠、更科为了使得这种比较和权衡所得到的结论更可靠、更科学、更合理、更可信、更正确,必须对试验和统计学、更合理、更可信、更正确,必须对试验和统计分析提出如下要求:分析提出如下要求:1、合理合理地进行试验设计,地进行试验设计,正确正确地进行试验操作,地进行试验操作,无误无误地进行抽样,地进行抽样,仔细仔细地进行记录,地进行记录,认真认真地进行校对,以地进行校对,以有效有效地降低试验误差,尽可能地降低试验误差,尽可能避免避免系统误差,
20、系统误差,杜绝杜绝人人为错误,使样本真正代表总体,对试验效应和试验误为错误,使样本真正代表总体,对试验效应和试验误差作出差作出无偏无偏的估计的估计2、合理合理地、地、正确正确地分析试验结果,以得出有关总体参数地分析试验结果,以得出有关总体参数假设的统计推断假设的统计推断第24页,本讲稿共58页二二 统计假设检验的一般步骤统计假设检验的一般步骤我们以大样本资料或样本虽小但总体方差为已知的情况(我们以大样本资料或样本虽小但总体方差为已知的情况(u-test)来说明统计假设检验的一般步骤)来说明统计假设检验的一般步骤统计假设检验的基本原理和思路是这样的:统计假设检验的基本原理和思路是这样的:首先首先
21、根据具体的试验目的提出一个假设根据具体的试验目的提出一个假设(hypothesis)(然后在假定这一假设成立(或正确)的前提下进行试验,(然后在假定这一假设成立(或正确)的前提下进行试验,并取得数据)并取得数据)然后然后同样在这一假设成立(或正确)的前提下,对这些数据同样在这一假设成立(或正确)的前提下,对这些数据或资料进行统计分析,获得该假设成立(或正确)的概率或资料进行统计分析,获得该假设成立(或正确)的概率值值第25页,本讲稿共58页最后最后根据所获得概率的大小判断所作假设是否成立:根据所获得概率的大小判断所作假设是否成立:a、如果所得概率较大,就表明我们、如果所得概率较大,就表明我们没
22、有足够的理由来没有足够的理由来否定否定所作的假设,即我们必须接受这一假设;所作的假设,即我们必须接受这一假设;b、如果所得概率很小,就表示这一假设不大可能成立,、如果所得概率很小,就表示这一假设不大可能成立,应予以否定,从而接受这一假设的对立假设,即应予以否定,从而接受这一假设的对立假设,即接受接受备择假设备择假设上面的上面的 a 和和 b 必有一条被否定,另一条被接受必有一条被否定,另一条被接受第26页,本讲稿共58页尽管所计算的概率值是连续变化的,但我们往往设定一个尽管所计算的概率值是连续变化的,但我们往往设定一个概率概率临界值临界值(如(如 p=0.05、p=0.01等等),根据所得概等
23、等),根据所得概率值是大于率值是大于 p=0.05、还是小于还是小于 p=0.05来决定所作假来决定所作假设是否成立(或正确)设是否成立(或正确)因此,概率值是连续分布的(定量),但假设的接受因此,概率值是连续分布的(定量),但假设的接受与否只有两类(定性)与否只有两类(定性)第27页,本讲稿共58页这里我们首先复习一下这里我们首先复习一下 u 的概念:的概念:在这一式子中,显然在这一式子中,显然 与与 的距离越小,的距离越小,u 值就越小,值就越小,查标准正态分布表,得到的概率值越大,表明查标准正态分布表,得到的概率值越大,表明 出现的概出现的概率越大;反之,率越大;反之,与与 的距离越大,
24、的距离越大,u 值就越大,查标准值就越大,查标准正态分布表,得到的概率值就越小,表明正态分布表,得到的概率值就越小,表明 出现的概率就出现的概率就越小越小当这一概率小到一定程度时,我们就可以认为这一当这一概率小到一定程度时,我们就可以认为这一 似似乎不大可能在一次试验中出现,亦即这一乎不大可能在一次试验中出现,亦即这一 所在总体所在总体的平均值与设定总体的平均值的平均值与设定总体的平均值不等不等,即两个总体,即两个总体不是不是同一个总体同一个总体第28页,本讲稿共58页反之,我们就没有理由认为反之,我们就没有理由认为 所在总体与所设定的总体所在总体与所设定的总体不是同一个总体不是同一个总体在统
25、计检验中所设定的、用以作为资料分析和最终判在统计检验中所设定的、用以作为资料分析和最终判断基础的假设称为无效假设,断基础的假设称为无效假设,无效假设无效假设又称为解消又称为解消假设(假设(null hypothesis),用),用 表示表示第29页,本讲稿共58页所谓无效假设可以这样理解:我们的试验是无效的,即所谓无效假设可以这样理解:我们的试验是无效的,即试验结束以后,所得到的样本平均值并没有超出设定试验结束以后,所得到的样本平均值并没有超出设定的总体范围,即试验后得到的样本平均值其效果不见的总体范围,即试验后得到的样本平均值其效果不见得好于原定的效果,即样本平均值所在总体与原设定得好于原定
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计 推断 原理 精品 文稿
限制150内