总体均数的估计和假设检验.ppt
总体均数的估计和假设检验 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life, there is hope。有生命必有希望。有生命必有希望参数估计 第一节 抽样误差与标准误 第二节 t分布 第三节 总体均数的估计 第一节 抽样误差与标准误 一、抽样研究 医学科学研究多为抽样研究(sampling study),即从研究总体中随机抽取一定数量观察单位作为样本进行研究,通过样本的研究结果来推论总体。一个好的抽样研究可用尽量少的人力、物力、经费和时间获得需要的、符合一定科学要求的结果,并可减少非抽样误差。 二、抽样误差 样本统计量(也称估计值)与总体参数(也称待估值)之间存在差异,这种差异称抽样误差。其有两个特点: 1、它们互不相同,有些样本统计量与总体参数之间差异大,有些差异小;有些为正值,有些为负值。 2、这些差异虽然客观存在,但却未知,因为总体参数的具体值我们往往未知。 样本统计量的标准差称为标准误(standard error)。 三、均数的分布及其标准误 数理统计的中心极限定理和大数定理表明: 从正态总体N(,2)中随机抽取含量为n的样本,其样本均数服从正态分布;即使从偏态总体中随机抽样,当n足够大时(如n30),样本均数也近似正态分布; 从均数为,标准差为的总体中随机抽取含量为n的样本,则样本均数的均数也为,样本均数的标准差为。 样本均数的标准差也称样本均数的标准误(standard error of mean) ,它反映了样本均数间的离散程度, 也反映了样本均数与总体均数间的差异,说明均数抽样误差的大小。 根据数理统计的推导,的计算公式如下: nssnxx, 标准误的大小与标准差成正比,与样本含量n 的平方根成反比。因此增加样本含量,可减小抽样误差。 例4-1 某地随机抽取20岁健康男性20名,求得其血中葡萄糖样本均数=39.5mg/100ml,标准差S=0.69mg/100ml,问其抽样误差是多少? 本例:s=0.69mg/100ml,n=20,将其代入式(4-2),得 即该研究的抽样误差为0.15mg/100ml。 )100/(15. 02069. 0mlmgsx第二节 t 分布 若变量X 服从总体均数为, 总体标准差为的正态分布N(, 2) ,则x服从标准正态分布N(0,1) ,即u 分布。同理,若样本均数服从总体均数为,标准差为x的正态分布N(,2x) , 则xx也服从标准正态分布N(0,1),即u 分布。 在实际工作中,由于x未知,常用 xs 代替,此时xsx服从 t 分布(t-distribution)即: 1,nvsxtxt 分布有如下特征: 单峰型分布,以 0 为中心,左右完全对称;越小,t 值越分散,t分布的峰部越矮而尾部翘得越高; 当逼近时,t 分布逼近 u 分布,故标准正态分布是 t 分布的特例。 按 t 分布的规律,理论上有: 单尾:P(t-,t)=或 P(t,t)=; 双尾:P(t-, 2t)+P(t, 2t) =, 即:P(-, 2tt , 2t=1- 第三节 总体均数的估计1点(值)估计点(值)估计 用样本统计量直接作为总体参数的估计值。 2区间估计区间估计 即按预先给定的概率(1-)估计包含未知总体参数的范围。该范围通常称为参数的可信区间(confidence internal,CI)。可信区间的确切含义是指:有1-(如95%)的可能可信区间包含总体参数。可信区间通常由两个数值即可信限(confidence limit)构成。其中较小值称为下限(lower limit),较大的值称为上限(upper limit)。 根据 t 分布的原理: P(- , 2tt , 2t)1- 因xsxt 则 , 2txsx , 2t 解之得:x, 2x, 2stxstx 按概率为 1-估计总体均数可信区间的计算公式为:x, 2stx 求某地 20 岁健康男性血糖值总体均数 95%的可信区间。 已知x=39.5mg/100ml,S=0.69mg/100ml,n=20,1-=0.9 2069. 0 xs=0.15(mg/100ml) =20-1=19, 查附表 2,得19, 205. 0t=2.093。 3.952.0930.15=3.64-4.26(mg/100ml) 即该地 20 岁健康男性血糖总体均数 95%的可信区间为:3.64mg/100ml-4.26mg/100ml。 假设检验假设检验一、假设检验的基本思想二、假设检验的基本步骤 三、t检验 四、u检验 五、两类错误 六、假设检验注意事项 一、基本思想 假设检验(test of hypothesis)亦称显著性检验(test of statistical significance),就是先对总体的参数或分布作出某种假设,如两个总体均数相等,总体服从正态分布或两总体分布相同等,然后用适当的统计方法计算某检验统计量,根据检验统计量的大小来推断此假设应当被接受或拒绝,它是统计推断的另一重要方面。 二、假设检验的基本步骤 1建立检验假设、确定检验水准 检 验 假 设 有 两 种 : 一 种 是 无 效 假 设 ( n u l l hypothesis),符号为H0,即假设均数来自同一总体,它们的总体均数相同,样本均数间无本质的不同,差别仅由抽样误差引起; 另一种是备择假设(alternative hypothesis),符号为H1,即假设均数来自不同总体,它们之间的差别存在本质的不同,并非仅由抽样误差引起。 检验水准(size of a test)亦称显著性水准(significance level),符号为,即判断由H0所规定的总体中随机抽样,抽到与现有样本具有相同的检验统计量的样本及其更极端情况的样本是否小概率事件的界值。 2.选择和计算统计量 根据统计推断的目的和资料的性质、特点选择合适的检验统计量。 3确定P值 P值是指由H0所规定的总体中随机抽样,获得等于及大于(或等于及小于)现有样本所获得的检验统计量值的概率。求得检验统计量后,一般可通过特别的统计表直接查出P值。例如t值可查t界值表,u值可查u界值表 4判断结果 当P时,结论为按所取检验水准拒绝H0,接受H1,两均数差别有统计意义(或称显著性意义),即它们之间存在着本质的不同(数学上认为小概率事件在一次实验中不可能发生。P,即被推断为小概率事件);当P时,结论为按所取检验水准尚不能拒绝H0,可认为两均数差别无统计意义,即它们之间无本质的不同,差别仅由抽样误差引起。三、t检验概念:选用检验统计量t进行假设检验的方法,称t检验。 用途: 样本均数与总体均数的比较 配对计量资料的比较 两样本均数的比较 应用条件:正态分布:当样本含量较小时,要求样本来自正态总体。 方差齐性:两样本均数比较时,要求两总体方差相等。 、样本均数与总体均数的比较 目的:推断样本所代表的未知总体均数与已知总体均数0是否相等。 例1.1经产科大量调查得知某市婴儿体重均数为3.20kg,今随机测得25名难产儿平均出生体重为3.42kg,标准差为0.42kg。问该市难产儿出生体重与一般婴儿是否不同? H0:0,即该市难产儿出生体重与一般婴儿相同。 H1:0,即该市难产儿出生体重与一般婴儿不同。 =0.05 本例0=3.20kg,x=3.42kg,S=0.42kg,n=25 241251n62. 22542. 03.203.42-nsxsxt00 x 查 t 界值表(双侧) :2.4922.622.797 01. 0p02. 0tt24,01. 024,02. 0t p0.02,按=0.05 水准拒绝 H0接受 H1,可认为该市难产儿出生体重高于一般婴儿。 配对资料的比较 配对类型:配在对子的同对受试对象分别给予两种不同处理;同一受试对象分别接受两种不同处理; 同一受试对象处理前后的比较。目的:推断某种处理有无作用或两种处理效应有无差别,即推断样本差值的总体均数d是否等于零。 例 用某 药治 疗某 病患 者 10 人,治疗 前后(治 后 一月)的血 沉(/h)如 下 表 , 问 治 疗 后 血 沉 有 无 变 化 ? 表 某 药 治 疗 某 病 前 后 的 血 沉 变 化 ( /h) 病 人 编 号 治 疗 前 治 疗 后 差 数 , d d2 1 10 6 4 16 2 13 9 4 16 3 6 3 3 9 4 11 10 1 1 5 10 10 0 0 6 7 4 3 9 7 8 2 6 36 8 8 5 3 9 9 5 3 2 4 10 9 3 6 36 合 计 32 136 H0:d=0 H:d=0 =0.05 本例 d=32, 2d=136,n=10 h/mm2 . 31032ndd h/mm93. 111010321361nndds222d h/mm61. 01093. 1nssdd 9110,246. 561. 02 . 3vsdtd 查 t 界值表(双侧) :001. 0ptt781. 425. 59,001. 0 p0.001,按=0.05 水准拒绝 H0接受 H1,可认为用该药治疗后血沉有所下降。 两样本均数的比较 目的:通过两样本均数1x与2x的比较,推断两样本分别代表的总体均数1与2是否相等。 为研究肥胖与脂质代谢的关系,在某地小学中随机抽取了 30名肥胖儿童(肥胖组)和 30 名正常儿童(对照组),用改良八木国夫法测定两组儿童血中脂质过氧化物(LPO)得下表结果,请问能否认为肥胖与脂质代谢有关系? 两组儿童血液中 LPO 含量(mol/L) 分组 n sx 肥胖组 30 9.360.83 对照组 30 7.50.64 H0:12,即肥胖组和对照组 LPO 总体平均含量相等 H1:12,即肥胖组和对照组 LPO 总体平均含量相等 =0.05 n1=n2=300.1)故选用两样本 t 检验。 302. 93064. 083. 058. 736. 91121122222121212122221121nssxxnnnnsnsnxxt 581302221nn 以 n=58 查 t 界值表,得 P30);小样本,已知且样本来自 正态总体。检验目的:同t检验。 五、两类错误 假设检验是以样本推断总体,作出的结论是概率性的,并非绝对正确,可能发生两类错误。如果无效假设H0为真,拒绝了它,称第一类错误或型错误(type error);如果无效假设H0不真,不拒绝它,称第二类错误或型错误(type error)。 六、假设检验注意事项 1假设检验的前提是要有严密的抽样设计,保证样本是从同质总体中随机抽取。并且,组间的均衡性和资料的可比性应予特别注意,除了对比的因素外,其它影响结果的因素应尽可能相同或基本相同。2选用的检验方法应符合其应用条件。3. 正确理解差别有无统计意义的涵义。4. 结论不能绝对化。 5正确选用单侧还是双侧检验。6报告结论时,应列出现有样本检验统计量值,说明采用的单侧还是双侧检验,并列出P值的确切范围。