总体均数的估计与假设检验.ppt
总体均数的估计与假总体均数的估计与假设检验设检验ContentContent1.1.Sampling error and standard error of meanSampling error and standard error of mean2.2.t-distributiont-distribution3.3.Estimation of Population MeanEstimation of Population Mean4.4.t-testt-test5.5.Notice of hypothesis testNotice of hypothesis test 6.6.Normality test and homogeneity of varianceNormality test and homogeneity of variance test test2第一节第一节 均数的抽样误差与标准误均数的抽样误差与标准误3统计推断:由样本信息推断总体特征统计推断:由样本信息推断总体特征。样本统计指标样本统计指标(统计量)(统计量)总体统计指标总体统计指标(参数)(参数)正态(分布)总体:正态(分布)总体:推断推断 !说明!说明!为说明抽样误差规律,先用一个实例,后为说明抽样误差规律,先用一个实例,后引出理论。引出理论。4图图3-11999年某市年某市18岁男生身高岁男生身高N(167.7,5.32)的抽样示意图的抽样示意图 5将将此此100个个样样本本均均数数看看成成新新变变量量值值,则则这这100个样本均数构成一个样本均数构成一新分布新分布,绘制直方图。,绘制直方图。图图3-2从正态分布总体从正态分布总体N(167.7,5.32)随机抽样所得样本均数分布随机抽样所得样本均数分布6 ,各样本均数各样本均数未必等于总体均数;未必等于总体均数;各样本均数间存在差异;各样本均数间存在差异;样样本本均均数数的的分分布布为为中中间间多多,两两边边少少,左左右右基基本本对称。对称。样样本本均均数数的的变变异异范范围围较较之之原原变变量量的的变变异异范范围围大大大缩小。大缩小。可可算算得得这这100个个样样本本均均数数的的均均数数为为167.69cm、标标准准差为差为1.69cm。样本均数的抽样分布具有如下样本均数的抽样分布具有如下特点:特点:71、抽样误差:由个体变异产生的、抽样造成的样本统计由个体变异产生的、抽样造成的样本统计量与总体参数的差别量与总体参数的差别 均数的抽样误差:均数的抽样误差:由于抽样造成的样本均由于抽样造成的样本均数与总体均数的差别数与总体均数的差别 原因:原因:1 1)抽样)抽样 2 2)个体差异)个体差异8本书以本书以n=60n=60为界限为界限9表表示示样样本本统统计计量量抽抽样样误误差差大大小小的的统统计计指标。指标。均均数数标标准准误误:说说明明均均数数抽抽样样误误差差的的大小,总体计算公式大小,总体计算公式(3-1)2、标准误标准误(standarderror,SE)实质:样本均数的标准差实质:样本均数的标准差10数理统计证明:数理统计证明:11若用样本标准差若用样本标准差S 来估计来估计,(3-2)降低抽样误差的途径有降低抽样误差的途径有:通过增加样本含量通过增加样本含量n;通过设计减少通过设计减少S。12第二节第二节t 分布分布(t-distribution)13vt分布概述 v 抽样误差的分布规律 v v 样本 总体v t分布 理论 v 手段 (桥梁)目的14一、一、t 分布分布的概念的概念1516式中式中为自由度为自由度(degreeoffreedom,df)3实实际际工工作作中中,由由于于 未未知知,用用 代代替替,则则 不不再再服服从从标标准准正正态态分分布布,而而服从服从t t 分布。分布。17二、二、t 分布的图形与特征分布的图形与特征 分布只有一个参数,即自由度18图3-3不同自由度下的t 分布图191特征:特征:202 t界界值值表表:详详见见附附表表2,可可反反映映t分分布布曲曲线下的面积。线下的面积。单侧概率或单尾概率:用单侧概率或单尾概率:用表示;表示;双侧概率或双尾概率:用双侧概率或双尾概率:用表示。表示。21-tt022举例:举例:23第三节第三节 总体均数的估计总体均数的估计24一、参数估计一、参数估计 用样本统计量推断总体参数。用样本统计量推断总体参数。总体均数估计:总体均数估计:用样本均数用样本均数(和标准差)推断总体均数。(和标准差)推断总体均数。2526按按预预先先给给定定的的概概率率(1 )所所确确定定的的包包含未知总体参数的一个范围。含未知总体参数的一个范围。总总体体均均数数的的区区间间估估计计:按按预预先先给给定定的的概概率率(1 )所所确确定定的的包包含含未未知知总总体体均均数数的的一个范围。一个范围。如如给给定定=0.05,该该范范围围称称为为参参数数的的95%可可信信区区间或置信区间;间或置信区间;如如给给定定=0.01,该该范范围围称称为为参参数数的的99%可可信信区区间或置信区间。间或置信区间。2区间估计区间估计(intervalestimation):27二、总体均数可信区间的计算二、总体均数可信区间的计算28 v总体均数可信区间的计算v需考虑:v(1)总体标准差是否已知,v(2)样本含量n的大小v通常有两类方法:v(1)t分布法 (2)u分布法29 1.1.单一总体均数的可信区间单一总体均数的可信区间3031P25,15号样本号样本323334例例3-3某地抽取正常成年人某地抽取正常成年人200名,测得名,测得其血清胆固醇的均数为其血清胆固醇的均数为3.64mmol/L,标准差,标准差为为1.20mmol/L,估计该地正常成年人血清胆,估计该地正常成年人血清胆固醇均数的固醇均数的95%可信区间。可信区间。35故故该该地地正正常常成成年年人人血血清清胆胆固固醇醇均均数数的的双双侧侧95%可信区间为可信区间为(3.47,3.81)mmol L。36373839例例3-4为为了了解解氨氨甲甲喋喋呤呤(MTX)对对外外周周血血IL-2水水平平的的影影响响,某某医医生生将将61名名哮哮喘喘患患者者随随机机分分为为两两组组。其其中中对对照照组组29例例(),采采用用安安慰慰剂剂;实实验验组组32例例(),采采用用小小剂剂量量氨氨甲甲喋喋呤呤(MTX)进进行行治治疗疗。测测得得对对照照组组治治疗疗前前IL-2的的均均数数为为20.10IU/ml(),标标准准差差为为7.02IU/ml();试试验验组组治治疗疗前前IL-2的的均均数数为为16.89IU/ml(),标标准准差差为为8.46IU/ml()。问问两两组组治治疗疗前前基基线线的的IL-2总总体均数相差有多大?体均数相差有多大?40第一步:第一步:41能否下:两组能否下:两组IL-2的总体均数的总体均数“不不同同”或或“有差别有差别”的结论?的结论?42三、可信区间的确切涵义三、可信区间的确切涵义43 v1.95%的可信区间的理解:v(1)所要估计的总体参数有95%的可能在我们所估计的可信区间内。v(2)从正态总体中随机抽取100个样本,可算得100个样本均数和标准差,也可算得100个均数的可信区间,平均约有95个可信区间包含了总体均数。v(3)但在实际工作中,只能根据一次试验结果估计可信区间,我们就认为该区间包含了总体均数。44 v2.可信区间的两个要素v(1)准确度:用可信度(1)表示:即区间包含总体均数的理论概率大小。v当然它愈接近1愈好,如99%的可信区间比95%的可信区间要好。v(2)精确度:即区间的宽度 v 区间愈窄愈好,如95%的可信区间比99%的可信区间要好。45 v当n确定时,上述两者互相矛盾。v提高准确度(可信度),则精确度降低v(可信区间会变宽),势必降低可信区间的实际应用价值,故不能笼统认为99%可信区间比95%可信区间要好。v相反,在实际应用中,95%可信区间更为常用。46 v在可信度确定的情况下,增加样本含量可减小区间宽度,提高精确度。47四、总体均数可信区间四、总体均数可信区间与参考值范围的区别与参考值范围的区别48*也可用对应于双尾概率时也可用对应于双尾概率时),*也可用对应于双尾概率时也可用对应于双尾概率时)表表3-2总体均数的可信区间与参考值范围的区别总体均数的可信区间与参考值范围的区别49第四节第四节t 检验检验501 1、样本均数、样本均数 与已知某总体均数与已知某总体均数 比较比较t t检验检验 目的:推断一个未知总体均数 与已知总体均 数 是否有差别,用单样本设计。2 2、两个样本均数、两个样本均数 与与 比较的比较的t t检验检验目的:推断两个未知总体均数 与 是否有差 别,用成组设计。3 3、配对设计资料均数比较的、配对设计资料均数比较的t t检验检验目的:推断两个未知总体均数 与 是否有差别用配对设计。t t 检验,亦称检验,亦称student student t t 检验检验,有下述情况有下述情况:51对于大样本对于大样本,也可以近似用也可以近似用u u检验。检验。52vt检验和u检验的应用条件:v1.t检验应用条件:v样本含量n较小时(如n60)v(1)正态分布 v(2)方差齐性(homogeneity of variance)v2.u 检验应用条件:v样本含量n较大,或n虽小但总体标准差已知v (1)正态分布 v (2)方差齐性(homogeneity of variance)53 假设检验过去称显著性检验。它是利假设检验过去称显著性检验。它是利用小概率反证法思想,从问题的对立面用小概率反证法思想,从问题的对立面(H0)出发间接判断要解决的问题出发间接判断要解决的问题(H1)是否是否成立。然后在成立。然后在H0成立的条件下计算检验成立的条件下计算检验统计量,最后获得统计量,最后获得P值来判断值来判断。假设检验基本思想及步骤基本思想及步骤54v例3-5 某医生测量了36名从事铅作业男性工人的血红蛋白含量,算得其均数为130.83g/L,标准差为25.74g/L。问从事铅作业工人的血红蛋白是否不同于正常成年男性平均值140g/L?v130.83g/L 140g/Lv原因:1.可能是总体均数不同 v 2.是抽样造成的 5556H1的的内内容容直直接接反反映映了了检检验验单单双双侧侧。若若H1中中只只是是 0或或 0,则则此此检检验验为为单单侧侧检检验验。它它不仅考虑有无差异,而且还考虑差异的方向。不仅考虑有无差异,而且还考虑差异的方向。单单双双侧侧检检验验的的确确定定,首首先先根根据据专专业业知知识识,其其次次根根据据所所要要解解决决的的问问题题来来确确定定。若若从从专专业业上上看看一一种种方方法法结结果果不不可可能能低低于于或或高高于于另另一一种种方方法法结结果果,此此时时应应该该用用单单侧侧检检验验。一一般般认认为为双双侧侧检检验验较较保保守守和稳妥。和稳妥。57(3)检检验验水水准准,过过去去称称显显著著性性水水准准,是是预预先先规规定定的的概概率率值值,它它确确定定了了小小概概率率事事件件的的标标准准。在在实实际际工工作作中中常常取取 =0.05。可可根根据据不同研究目的给予不同设置。不同研究目的给予不同设置。58 根据变量和资料类型、设计方根据变量和资料类型、设计方案、统计推断的目的、是否满足特案、统计推断的目的、是否满足特定条件等(如定条件等(如数据的分布类型数据的分布类型)选)选择相应的检验统计量。择相应的检验统计量。2.计算检验统计量计算检验统计量59 P的的含含义义是是指指从从H0规规定定的的总总体体随随机机抽抽样样,抽抽得得等等于于及及大大于于(或或/和和等等于于及及小小于于)现现有有样样本本获获得得的的检检验验统计量统计量(如如t、u等等)值的概率。值的概率。例例 3-5的的 P值值 可可 用用 图图 3-5说说 明明,P为为 在在=0=140g/L的的前前提提条条件件下下随随机机抽抽样样,其其t 小小于于及及等等于于-2.138和大于及等于和大于及等于2.138的概率。的概率。3.确定确定P值值60图图3-5例例3-5中中P值示意图值示意图6162若若,是否也能下,是否也能下“无差别无差别”或或“相等相等”的结论?的结论?63一、单样本 t 检验 (one sample/group t-test)即即样样本本均均数数 (代代表表未未知知总总体体均均数数)与与已已知知总总体体均均数数 0(一一般般为为理理论论值值、标标准准值值或或经经过过大大量量观观察察所得稳定值等所得稳定值等)的比较。其检验统计量按下式计算的比较。其检验统计量按下式计算64例例3-5某某医医生生测测量量了了36名名从从事事铅铅作作业业男男性性工工人人的的血血红红蛋蛋白白含含量量,算算得得其其均均数数为为130.83g/L,标标准准差差为为25.74g/L。问问从从事事铅铅作作业业工工人人的的血血红红蛋蛋白白是是否否不不同同于于正正常成年男性平均值常成年男性平均值140g/L?(1)建立检验假设,确定检验水准建立检验假设,确定检验水准H0:=0=140g/L,即铅作业男性工人平均血红,即铅作业男性工人平均血红蛋白含量与正常成年男性平均值相等蛋白含量与正常成年男性平均值相等H1:0=140g/L,即铅作业男性工人平均血红,即铅作业男性工人平均血红蛋白含量与正常成年男性平均值不等蛋白含量与正常成年男性平均值不等 =0.0565(2)计算检验统计量计算检验统计量 66(3)确定确定P值,作出推断结论值,作出推断结论 67配对配对t 检验适用于配对设计的计量资料。检验适用于配对设计的计量资料。配配对对设设计计类类型型:两两同同质质受受试试对对象象分分别别接接受受两两种种不不同同的的处处理理;同同一一受受试试对对象象分分别别接接受受两两种种不不同同处处理理;同一受试对象同一受试对象(一种一种)处理前后。处理前后。二、配对二、配对t 检验检验(paired/matchedt-test)68 例例3-6 为为比比较较两两种种方方法法对对乳乳酸酸饮饮料料中中脂脂肪肪含含量量测测定定结结果果是是否否不不同同,某某人人随随机机抽抽取取了了10份份乳乳酸酸饮饮料料制制品品,分分别别用用脂脂肪肪酸酸水水解解法法和和哥哥特特里里罗罗紫紫法法测测定定其其结结果果如如表表3-3第第(1)(3)栏栏。问问两两法测定结果是否不同?法测定结果是否不同?69表表3-3两种方法对乳酸饮料中脂肪含量的测定结果两种方法对乳酸饮料中脂肪含量的测定结果(%)70(1)建立检验假设,确定检验水准建立检验假设,确定检验水准H0:d0,即两种方法的测定结果相同,即两种方法的测定结果相同H1:d0,即两种方法的测定结果不同,即两种方法的测定结果不同=0.05(2)计算检验统计量计算检验统计量本例本例n=10,d=2.724,d2=0.8483,71按公式按公式(3-16)(3)确定确定P值,作出推断结论值,作出推断结论查查附附表表2的的t界界值值表表得得P0.001。按按=0.05水水准准,拒拒绝绝H0,接接受受H1,有有统统计计学学意意义义。可可认认为为两两种种方方法法对对脂脂肪肪含含量量的的测测定定结结果果不不同同,哥哥特里罗紫法测定结果较高特里罗紫法测定结果较高。72 三、两样本三、两样本t t检验检验(two-sample/groupt-test)又称成组又称成组t 检验,适用于完全随机设计检验,适用于完全随机设计两样本均数的比较,此时人们关心的是两样两样本均数的比较,此时人们关心的是两样本均数所代表的两总体均数是否不等。两组本均数所代表的两总体均数是否不等。两组完全随机设计是将受试对象完全随机分配到完全随机设计是将受试对象完全随机分配到两个不同处理组。两个不同处理组。73适用范围:适用范围:完全随机设计两样本均数的比较完全随机设计两样本均数的比较检验方法:依两总体方差是否齐性而定。检验方法:依两总体方差是否齐性而定。7475例例3-7为为研研究究国国产产四四类类新新药药阿阿卡卡波波糖糖胶胶囊囊的的降降血血糖糖效效果果,某某医医院院用用40名名II型型糖糖尿尿病病病病人人进进行行同同期期随随机机对对照照试试验验。试试验验者者将将这这些些病病人人随随机机等等分分到到试试验验组组(用用阿阿卡卡波波糖糖胶胶囊囊)和和对对照照组组(用用拜拜唐唐苹苹胶胶囊囊),分分别别测测得得试试验验开开始始前前和和8周周后后的的空空腹腹血血糖糖,算算得得空空腹腹血血糖糖下下降降值值见见表表3-4,能能否否认认为为该该国国产产四四类类新新药药阿阿卡卡波波糖糖胶胶囊囊与与拜拜唐唐苹苹胶胶囊囊对对空空腹腹血血糖糖的的降降糖糖效效果不同?果不同?7677(2)计算检验统计量计算检验统计量 78(3)确定确定P值,作出推断结论值,作出推断结论79若若变变量量变变换换后后总总体体方方差差齐齐性性 可可采采用用t 检检验验(如如两两样样本本几几何何均均数数的的t 检检验验,就就是是将将原原始数据取对数后进行始数据取对数后进行t 检验检验);若若变变量量变变换换后后总总体体方方差差仍仍然然不不齐齐 可可采用采用t 检验或检验或Wilcoxon秩和检验。秩和检验。若两总体方差不等(),?802.Cochran&Cox近似近似t 检验(检验(t检验)检验)调整 t 界值8182例例3-8在在上上述述例例3-7国国产产四四类类新新药药阿阿卡卡波波糖糖胶胶囊囊的的降降血血糖糖效效果果研研究究中中,测测得得用用拜拜唐唐苹苹胶胶囊囊的的对对照照组组20例例病病人人和和用用阿阿卡卡波波糖糖胶胶囊囊的的试试验验组组20例例病病人人,其其8周周时时糖糖化化血血红红蛋蛋白白HbA1c(%)下下降降值值如如表表3-5。问问用用两两种种不不同同药药物物的的病病人人其其HbA1c下下降降值是否不同?值是否不同?83表3-5对照组和试验组HbA1c下降值(%)对对照照组组方方差差是是试试验验组组方方差差的的3.77倍倍,经经方方差差齐齐性性检检验,认为两组的总体方差不等,故采用验,认为两组的总体方差不等,故采用近似近似t 检验检验。84(1)建立检验假设,确定检验水准建立检验假设,确定检验水准(略略)(2)计算检验统计量计算检验统计量 85(3)确定确定P值,作出推断结论。值,作出推断结论。查查t界值表界值表t0.05/2,19=2.093。由由 t=0.9650.05。按按=0.05水水准准,不不拒拒绝绝H0,无无统统计计学学意意义义。还还不不能能认认为为用用两两种种不不同同药药物物的的病病人人其其HbA1c下下降降值值不同。不同。863.Satterthwaite近似近似t检验检验:Cochran&Cox法是对临界值校正法是对临界值校正而而Satterthwaite法法则是对自由度校正。则是对自由度校正。87以=28.428、t=0.965查附表2的t界值表得0.20P0.40。结论同前。按按Satterthwaite法法对例对例3-8做检验,得做检验,得883.Welch法近似t检验Welch法也是对自由度进行校正。校正公式为89对例3-8,如按Welch法,则以=29.429、t=0.965查附表2的t界值表得0.20P60),则可选用大样本u检验。98v3.正确理解“显著性”一词的含义 差别有或无统计学意义,过去称差别有或无“显著性”,是对样本统计量与总体参数或样本统计量之间的比较而言,相应推断为:可以认为或还不能认为两个或多个总体参数有差别。99v4.结论不能绝对化 因统计结论具有概率性质,故“肯定”、“一定”、“必定”等词不要使用。在报告结论时,最好列出检验统计量的值,尽量写出具体的P值或P值的确切范围,如写成P=0.040或0.02P0.05,而不简单写成P0.05,以便读者与同类研究进行比较或进行循证医学时采用Meta分析。100v5.假设检验是为专业服务的,统计结论必须和专业结论有机地相结合,才能得出恰如其分、符合客观实际的最终结论。若统计结论和专业结论一致,则最终结论就和这两者均一致(即均有或均无意义);若统计结论和专业结论不一致,则最终结论需根据实际情况加以考虑。若统计结论有意义,而专业结论无意义,则可能由于样本含量过大或设计存在问题,那么最终结论就没有意义。101 6.可信区间与假设检验各自不同的作用,要结合使用。一方面一方面,可信区间可信区间亦可回答亦可回答假设检验假设检验的问的问题,算得的可信区间若包含了题,算得的可信区间若包含了H0,则按,则按 水准,水准,不拒绝不拒绝H0;若不包含;若不包含H0,则按,则按 水准,拒绝水准,拒绝H0,接受,接受H1。102 另一方面另一方面,可信区间不但能回答差别,可信区间不但能回答差别有无统计学意义,而且还能比假设检验有无统计学意义,而且还能比假设检验提供更多的信息,即提示差别有无实际提供更多的信息,即提示差别有无实际的专业意义。的专业意义。103图图3-7可信区间在统计推断上提供的信息可信区间在统计推断上提供的信息104 虽然虽然可信区间可信区间亦可回答亦可回答假设检验假设检验的问题,的问题,并能提供更多的信息,但并不意味着可信区间并能提供更多的信息,但并不意味着可信区间能够完全代替假设检验。可信区间只能在预先能够完全代替假设检验。可信区间只能在预先规定的概率规定的概率 检验水准检验水准 的前提下进行计算,的前提下进行计算,而假设检验能够获得一较为确切的概率而假设检验能够获得一较为确切的概率P值。值。105106