《定性资料的统计分析.pptx》由会员分享,可在线阅读,更多相关《定性资料的统计分析.pptx(66页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、主要内容二项分布简介总体率的可信区间估计Poisson分布简介总体事件数的可信区间估计样本率与总体率的比较两样本率比较的u检验四格表资料的2检验 行列表资料的2检验确切概率法两事件数的比较卡方检验应用的注意事项 第1页/共66页第一节 二项分布简介第2页/共66页二项分布的基本概念 在医学研究中常常碰到一些情况,其结局只有两种互相对立的结果。每个个体的观察结果只能取其中之一。毒理试验中,动物的生存与死亡;动物诱癌试验中,动物的发癌与不发癌;流行病学观察中,个体发病与不发病;在临床治疗中,病人的治愈与未愈;理化检验结果的阴性与阳性等等。常用二项分布(binomial distribution)来
2、描述其概率分布。第3页/共66页概率的乘法法则:几个独立事件同时发生的概率,等于各独立事件的概率之积。概率的加法法则:互不相容事件和的概率等于各事件的概率之和。第4页/共66页例、设小白鼠接受某种毒物一定剂量时,其死亡率为=80,则对于每只小白鼠而言,其死亡概率为=0.8,生存概率为1-=0.2。若每组各用三只小白鼠(分别计为甲、乙、丙),对每只鼠独立做实验,故各鼠的实验结果(生存或死亡)是互不影响的。观察每组小白鼠存亡情况,如果计算生与死的顺序,则共有8种排列方式;如果只计生存与死亡的数目,则只有4种组合方式。第5页/共66页三只小白鼠存亡的排列和组合方式及其概率的计算所有可能结果每种结果的
3、概率死亡数 生存数 不同死亡数的概率甲、乙、丙XnX生 生 生0.20.20.2=0.008030.008生 生 死0.20.20.8=0.032生 死 生0.20.80.2=0.032120.096死 生 生0.80.20.2=0.032生 死 死0.20.80.8=0.128死 生 死0.80.20.8=0.128210.384死 死 生0.80.80.2=0.128死 死 死0.80.80.8=0.512300.5121.0001.000第6页/共66页(0.2+0.8)3=(0.2)3+3(0.2)2(0.8)+3(0.2)(0.8)2+(0.8)3 三生 二生一死 一生二死 三死第7
4、页/共66页 为总体阳性率;n为样本例数;X为样本阳性数;CnX为从n个中抽X个的组合数,其计算公式为:式中“!”为阶乘符号,n!=1234n,并约定0!=1。第8页/共66页二项展开式中的各项即对应于各死亡数(X)的发生概率P(X),类似的分布即称作二项分布。从阳性率为的总体中随机抽取含量为n的样本,恰有X例阳性的发生概率可表达为:X=0,1,2,n 称X服从参数为n和 的二项分布,记为:XB(n,)。其中参数 n由实验者确定,而总体率 常常是未知的。第9页/共66页例、已知n=3,=0.8,则恰有例阳性的概率P(1)为:第10页/共66页二项分布的均数与标准差 若XB(n,),则阳性数X的
5、总体均数 及其标准差为:第11页/共66页若均数与标准差不用绝对数X而用率p表示时,即对以上两式分别除以n:样本率的标准差又称为率的标准误。第12页/共66页二项分布的累计概率 常用的有左侧累计和右侧累计两种方法。从阳性率为 的总体中随机抽取n个个体,则:1、最多有k例阳性的概率:2、最少有k例阳性的概率:第13页/共66页例1、据以往经验,用某药治疗小儿上呼吸道感染、支气管炎,有效率为85,今有5个患者用该药治疗,问:至少3人有效的概率为多少?最多1人有效的概率为多少?本例=0.85,1-=0.15,n=5,依题意,至少3人有效的概率:P(X3)=P(3)+P(4)+P(5)=0.13817
6、81250.3915046880.443705313=0.973388126最多1人有效的概率为:P(X1)第14页/共66页例2、经统计,某省用“中药阑尾炎合剂”治疗急性阑尾炎性腹膜炎的有效率为86%,试分别估计:治疗10例中至少9例有效的概率;治疗10例中至多7例有效的概率。本例=0.86,1-=0.14,n=10,依题意,治疗10例中至少9例有效的概率:治疗10例中至多7例有效的概率:第15页/共66页二项分布的图形 第16页/共66页在实际应用中,n足够大,且 不太大也不太小,即既不接近于0也不接近于1时,常可用正态近似原理处理二项分布的问题。一般判断标准:n 和n(1)均大于5。第1
7、7页/共66页二项分布的应用条件二分类资料,即各观察单位只能有互相对立的两种结果之一。两种对立结果发生的概率合计为1。观察结果相互独立,如疾病无传染性、无家族聚集性。第18页/共66页第二节 率的可信区间估计 第19页/共66页与定量资料的均数一样,二项分布资料的样本率同样存在抽样误差。样本率的标准差又称为率的标准误为:第20页/共66页一、总体率 的可信区间估计(一)正态近似法 当n较大、且p不太大也不太小时(常可通过np 与n(1-p)均大于5来判断),样本率p的抽样分布近似服从正态分布。可利用正态分布原理来估计总体率的可信区间。可信度为1-的可信区间为:(p-uSp,p+uSp),缩写为
8、:p uSp 式中,u为可信度为1-时的u界值。可信度为95%时,u=1.96可信度为99%时,u=2.58。第21页/共66页例1、从某地人群中随机抽取144人,检查乙型肝炎表面抗原携带状况,阳性率为9.03,求该地人群的乙型肝炎表面抗原阳性率的95可信区间。本例n=144,p=9.03,可用近似正态法计算可信区间。95可信限为:9.03%1.962.388%,即该地人群的乙型肝炎表面抗原阳性率的95可信区间为:4.35%13.71%。第22页/共66页例2、某医院用复方当归注射液静脉滴注治疗脑动脉硬化症188例,其中显效83例,试估计复方当归注射液显效率的99可信区间。本例n=188,p=
9、83/1880.4415,np 与n(1-p)均大于5,可用近似正态法计算可信区间。99可信区间为:0.44152.580.036,即复方当归注射液显效率的99可信区间为:34.86%53.44%。第23页/共66页(二)查表法 当n50,p很接近0或1时,样本率p的抽样分布不再近似服从正态分布。样本资料呈二项分布。由于用二项分布法估计总体率的可信区间,计算复杂,故可使用查表法。查阅附表6,求得总体率的95%和99%可信区间。第24页/共66页例、有人调查29名非吸毒妇女,出狱时有1名HIV(人免疫缺陷病毒)阳性,该研究者报导,阳性率为3.4%,用正态近似法计算其95可信区间为:-3.1%10
10、.0%。阳性率不可能小于0。查表法,其95可信区间为:0.1%17.8%。第25页/共66页二、两总体率之差的可信区间估计当样本含量n1、n2足够大,两样本率之差的可信区间可用正态分布近似法构造。设p1=r1/n1,p2=r2/n2是两个样本率,p1p2是它们的差。如果 n1p1,n1(1-p1),n2p2,n2(1-p2)均大于5,则可以用正态近似的方法求总体率之差1-2的可信区间:第26页/共66页计算公式其中,为率之差值的标准误第27页/共66页第三节 Poisson分布简介第28页/共66页Poisson分布的基本概念 对单位时间、单位空间内某独立罕见事件发生数的研究每升水中大肠菌群数
11、的分布 粉尘在单位容积内计数的分布 放射性物质在单位时间内放射出质点数的分布 单位空间中某些野生动物或昆虫数的分布 每天交通事故发生数的分布 人群中某种患病率很低的非传染性疾病患病数或死亡数的分布 用Poisson分布来描述其概率分布。第29页/共66页如某事件的发生完全随机,在单位时间或单位空间内事件发生数的概率为:称该事件的发生服从参数为的Poisson分布,记为XPoisson()。是Poisson分布的总体均数,X为单位时间或单位空间内某事件的发生数,P(X)为事件数为X时发生概率,e为自然对数的底2.7183。第30页/共66页Poisson分布实例2002年韩日世界杯64场比赛中,
12、各队进球数有多有少。大部分是0,1,2个进球,个别队是5个以上进球,最多的是8个进球,平均是1.2578个/场/队。虽然强队往往都能进球、赢球(如巴西队),弱队往往都不能进球(如中国队),但宏观上来说,各队进球数服从Poisson分布!第31页/共66页平均计数为1.2578的Poisson分布每场各队进球数 场次 理论数03736.3914745.7722728.7831312.074 2 3.795 1 0.95 6 1 0.25 128 128.00第32页/共66页Poisson分布的均数与方差Poisson分布的总体方差2与总体均数 相等,等于:2=参数 表示单位空间或单位时间内事件
13、平均发生的次数,又称强度参数。第33页/共66页Poisson分布的累计概率常用的有左侧累计和右侧累计两种方法。单位空间或时间内事件发生的次数:1、最多为k次的概率:2、最少为k次的概率:第34页/共66页Poisson分布的图形 第35页/共66页Poisson分布为正偏态分布 越小,分布越偏随着 的增大,分布逐渐趋于对称当 =20时已基本接近对称分布当 =50时,Poisson分布近似正态分布在实际工作中,当 50时可按正态分布原理处理相关的问题。第36页/共66页Poisson分布具有可加性 以较小的度量单位观察某现象,如果发生数呈Poisson分布,那么将若干个小单位合并为一个大单位后
14、,其总计数也呈Poisson分布。例、已知某放射性物质每10分钟放射脉冲数呈Poisson分布,5次测量的结果,分别为35、34、36、38、34次。将5个10分钟的放射脉冲数合计为50分钟放射脉冲数(总计为177次)也呈Poisson分布。对于Poisson分布资料往往可以利用其可加性的特性使50,然后用正态近似法处理。第37页/共66页Poisson分布是二项分布的极限形式 在二项分布中,当 很小时(5同时n(1-p)5为界限,符合此条件者可用正态近似检验。统计量u的计算为:当n和p不符合上述条件时,可利用二项分布原理直接计算其概率,根据是否小概率事件来推断;或计算率的可信区间,是否包含已
15、知总体率来推断。第50页/共66页一、正态近似法 当np5同时n(1-p)5时,可用正态近似检验。例、据临床经验,一般的胃溃疡病患者有20会出现胃出血症状。某医院观察了304例65岁的胃溃疡病患者,其中有96例发生胃出血,占31.58,问老年患者是否较一般患者易出血?第51页/共66页第52页/共66页例2、从某地人群中随机抽取144人,检查乙型肝炎表面抗原携带状况,阳性率为9.20,而正常人群的乙型肝炎表面抗原阳性率为1.20,能否认为该地人群为高危人群?第53页/共66页第54页/共66页二、直接计算概率法 当n和p不符合上述条件时,可利用二项分布原理直接计算其概率。依据小概率事件原理,作
16、出统计推断。例、一种鸭通常感染某种传染病的概率为0.2,现将某种药物注射到25只鸭后发现有1只鸭发生感染,试判断这种药物对预防感染是否有效。第55页/共66页第56页/共66页例、18世纪天花在人群中的自然感染率高达90%。1798年英国医生琴纳对23名志愿者作接种牛痘免疫实验,发现这23人接触天花病毒后无一感染。推断牛痘疫苗是否有预防天花的作用。第57页/共66页第58页/共66页第六节 两样本率比较的u检验 第59页/共66页两样本率比较的u检验两个样本率比较的目的是推断两个样本率各自所代表的总体率是否相等。检验方法可用u检验和2检验。当n较大且p不接近于0也不接近于1时(n1p1、n2p
17、2、n1(1-p1)、n2(1-p2)均大于5),可根据二项分布的正态近似原理,利用两样本u检验方法计算检验统计量。第60页/共66页式中p1、p2分别为两样本率;n1、n2分别为两样本例数;pc为合并率;分母部分常记为:Sp1-p2,是两样本率之差(p1-p2)的标准误。第61页/共66页例、某医院肿瘤科3年来共治疗乳腺癌患者n=131例,每例均观察满5年,其中单纯手术治疗组观察n1=84例,存活x1=57例,存活率p1=67.9,联合治疗(手术+术后化疗)组观察n2=47例,存活x2=39例,存活p2=83.0,问两组存活率有无差别?资料显示两组患者5年存活率不同。由于样本率存在抽样误差,两组存活率间的的差别是治疗方法本质上的差别,还是抽样误差所致,须进行假设检验进行推断。第62页/共66页第63页/共66页注意当n较小,不满足n1p1、n2p2、n1(1p1)、n2(1-p2)均大于5的条件时,则用校正的u检验:当n很小时(n40),则须用确切概率法。第64页/共66页Thanks!第65页/共66页谢谢大家观赏!第66页/共66页
限制150内