研究生统计学讲义第6讲第7章分类资料统计描述与推断.ppt
《研究生统计学讲义第6讲第7章分类资料统计描述与推断.ppt》由会员分享,可在线阅读,更多相关《研究生统计学讲义第6讲第7章分类资料统计描述与推断.ppt(54页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第七章第七章两分类资料的统计描述与推断两分类资料的统计描述与推断第一节第一节二项分布和二项分布和Poisson分布分布二项分布二项分布(binomialdistribution)是一种重要的离散是一种重要的离散型分布。其应用条件:型分布。其应用条件:每次试验结果只能是相互对每次试验结果只能是相互对立的两种情况中的一种,例如,某药的疗效为有效或立的两种情况中的一种,例如,某药的疗效为有效或无效;动物毒性试验的结果为存活或死亡;化验结果无效;动物毒性试验的结果为存活或死亡;化验结果为阳性或阴性;等等,二者中必居其一,且仅居其一;为阳性或阴性;等等,二者中必居其一,且仅居其一;已知发生某一结果已知发
2、生某一结果(如阳性如阳性)的概率为常数的概率为常数,则另,则另一结果一结果(阴性阴性)发生的概率为发生的概率为(1);在在n次重复试验次重复试验中,各次试验相互独立,即每次试验的结果不会影响中,各次试验相互独立,即每次试验的结果不会影响其他试验的结果。在医药学中二项分布常用于分类资其他试验的结果。在医药学中二项分布常用于分类资料的抽样研究,如总体率的估计、两率的比较等。料的抽样研究,如总体率的估计、两率的比较等。1定义定义若随机变量若随机变量X的概率函数为的概率函数为Pn(x)=Cnxx(1)nx,(x=1,2,n)(9.1)则则称称X服服从从参参数数为为n和和的的二二项项分分布布。式式中中P
3、n(x)为为Pn(X=x)的的简简写写;n为为试试验验次次数数;Cnx为为从从n个个不不同同元元素素中中,每每次次取取出出x个个元元素素的的不不同同组组合合的的种种数数;是是二二项项分布一个的参数,而不是圆周率。分布一个的参数,而不是圆周率。在在医医药药统统计计中中应应用用二二项项分分布布时时,表表示示总总体体阳阳性性率率,一一般般用用大大样样本本率率p来来估估计计;Pn(x)表表示示n次次试试验验中中,发发生阳性次数为生阳性次数为x的概率,二项分布的概率函数为的概率,二项分布的概率函数为Pn(x)=Cnxpx(1p)nx,(x=1,2,n)(9.2)二项分布的图形如图二项分布的图形如图9-1
4、所示。所示。Cnxx(1-)nx=+(1-)n=1,Cnxpx(1-p)nx=p+(1-p)n=1。由于二项分布变量取值的概率函数值由于二项分布变量取值的概率函数值Cnxx(1-)nx或或Cnxpx(1-p)nx正好是二项式正好是二项式+(1-)n或或p+(1-p)n的展开式中,按的展开式中,按 或或p的升幂排列的各项,故名二的升幂排列的各项,故名二项分布。项分布。所以,在所以,在n次独立重复试验中,一个二项分布变量次独立重复试验中,一个二项分布变量各取值的概率之和为各取值的概率之和为1。2二项分布的分布函数二项分布的分布函数二项分布的分布函数为:二项分布的分布函数为:F(x)=P(Xx)=P
5、n(0)+Pn(1)+.+Pn(x)(9.3)例例9.1某疗法治痹症的治愈率某疗法治痹症的治愈率=60%,用该疗法治疗,用该疗法治疗痹症三例痹症三例(n=3),治愈例数,治愈例数x(x=0,1,2,3)的情况如的情况如表表9-1。表表9-1三三例例患患者者中中治治愈愈x例例的的情情况况(治治愈愈率率p=0.60;治治愈例数愈例数x=0,1,2,3)治愈治愈例数例数x三例患者可能的情况三例患者可能的情况一患者一患者二患者二患者三患者三患者治愈治愈x例的概率例的概率*P3(x)=C3x0.6 x 0.4 3x P(Xx)*P(Xx)0未愈未愈未愈未愈未愈未愈C300.600.43=0.0640.0
6、6411愈愈未愈未愈未愈未愈未愈未愈愈愈未愈未愈未愈未愈未愈未愈愈愈C310.610.42=0.2880.3520.9362愈愈愈愈未愈未愈愈愈未愈未愈愈愈未愈未愈愈愈愈愈C320.620.41=0.4320.7840.6483愈愈愈愈愈愈C330.630.40=0.2161.0000.216注:注:*三例患者中治愈三例患者中治愈x例的概率函数为例的概率函数为P3(x);*P(Xx)为分布函数为分布函数3二二项项分分布布的的均均数数和和标标准准差差记记二二项项分分布布的的总总体体阳阳性率为性率为,未知时,用大样本率未知时,用大样本率p来估计来估计。由由式式(9.1)推推导导出出二二项项分分布布
7、变变量量X的的均均数数用用绝绝对对数数表表示时的计算公式为:总体均数示时的计算公式为:总体均数=E(X)=n相应的样本均数相应的样本均数=np(9.5)改用相对数改用相对数(率率)表示为:表示为:总体率总体率=,相应的样本率,相应的样本率p(9.6)二项分布变量二项分布变量X的标准差用绝对数表示时的计算公式的标准差用绝对数表示时的计算公式为:为:(9.7)二项分布变量的标准差用相对数二项分布变量的标准差用相对数(率率)表示时,称表示时,称为率的标准误,总体率的标准误记为为率的标准误,总体率的标准误记为p,样本率的标,样本率的标准误记为准误记为Sp,计算公式为:,计算公式为:(9.8)二、二、P
8、oisson分布分布Poisson分布分布(Poissondistribution)是一种重要的离散是一种重要的离散型分布。适用条件:型分布。适用条件:两分类的资料;两分类的资料;所考察的事所考察的事件发生率件发生率(一般用大样本率一般用大样本率p来估计来估计)很小,很小,n很大,很大,n(或或np)为一不大的常数;为一不大的常数;事件的发生是独立的,事件的发生是独立的,如各病人的患病与否与他人无关。如人群中,对某种如各病人的患病与否与他人无关。如人群中,对某种物质中过敏的人数,遗传缺陷、癌症等非传染性疾病物质中过敏的人数,遗传缺陷、癌症等非传染性疾病的发病例数;又如大量产品中不合格品出现的次
9、数;的发病例数;又如大量产品中不合格品出现的次数;用显微镜观察片子上每一格子内的细菌数;细胞发生用显微镜观察片子上每一格子内的细菌数;细胞发生某种变化或细菌死亡的数目等等,都服从或近似服从某种变化或细菌死亡的数目等等,都服从或近似服从Poisson分布。分布。Poisson分布可视为二项分布的特例。分布可视为二项分布的特例。Poisson分布常用于研究单位容积分布常用于研究单位容积(或面积、时间或面积、时间)内稀内稀有事件发生数的规律。有事件发生数的规律。1定义定义若随机变量若随机变量X的概率函数为的概率函数为(x=0,1,2,)(9.9)参数参数系系Poisson分布的总体均数分布的总体均数
10、(即数学期望即数学期望),=。2Poisson分布的均数、方差分布的均数、方差Poisson分布的总体均数分布的总体均数=n,相应的样本均数,相应的样本均数=np,式中式中为稀有事件发生的概率为稀有事件发生的概率(很小很小),未知时,未知时,用大样本率用大样本率p来估计来估计。式式(9.10)的的意意思思是是:稀稀有有事事件件在在n(n很很大大)次次试试验验中中平均发生平均发生n次次(未知时,用大样本率未知时,用大样本率p来估计来估计)。Poisson分布的方差分布的方差=均数均数3Poisson分布的分布函数为分布的分布函数为(9.10)4Poisson分布具有可加性分布具有可加性如果相互独
11、立的如果相互独立的k个随机个随机变量都服从变量都服从Poisson分布,则它们之和仍服从分布,则它们之和仍服从Poisson分分布,且均数为布,且均数为k个随机变量的均数之和。如果以较小个随机变量的均数之和。如果以较小的度量单位观察某一现象的发生数呈的度量单位观察某一现象的发生数呈Poisson分布时,分布时,把若干个小单位合并为一个大单位后,总计数亦呈把若干个小单位合并为一个大单位后,总计数亦呈Poisson分布,其均数等于以较小的度量单位时的均数分布,其均数等于以较小的度量单位时的均数之和。例如已知某放射性物质每之和。例如已知某放射性物质每10分钟放射脉冲数呈分钟放射脉冲数呈Poisson
12、分布,分布,5次测量的结果分别为次测量的结果分别为35,34,36,38,34次,那么次,那么50分钟的脉冲数分钟的脉冲数x=35+34+36+38+34=177次,亦呈次,亦呈Poisson分布。分布。Poisson分布资料常利分布资料常利用可加性原理使均数用可加性原理使均数20,以便用正态近似法处,以便用正态近似法处理。理。5三三种种分分布布的的渐渐近近关关系系二二项项分分布布、Poisson分分布布和和正正态态分分布布,是是三三种种基基本本的的也也是是最最重重要要的的概概率率分分布布,它它们们之之间间有有着着密密切切的的渐渐近近关关系系,若若所所考考察察的的事事件件发发生生率率为为p,试
13、验次数为,试验次数为n,则如图,则如图9-3。(1)二二项项分分布布资资料料,当当0.1p50时时,可可用用正正态态分分布布法法近近似似计计算算;当当p0.9,n50,均均数数np10时时,可可用用Poisson分分布布法法近近似似计计算;算;(2)Poisson分布资料,当均数分布资料,当均数20时,可用正态分时,可用正态分布法近似计算。布法近似计算。第一节第一节分类资料的统计描述分类资料的统计描述分分类类资资料料的的统统计计描描述述除除用用频频数数表表示示外外,更更多多是是用用相相对对数数(relativenumber)。如如表表7-1的的栏栏,表表7-1第第、列列,都都是是将将分分类类资
14、资料料的的观观察察结结果果,按按照照分分析析的的要要求求,分分类类汇汇总总统统计计观观察察单单位位数数(频频数数),列列出出的的分分类类资资料料频频数数分分布布表表。表表7-1中中第第、两两栏栏及及表表7-1第第列列的的数数据据都都是是绝绝对对数数。绝绝对对数数说说明明实实际际发发生生的的绝绝对对水水平平,是是统统计计分分析析的的基基础础。但但仅仅使使用用绝绝对对数数,不不能能进进行行比比较较分分析析研研究究,故故常常计计算算两两个个有有联联系系的的指指标标之之比比,统统称为相对数。常用相对数有比、构成比和率。称为相对数。常用相对数有比、构成比和率。相对数相对数表表7-1某年某医院外科病区院内
15、感染发生数及其相对数某年某医院外科病区院内感染发生数及其相对数病区病区调查调查人数人数院内感染院内感染发生数发生数各病区与普外病区各病区与普外病区院内感染发生数之比院内感染发生数之比各病区院内感染各病区院内感染发生数构成发生数构成(%)(%)各病区院内各病区院内感染率感染率(%)(%)普外普外808808717131.331.38.798.79胸外胸外52852869690.970.9730.430.413.0713.07骨外骨外49949934340.480.4815.015.06.816.81神外神外29129153530.750.7523.323.318.2118.21合计合计21262
16、126227227100.0100.010.710.7表表 7-1 7-1的的栏,表栏,表9-39-3第第、列,都是将分类资料的观察结果,按照列,都是将分类资料的观察结果,按照分析的要求,分类汇总统计观察单位数分析的要求,分类汇总统计观察单位数(频数频数),列出的分类资料频数分布表。,列出的分类资料频数分布表。表表9-29-2中第中第、两栏及表两栏及表9-39-3第第列的数据都是绝对数。绝对数说明实际发列的数据都是绝对数。绝对数说明实际发生的绝对水平,是统计分析的基础。但仅使用绝对数,不能进行比较分析研生的绝对水平,是统计分析的基础。但仅使用绝对数,不能进行比较分析研究究 肝脾血虚、肝郁化热肝
17、脾血虚、肝郁化热2026.67心虚肝郁、神不守舍心虚肝郁、神不守舍79.33肝肾阴虚、肝阳偏元肝肾阴虚、肝阳偏元3546.67表表9-375例更年期综合症辨证分型观察例更年期综合症辨证分型观察证证型型例数例数构成比构成比(%)脾肾阳虚、水湿不化脾肾阳虚、水湿不化1317.33合合计计75100.001,常用相对数常用相对数1 1比比(ratio)(ratio)亦亦称称相相对对比比(relative(relative ratio)ratio),是是两两个个有有关关指指标标之之比比,是是说说明明两两对对比比水水平平的的指指标标。对对比比的的数数量量可可以以是是绝绝对对数数、相相对对数数或或平平均均
18、数数,可可以以是是性性质质相相同同,也也可可以以是是性性质质不不相相同同。例例如如,变变异异系系数数CVCV=(标标准差准差 /均数均数)100%)100%,就是一个相对比。,就是一个相对比。习惯上,若甲指标大于乙指标,相对比的结果用倍习惯上,若甲指标大于乙指标,相对比的结果用倍数表示;若甲指标小于乙指标,相对比的结果用百分数表示;若甲指标小于乙指标,相对比的结果用百分数表示。如表数表示。如表9-29-2第第栏中,各病区与普外病区院内栏中,各病区与普外病区院内感染发生数之比分别为感染发生数之比分别为69/7169/71,34/7134/71,53/7153/71,即,即0.970.97,0.4
19、80.48,0.750.75。说明各病区院内感染发生数分别。说明各病区院内感染发生数分别为普外病区的为普外病区的97%97%,48%48%,75%75%。又如,我国最早的古。又如,我国最早的古典医籍五十二病方载药典医籍五十二病方载药240240种,种,发展到明代李时珍集古代医药之大成的科学巨著本发展到明代李时珍集古代医药之大成的科学巨著本草纲目,载药已达草纲目,载药已达18921892种,相对比种,相对比1892/1892/240=7.88240=7.88,说明本草纲目载药为五十二病方,说明本草纲目载药为五十二病方载药的载药的7.887.88倍倍 。2构成比构成比(constituentrat
20、io)又称构成指标。说明又称构成指标。说明某事物内部各组成部分在该事物整体中所占的比重或某事物内部各组成部分在该事物整体中所占的比重或分布,如说明药物的成份构成,或疾病的死因构成、分布,如说明药物的成份构成,或疾病的死因构成、年龄别构成、性别构成、职业构成等,常以百分数表年龄别构成、性别构成、职业构成等,常以百分数表示,计算公式为:示,计算公式为:3率率(rate)又又称称频频率率指指标标,它它指指一一定定条条件件下下某某现现象象发发生生的的频频率率或或强强度度。如如说说明明治治疗疗的的有有效效率率、疾疾病病的的病病死死率率等等。常常用用符符号号表表示示总总体体率率,而而用用符符号号p表表示示
21、样样本本率。率的计算公式为:率。率的计算公式为:式中的式中的100%或或1000为比例基数。选择依据:为比例基数。选择依据:习惯,如有效率、感染率、治愈率、病死率习惯用习惯,如有效率、感染率、治愈率、病死率习惯用百分率表示;出生率、死亡率习惯用千分率表示。百分率表示;出生率、死亡率习惯用千分率表示。使算得的率至少保留一、二位整数,如恶性肿瘤的死使算得的率至少保留一、二位整数,如恶性肿瘤的死亡率多采用十万分率表示。亡率多采用十万分率表示。4率率的的标标准准误误类类似似于于均均数数的的抽抽样样误误差差,在在抽抽样样研研究究中中所所获获得得的的样样本本率率与与总总体体率率也也存存着着率率的的抽抽样样
22、误误差差。表表示示率率抽抽样样误误差差大大小小的的统统计计指指标标称称为为率率的的标标准准误误(standardofrate)。由由于于总总体体率率和和总总体体率率的的标标准准误误一一般般未未知知,常常用用样样本本率率p来来估估计计总总体体率率,用用样样本本率率的的标标准误准误sp来估计总体率的标准误:来估计总体率的标准误:一般说来,用样本率一般说来,用样本率p 来估计总体率来估计总体率时,至少时,至少n 应大于应大于30。率的标准误是衡量样本率稳定性和可靠性的统计指率的标准误是衡量样本率稳定性和可靠性的统计指标,它反应率的抽样误差大小,率的标准误越小,表示标,它反应率的抽样误差大小,率的标准
23、误越小,表示率的抽样误差越小,用以估计总体率的可靠性就越大。率的抽样误差越小,用以估计总体率的可靠性就越大。反之,如果率的标准误越大,则由样本率估计总体率的反之,如果率的标准误越大,则由样本率估计总体率的可靠性越小。可靠性越小。5.应用相对数时应注意的问题应用相对数时应注意的问题(1)计计算算相相对对数数的的分分母母不不宜宜过过小小。观观察察单单位位数数够够多多时时,计计算算出出的的相相对对数数较较稳稳定定,可可以以正正确确反反映映实实际际情情况况。但但观观察察单单位位过过少少即即分分母母过过小小时时,计计算算出出来来的的相相对对数数不不稳稳定定,这这时时最最好好直直接接用用绝绝对对数数表表示
24、示;必必须须用用相相对对数数时时,应应同同时时列列出出其其可可信信区区间间。但但动动物物实实验验可可例例外外,因因动动物物实实验验可可以以周周密密设设计计,精精选选对对象象,严严格格控控制制实实验验条条件件,例例如如有有的的毒毒理理实实验验,每每组组用用10只只小小白白鼠鼠也也可可以以观观察察反反应应率率或或死死亡率。亡率。(2)进进行行率率的的对对比比分分析析时时,应应注注意意资资料料有有可可比比性性。除除了了被被研研究究的的因因素素之之外外,其其余余可可能能影影响响指指标标的的重重要要因因素素应应控控制制在在“齐齐同同对对比比”的的条条件件下下。若若两两组组分分类类资资料料的的诊诊断断标标
25、准准或或疗疗效效判判断断标标准准不不一一致致,则则组组间间缺缺乏乏可可比比性性;若若两两组组资资料料内内部部构构成成(如如病病人人的的性性别别、年年龄龄、病病程程及及病病情情等等)缺缺乏乏齐齐同同性性,则则两两个个总总率率也也不不能能直直接接进进行行比比较较。如如果果需需要要直直接接比比较较总总率率,为为了了消消除除某某一一混混杂杂因因素素(如如年年龄龄,职职业业,病病性性等等)对对观观察察结结果果的的影影响响,可可作作率率的标准化处理。的标准化处理。3)3)避避免免“以以比比代代率率”,“比比”、“率率”误误用用。例例如如临临床床研研究究报报告告中中,常常用用病病人人的的资资料料来来分分析析
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 研究生 统计学 讲义 分类 资料 统计 描述 推断
限制150内