第二章医学统计描述技术总结.ppt.docx
第二章医学统计描述技术总结.ppt (七)、应用标准化率留意事项 1、应用干脆法计算标准化率时,由于所选定的标准人口不同,算得的标准化率也不同,因此,比较几个标准化率时,应采纳同一标准人口。 2、当各年龄组的率出现明显交叉时,宜干脆比较各年龄组的发生率,而不宜用标准化法 。 甲乙两厂某工种某病患病率 工龄 甲 厂 乙 厂 (年)工人数 患者数 患病率(%)工人数 患者数 患病率(%) <3 400 12 3.0 101 1 1.0 3 101 10 10.0 400 73 18.0 合计 500 22 4.4 500 73 14.6 <3 3 (工龄) 20 15 10 5 交叉 3、两样本标准化率的比较应作假设检验。 4、采纳间接法计算所得的标准化率仅能与所选标准比较,两个间接法标准化率不能相互比较。 5、标化后的标准化率不反映实际水平,只是用于比较的相对水平。 第五节 动态数列及其分析指标 动态数列 是一系列按时间依次排列起来的统计指标(肯定数、相对数、平均数),用以说明事物在时间上的改变和发展趋势。 一个国家或地区各年的人口数,某种传染病逐年的发病率,这些资料也称时间序列。 动态数列分析的指标 一、肯定增长量 累计增长量,以某一年为基数(第一年),以后各年与之相减即得; 逐年增长量,以下一年数量减上一年数量即得。 二、发展速度和增长速度 发展速度和增长速度均为比,说明事物在肯定时期的速度改变。 发展速度 表示报告期指标的水平相当于基期水平的一百零一分之多少或若干倍。 增长速度 说明某现象增长程度的相对比 增长速度=发展速度1。 1、发展速度 (1) 定基发展速度 以某个时间(基期a0)的指标作基数,各个时间(报告期ai)的指标与之相比; a1/a0, a2/a0, , an/a0 2000年:69101/4731=1.482 (2)环比发展速度 以前一个时间的指标作基数,以相邻的后一年的指标与之相比。 a1/a0, a2/a1, , an/an-1 2000 年:69101/5884=1.189 2、增长速度 (1) 定基增长速度 以累积增长量与基期指标相比。或定基发展速度-1 a1/a0, a2/a0, , an/a0 2000年:2276/4731=0.482=48.2% (2)环比增长速度 以逐年增长量与相邻 前一年的指标相比。或环比发展速度-1 a1/a0, a2/a1, , an/an-1 2000年:1113/5884=0.189=18.9% 三、平均发展速度和平均增长速度 平均增长速度=平均发展速度1 a0为基期指标,an为第n年指标 平均增长速度1.10310.10310.3% 本例 依据动态数列,尚可以进行预料: 如依据本例资料,预料今后将来几年里医护人员数量的方法: 如预料2022年的医护人员数量:n=9 为从11016起,第n年的医护人员数量(即所预料的值),n为年数。 (人) 即依据该地110162000年的平均发展速度,预料到2022年该地的医护人员数量可达11408人。 身高(cm) 频数(f) 组中值(x) f x f x2 95- 1 96.5 96.5 9312.25 101- 7 101.5 696.5 69301.75 101- 10 102.5 104- 18 105.5 107- 25 108.5 110- 21 111.5 113- 15 114.5 116- 15 117.5 119- 7 120.5 122-125 1 123.5 合计 120(f ) 13218(fx) 1460046 (fx2) 3.8 509.2 1743.76 * 某医院11010年与11012年各科病床状况 科别 11010年 11012年 病床数 构成比 病床数 构成比 内科 200 50.0 300 60.0 外科 101 25.0 101 20.0 儿科 101 25.0 101 20.0 合计 400 101.0 500 101.0 (三)、?相对比(Ratio) 相对比是A、B两个有关指标之比,说明A是B的多少倍或一百零一分之几。 A与B的性质可以相同,也可以不同。可以是肯定数也可以是相对数或平均数。 人口密度、性比例、医护比,医技比 二、 应用相对数的留意事项 1、计算相对数的分母不宜过小 分母过小则计算所得的相对数不稳定,不行靠,简单产生误会。 临床资料至少30例才好计算率 动物试验10例也可以计算率! 2、构成比不能代替率(分析时不能以比代率 ) 在实际应用中常常出现以构成比代替率进行分析的错误。 有下表资料 年龄(岁)0 102030405060 73 合计 沙眼人数 47 1101 330 1101 128 80 38 8 1027 % 4.6 19.3 32.1 19.3 12.4 3.7 7.8 0.8 101.0 某文章作者依据上述资料认为,沙眼在20组的患病率最高,以后随年龄增大而削减。 犯了以比代率的错误 3、正确计算合计率(总率) 对视察单位数不等的几个率,不能干脆相加求平均率 正确的方法:总的发生数除以总的视察单位数。 某医院各科的病死率 科别 患者数 死亡数 病死率(%) 外 科 1500 180 12.0 内 科 500 20 4.0 传染科 400 24 6.0 合计 2400 224 7.3 (12.0+4.0+6.0)/3×101%=7.3% 平均率=224/2400×101%=9.3% 确定率(或构成比)的因素许多,除所探讨的因素外,尚有很多重要的影响因素;两个或两个以上的率(构成比)相比较时,其他重要的影响因素要相同或相近(即所谓的具有可比性),否则就不能干脆对率进行比较。一般的,两个地方的诞生率、死亡率、发病率,不同级别医院某病的治愈率等不能干脆比较。 4、留意资料的可比性 率(或构成比)的比较是否具有可比性,通常留意以下两个方面: (1)视察对象同质,探讨方法相同,视察时间相等,以及探讨对象所处的地区、民族、职业、生活条件和习惯要一样;影响率的其它因素在各对比组的内部构成是否相同。 (2)同一地区不同时期资料的相对数比较,应留意条件有无改变。 两医院乳腺癌手术后的5年生存率(%) 腋下淋巴 省医院 市医院 结转移 病例数 构成 生存数 生存率 病例数 构成 生存数 生存率 无 45 6.0 35 77.77 300 78.3 215 73.67 有 730 94.0 450 63.38 83 21.7 42 50.60 合计 755 101.0 485 64.24 383 101.0 257 67.10 不能干脆比较两院总的生存率(应标化后再比) 两院乳腺癌病人有无淋巴结转移构成比较 有转移 无转移 省医院 730/755=0.940 45/755=0.060 市医院 83/383=0.217 300/383=0.783 ? 5、率或构成比的比较要遵循随机抽样的原则,要做假设检验。 即两组或多组率比较,要作假设检验再下结论。 三、 率的标准化法 两医院乳腺癌手术后的5年生存率(%) 腋下淋巴 省医院 市医院 结转移 病例数 生存数 生存率 病例数 生存数 生存率 无 45 35 77.77 300 215 73.67 有 730 450 63.38 83 42 50.60 合计 755 485 64.24 383 257 67.10 不能干脆比较两院总的生存率(应标化后再比) (一)、标准化法的意义和基本思想 率的标准化:是指在比较两个或多个总率时,采纳一个共同的内部构成标准,将两个或多个样本不同的内部 部构成调整为相同的内部构成,以消退因内部构成不同对总率产生的影响,使算得的标准化率具有可比性。采纳标准化方法计算得到的率简称标化率,又调整率。 基本思想:采纳统一的标准内部构成(年龄、性别),在相同的内部构成条件下,计算预期的发生率(死亡率); 目的:消退因内部构成不同对总率产生的影响,使标化率具有可比性。 (二)、标化率的计算 标化率的计算,常用的有干脆法和间接法。 1、干脆法计算标化率 当已知被标化组内部各小组的率时(即pi), 采纳干脆法。 为标准组的人口数 P代表标准化率,Ni为标准组各个年龄人口数,N为标准组总人口数;pi为被标化组各年龄组的发生率。 Ni pi为预期发生数;Ni/N为标准组年龄构成。留意:不能用N×p 求出预期发生数。 2、间接法计算标化率 P为标准组总死亡率(发生率),Pi为标准组各年龄组死亡率(发生率),r为被标化组实际死亡数(发生数),r/niPi为被标化组实际死亡数与预期死亡数之比,称为标准化死亡比,用SMR表示; 若SMR>1,说明被标化组人群死亡率高于标准组;若SMR<1, 说明被标化组人群死亡率低于标准组。间接法标化率仅用于被标化人群与标准组比较,两个间接法标准化率不能干脆比较(没对年龄进行调整)。 (三)标准化率的计算步骤 1、选择干脆法或间接法 干脆法:已知内部各组的率时选用; 间接法:已知各年龄组的人口数和总死亡数时选用。 2、选择标准 干脆法:选择标准的人口数; 间接法:选择标准的死亡率或患病率 3、按公式计算标化率 (四)、标准人口选择方法: (1)选择有代表性的、较稳定的、数量较大的人群,如全世界的、全国的、全省的、本地区的历年人口数; (2)选择相互比较的人群合并做标准; (3)选择相互比较的人群某一组做标准。 相互比较时,标准要相同。例如,国际间的比较要采纳世界通用的标准。 (五)用干脆法计算标准化率 当已知被标化组内部各小组的率时,可以采纳干脆法计算标准化率。 已知内部各分率,可用干脆法 乙两医院乳腺癌手术后的5年生存率(%) 腋下淋巴 省医院 市医院 结转移 病例数 生存数 生存率 病例数 生存数 生存率 无 45 35 77.77 300 215 73.67 有 730 450 63.38 83 42 50.60 合计 755 485 64.24 383 257 67.10 两组合并为标准 两医院乳腺癌手术后的5年生存率(%) 淋巴 省医院 市医院 结转移 标准人数 原生存率 预期生存数 原生存率 预期生存数 无 345 77.77 268.3 73.67 247.3 有 793 63.38 502.6 50.60 401.3 合计 1138 773.9 648.5 1、用标准人数计算 省医院标化生存率= ×101% 预期生存总数 标准病人总数 = ×101% 773.9 1138 =67.74% 市医院标化生存率= ×101% =56.101% 1138 648.5 2、用标准人口构成计算 345/1138=0.3032 793/1138=0.6968 (六)间接法计算标准化率 已知被标化组内部各小组的人数以及总的死亡人数或发病人数时,采纳间接法计算标准化率。 例 2-20 用间接法计算标准化率 已知两医院治疗各种病型的人数以及五年总的生存人数:485人和257人。不知各种病型的五年生存率,则只能用间接法。 省医院SSR>1,说明其生存率高于标准组;市医院SSR<1,说明其生存率低于标准组。 反映离散程度的常用指标: 1、极差 2、四分位数间距 3、方差 4、标准差 5、变异系数 一、极差(全距)R 1、计算公式:R最大值最小值 2、意义:R愈大,离散度愈大, R愈小,离散度愈小。 3、优点:计算简洁,意义明白 4、缺点:(1)不能反映每一个视察值的变异; (2)样本例数越大,R可能越大; (3)R抽样误差大,不稳定。 二、四分位数间距(简记Q) 1、计算公式: 四分位数间距QQUQL P25:下四分位数,简记QL P75:上四分位数,简记QU 2、意义:反映中间一半视察值的极差,意义与R相 似。 3、特点:(1) 比R稳定,但仍未考虑每一个视察 值的变异; (2) 常用于描述偏态资料的离散度。 120名链球菌咽峡炎患者潜藏期,求M, Q Q=P75-P25=64.8-38.7=26.1(小时) 三、方差(总体方差简记 ,样本方差简记 ) 一组视察值的离均差平方和,取其均数,即方差。 (XX)0 (离均差和) (XX)20 (离均差平方和) 缺点:与例数多少有关 1、计算公式(干脆计算法): 2、意义:方差越大,离散度越大; 方差越小,离散度越小。 3、缺点:单位被平方,不便于运用 四、标准差(总体标准差简记,样本标准差简记S) 方差的开平方,即标准差。 1、计算公式: 2、意义:与方差的意义相同 (注:n-1为自由度) 3、计算方法: (1)干脆法: (2)加权法: X为组中值 X为组中值 4、用途: (1)用于表示正态或近似正态分布资料的离散度,说明均数的代表性; (2)结合均数描述正态分布的特征; (3)结合均数计算变异系数,结合样本含量计算标准误,估计参考值范围。 标准差 甲组:262+282+302+322+342=4540 乙组:242+273+302+332+362=4590 丙组: 262+282+302+322+342=4534 求150名男婴诞生体重的标准差。 五、变异系数(简记CV) 1、计算公式: 2、用途: (1)比较度量衡单位不同的多组资料的变异度(离散度) (2)比较均数相差悬殊的多组资料的变异度(离散度) 3、特点:CV没有单位,是相对数,便于资料间的比较。 变异系数 身高: cm, s=4.95cm 体重: kg, s=4.96kg ? CV身高= =2.101% CV体重= =9.23% 101名20岁健康男子的身高和体重的均数、标准差如下,比较其变异度。 某地不同年龄儿童身高(cm)的变异程度 年龄组 人数 均数 标准差 变异系数(%) 1-2月 101 56.3 2.1 3.7 5-6月 120 66.5 2.2 3.3 3-3.5岁 300 96.1 3.1 3.2 5-5.5岁 400 107.8 3.3 3.1 集中趋势指标 资料 抗体滴度 G、S 否 偏态、开口 M、Q 否 X、S 是 是 选择推断的步骤: 离散趋势指标 单位不同 均数相差悬殊 CV 医学统计学 第四节 分类资料的统计描述 一、 常用的相对数 分类资料常采纳相对数进行描述。 收集到的分类资料,表现为肯定数。肯定数说明事物发生的实际水平,是进行统计分析的基础,但不便于事物进行深化地分析比较。 例如:某年甲乙两村发病状况如下: 甲村:发病人数 101 人。 乙村:发病人数 300 人。 发病状况乙村比甲村严峻? 甲村:人口数:1010人 发病人数:101 人 发病率:10.0%。 乙村:人口数:5000人 发病人数:300 人 发病率:6.0% 。 甲村比乙村严峻! 相对数:是两个有联系指标之比,说明事物发生的相对水平,便于对分类资料进行分析和比较。 常用的相对数:率、构成比、相对比 率(Rate)又称频率指标,是指在肯定时间内发生某现象的视察单位数与可能发生该现象的总视察单位数之比。它说明某现象发生的频率或强度。 (一)、率 K为比例基数,可以是一百零一分率(%)、千分率()、万分率(1/万)或十万分率(1/10万),可依据习惯或使计算出的率保持一、二位整数。 人口诞生率、死亡率、自然增长率、婴儿死亡率等采纳千分率; 肿瘤的死亡率采纳十万分率。 习惯用法: 计算率时,留意分母和时间。只有可能发生某事务的视察单位才能做分母。时间一般以年为间期,也有月、周等。 留意 例如: 麻疹发病率 = ×1010 某年新发麻疹病例数 同年麻疹易感儿总数 不应当是儿童总数 构成比(Proportion)又称构成指标,说明一事物内部各个组成部分所占的比重或分布,常以一百零一分数表示,又称一百零一分比。 (二)、构成比 表 4.1 资料 某地2000年5种慢性疾病的构成 11019年中国农村死亡缘由构成 (%) 构成比两个特点: 1)一组构成比之和等于或; 2)某部分构成增加或削减,则其它部分构成就相应削减或增加。 其次节 集中趋势的描述 描述计量资料分布特征的指标 集中趋势指标 离散趋势指标 平均数 R、Q、S、S2、CV 平均数指标 常用的平均数指标: 算术均数、几何均数、中位数 平均数:用于描述一组同质计量资料平均水平(集中位置)的指标,是一组计量资料的代表值。 一、算术均数(均数) 总体均数用 表示,样本均数用 表示。 适用资料:对称分布,尤其是正态分布的资料。 算术均数:说明一组同质计量资料在数量上的平均水平。 加权法: 1、计算方法: 干脆法: f: 频数,x 为组中值=(上限+下限)/ 2 例2-3 10名12岁健康男童体重(Kg)分别为:39.6、33.2、32.1、29.9、43.7、33.8、35.1、37.8、32.4、38.5。求平均体重。 例 2-4 求150名男婴平均体重(用加权法)。 留意:x 为组中值=(上限+下限)/ 2 组中值是每一个组段的平均值 2、均数两个重要特征 、各离均差(各视察值X与均数之差)的总和等于零; 、离均差的平方和小于各视察值X与任何数a之差的平方和。 说明均数是一组视察值最好的代表值。 3、均数的应用 反映一组同质视察值的平均水平 描述正态分布特征的重要参数 原始数据的分布为偏态分布,但经对数变换后的分布呈正态分布 二、几何均数(geometric mean, 简记为 G) 1、适用资料: (1)等比级数资料 (2)对数正态分布资料 (某些微量元素资料) (血清抗体滴度资料) 2、计算方法: (1)干脆法 (2)加权法 例2-4 8名病人的血清抗体滴度为:1:5、1:10、1:20、 1:40、 1:40、 1:80、1:160 、1:320 ,求平均滴度。 平均滴度为:1:40.0 抗体滴度 人数f 滴度倒数X lgX flgx 1:8 5 8 0.9031 4.5154 1:16 11 16 1.2041 13.2453 1:32 12 32 1.5051 18.0618 1:64 20 64 1.8061 36.1236 1:128 9 128 2.1073 18.9649 1:256 3 256 2.4082 7.2247 合计 60 101.135779 表2-4 60名麻疹易感儿童血凝抑制抗体滴度 不需计算组中值 血凝抑制平均抗体滴度为: 1:43.2。 3、应用几何均数留意事项: (1)视察值不能有0; (2)视察值不能同时有正负值; (3)同一资料求得的G< 三、中位数(M)和一百零一分位数(Px) (一)、定义 1、中位数: 将一组视察值从小到大按依次排列,位次居中的数值就是中位数。 在全部视察值中,大于和小于中位数的视察值的个数相等。 2、一百零一分位数:将一组视察值从小到大按依次排列,将该数列分为一一百零一零一等份,在某一百零一分位置上的值,就是一百零一分位数,用Px表示。 一个一百零一分位数将全部视察值分为两部分,理论上有x的视察值比它小,有(101-x)的视察值比它大。P50分位数也就是中位数。 (二)、中位数和一百零一分位数的适用范围 (1)偏态分布资料 (2)分布不明资料 (3)分布末端无确定值资料(开口资料) 一百零一分位数用于描述一组数据某一百零一分位置上的水平。 理论上,中位数可用于描述任何分布的计量资料的平均水平, 但实际应用中常用于偏态分布,特殊是开口资料。 某市238名健康人发汞含量 发汞值(g/g) 人数 0.3 3 0.3 17 0.7 66 1.1 60 1.5 48 1.9 18 2.3 16 2.7 6 3.1 1 3.5 1 3.9 2 合计 238 总胆红素 人数 (mol/L) 一般组 重症组 <17 4 0 17 10 0 80 15 3 160 1 9 240 0 2 320 0 4 400 0 4 合计 30 22 两组肝炎婴儿的血清总胆红素测定结果 (三)计算方法 1、干脆法:适用于视察数少资料 (仅计算中位数) n为奇数时, M 3, 4, 6, 7, 9, 10,26 x1 x2 x3 x4 x5 x6 x7 M n为偶数时, M x1 x2 x3 x4 x5 x6 x7 x8 3 5 7 8 9 10 13 27 M(89)/28.5 一百零一分位数(PX)干脆计算法 Px=(X int(nx%)+ X int(nx%)+1)/2 当 nx%=int(nx%) 时: 注:式中 int(nx%) 为n与x%乘积的整数部分 当 nx%>int(nx%) 时: Px= X int(nx%)+1 注:式中 int(nx%) 为n与x%乘积的整数部分 nx%=150×20%=30=int(150×20%), 即 P20=(X30+X31)/2=(3.2+3.2)/2=3.2(kg) 例2.11 依据表2.2资料,求P20 、P75 nx%=150×75%=112.5>int(nx%), 即 P75=X112+1=X113=3.6(kg) 2、频数表法:适用于频数表资料 步骤: 从小到大计算累计频数和累计频率; 确定一百零一分位数和中位数所在组段; 计算一百零一分位数Px和中位数M L: Px或M所在组段的下限 i: Px或M所在组段的组距 fx: Px或M所在组段的频数 :小于L各组段的累计频数 例2-10 求:M 、P25、 P75 12 2 24 20 36 36 48 28 60 10 73 2 22 58 (M) 86 96 ( 60 ) 4、中位数和一百零一分位数的用途 (1)中位数描述一组偏态资料的集中趋势; 一百零一分位数描述一组资料在某一百零一分位置的水平, 在对称分布资料中, (2)一百零一分位数也用于确定医学参考值范围。 集中趋势指标的选择推断步骤 资料 抗体滴度 G 否 偏态、开口 M 否 X 是 是 常用平均数的意义及其应用场合 平均数 意 义 应用资料 均 数 平均数量水平 应用甚广,最适用于对称分布, 特殊是正态分布; 几何均数 平均增(减)倍数