定量资料的统计描述(精品).ppt
定量资料的统计描述定量资料的统计描述北京协和医学院基础学院统计学教研室 徐涛医学统计学课程信箱nbasicstat_n密码:密码:65296408主要内容主要内容n频数分布表的编制和用途n频数分布的特征和类型n集中趋势指标n均数、几何均数、中位数n离散趋势指标n极差、四分位数间距、方差、标准差、变异系数n百分位数定量资料定量资料n定量资料是指每个观察单位某个变量用测量或其他定量方法观察结果,一般有计量单位。n定量资料、数值资料、计量资料(measurement data,quantitative data)n定量资料的各个观察值之间有量的区别,没有性质的不同。连续型资料和离散型资料n连续型资料(continuous data)n理论上在任何两个连续型数据之间都还有无穷多个数据;n只要测量仪器足够精确,连续型数据可以精确到小数点后第无限位,比如体重,在60.1和60.2kg之间理论上存在着无限多个数据。n离散型资料(discrete data)n往往是一种计数,这种计数只能是0和正整数,不会是负数,也没有小数点;n比如心率、脉搏、儿童龋齿个数、血小板数、某年某地交通事故死亡人数等,随机变量和研究资料的类型随机变量和研究资料的类型频数分布表频数分布表 n为了了解资料的分布特征,当观察值很多时,直接从原始数据很难得出概括的印象。这时可以通过资料的整理,编制频数分布表(简称频数表),来显示数据分布的范围、数据最集中的区间和分布的形态。某地儿研所测得该地某地儿研所测得该地150名名12岁健康男童体重岁健康男童体重(kg)原始数据如下,试编制频数表。原始数据如下,试编制频数表。n25.2 34.9 34.3 38.1 41.3 27.8 33.8 37.7 28.4 33.5 47.3 34.8 n30.5 36.2 51.0 38.0 43.8 40.9 37.5 36.6 33.4 47.4 36.4 41.4 n36.5 42.5 33.7 29.3 39.6 37.5 39.6 33.2 32.1 29.9 43.7 33.8 n35.1 37.8 32.4 38.5 28.2 36.5 23.4 35.8 34.1 27.6 42.6 23.1 n37.1 44.0 35.6 44.5 46.5 35.0 31.8 36.4 36.2 47.9 38.7 20.5 n37.1 29.2 38.2 41.1 36.2 43.5 32.8 36.3 31.8 30.6 38.5 39.6 n28.7 33.7 35.1 42.9 20.1 35.4 26.5 42.0 39.6 38.7 35.4 51.2n31.4 34.1 25.3 29.6 38.2 43.7 33.8 24.5 29.2 45.9 32.5 23.5n36.8 27.2 34.0 34.7 44.4 41.2 35.3 42.6 34.1 30.0 31.4 40.8n27.3 48.6 35.8 29.7 45.6 41.8 33.0 28.3 33.3 35.1 40.6 38.2n37.6 25.5 37.3 37.5 41.5 38.4 44.2 43.2 31.5 40.2 34.5 37.4n37.8 33.4 32.2 33.4 32.4 32.8 36.8 45.7 41.2 40.9 36.5 47.9n35.7 39.3 42.2 35.3 30.1 27.2 找出最大值和最小值,计算极差。找出最大值和最小值,计算极差。n极差(R)也叫全距,它是一组变量值中最大值与最小值之差。n最大值为51.2kg,n最小值为20.1kg,n极差R=51.2-20.1=31.1kg。按极差大小决定组段数、组段和组距按极差大小决定组段数、组段和组距n斯梯阶公式:n经验划分:组段数的多少一般根据观察单位的多少来确定,过多或过少均不能更好地反映资料的分布特征,以能够反映频数分布的特点为宜,一般分为815组。n本例初步确定为10个组。按极差大小决定组段数、组段和组距按极差大小决定组段数、组段和组距 n相邻组段下限值之差称为组距,一般分组时取组距相等。n组距=极差/组数,常取整数作组距,取整只是为了方便资料的整理汇总。n本例组距=31.1/10=3.113。按极差大小决定组段数、组段和组距按极差大小决定组段数、组段和组距n每个组段的起点称“下限”,终点称“上限”;n第一组段必须包括最小值,一般取略小于最小值的整数作为第一组的下限,但是第一组的下限值不能等于最小值;n各组段即不重叠,也不能留空隙;n 组段中的横线不能省略,它表示连续型资料;n 最后一个组段应该包括最大值,并且封口,但最后一个组段的上限不能等于最大值。频数表的编制n本例最小值为20.1,故取20为第一组的下限。n第二组下限即20+3=23,余类推。n最后一个组段为5053,包括最大值51.2。n列表划记,统计各组段频数。n计算频率与累计频率。150名名12岁男童体重(岁男童体重(kg)频数分布表)频数分布表 组段组段频数频数f频率(频率(%)累计频数累计频数累计频率(累计频率(%)2021.321.32374.796.026106.71912.7291510.03422.7322516.75939.3353523.39462.7382315.311778.0411812.013590.04485.314395.34753.314898.7505321.3150100.0合计合计150100.0某地某地150名名12岁男童体重频数分布图岁男童体重频数分布图 频数分布的两个特征频数分布的两个特征n如图,体重虽有轻有重,但都向35组段集中,数据大多数集中在3238组段,共83人,占总人数的55%,这种趋势称为集中趋势集中趋势。n另一方面,随体重逐渐变大或变小,仍有小部分变量值存在,称这种特征为离离散散趋趋势势,其变异程度是可以测定得。n集中趋势和离散趋势是频数分布的两个重要特征,测定其集中趋势和离散趋势就可较全面地分析所研究的事物。频数分布的类型频数分布的类型 n频数分布分为对称分布和偏态分布两种。n对称分布是指集中位置在正中,左右两侧频数分布大体对称,如上图。n某地150名12岁男童体重频数分布图n实际应用中,频数分布的形态很重要,分布不同,计算的统计指标及方法也不同。偏态分布偏态分布n集中位置偏向一侧,频数分布不对称。n正正、右右偏偏态态(峰峰)分分布布:集中位置偏于左侧,频数尾部向右侧延伸,如一些以儿童为主的传染病的年龄分布。n链球菌感染咽炎患者潜伏期分布图(正偏峰分布)n负负、左左偏偏态态(峰峰)分分布布:集中位置偏向右侧,频数尾部向左侧延伸,如一些慢性病患者的年龄分布。n207例某恶性肿瘤患者年龄分布(负偏峰分布)链球菌感染咽炎患者潜伏期分布图链球菌感染咽炎患者潜伏期分布图(正偏峰分布)(正偏峰分布)207例某恶性肿瘤患者年龄分布例某恶性肿瘤患者年龄分布(负偏峰分布)(负偏峰分布)频数表的用途频数表的用途 n作为统计资料描述的一种表达方式,可以揭示资料分布类型与特征。n便于发现资料中远离群体的某些特大或特小的可疑值,必要时经检验后舍去。n作为正态性判断的图示法。n便于计算统计指标和进一步分析处理。集中趋势指标集中趋势指标 n平均数(average)用来描述一组变量的集中趋势、中心位置或平均水平,常作为一组资料的代表值,使资料产生简明概括的印象,又便于组间的比较。n平均数的计算和应用必须具备同质基础。n常用的平均数有均数、几何均数和中位数。均数(均数(mean)n均数是算术均数的简称,它反映了一组观察值在数量上的平均水平。总体均数用希腊字母表示,样本均数用 表示。n均数的计算 均数的计算方法有直接法和加权法,计算机运算中多采用直接法。均数的计算n直接法是将所有性质相同的观察值x1,x2,x3xn,直接相加再除以观察值的个数n。例:10名12岁健康男童体重(kg)分别为39.6,33.2,32.1,29.9,43.7,33.8,35.1,37.8,32.4,38.5,求平均体重。均数的计算n加权法 当资料中相同观察值较多时,可将相同观察值的个数,即频数f乘以该观察值x,以代替相同观察值逐个相加。对于频数表资料,可用各组段的频数为f,以相应的组中值组中值为x,代入公式计算均数。n组组中中值值:该组段下限和上限的均值,或该组段下限和下一个组段下限的均值。组中值组中值组段组段组中值组中值频数频数f频率(频率(%)2021.521.32324.574.72627.5106.72930.51510.03233.52516.73536.53523.33839.52315.34142.51812.04445.585.34748.553.3505351.521.3合计合计150100.0均数的计算均数的计算166名受试者的呼吸次数分布名受试者的呼吸次数分布组段组段组中值组中值频数频数f10?31281412161818262046222524162610282合计合计166(10+12)/2=11?(10+11)/2=10.5?166名受试者的呼吸次数分布名受试者的呼吸次数分布组段组段组中值组中值组中值组中值频数频数f101110.53121312.58141514.512161716.518181918.526202120.546222322.525242524.516262726.510282928.52合计合计166均数的两个重要特征均数的两个重要特征 n离均差的总和等于零,即各变量值与均数之差的代数和等于零。n各离均差的平方和小于各观察值X与任何数a之差的平方()。均数的应用均数的应用 n描述呈对称分布的资料,特别是正正态态分分布布或或者者近近似似正正态态分分布布的资料的平均水平,因为这时均数位于分布的中心,最能反映分布的集中趋势。几何均数(几何均数(geometric mean,G)n有些医学资料,如抗体的滴度、细菌计数、传染病的潜伏期等,其频数分布明显偏态,各观察值之间呈倍数变化,这时应该用几何均数反映其平均增(减)倍数。n用途:用于描述等比级数资料和对数正态分布资料等的平均水平。几何均数的计算几何均数的计算n直接法:是将n个观察值x1,x2,x3xn的乘积开n次方所得的根。n加权法:几何均数应用的注意事项几何均数应用的注意事项n观察值不能为0。因为0不能取对数,也不能与任何其它数呈对数关系。可以把所有的变量值均加上一个较小的常数,如加0.001。n观察值不能同时有正值和负值。若全是负值,计算时可把负号去掉,得出结果后再加上负号。中位数(中位数(median,M)n中位数是将一组观察值从小到大按顺序排列,位次居中的数值对应的观察值就是中位数。因而全部观察值中,大于和小于中位数的观察值的个数相等。n用途:中中位位数数常常用用于于描描述述偏偏态态分分布布或或末末端端无无确确定定数数据据时时资资料料的的平平均均水水平平或或集集中中位位置置。因为中位数不是由全部观察值的数量值综合计算出来的,只受居中变量值波动的影响,不受两端特小值和特大值的影响。直接法计算中位数直接法计算中位数 n将原始观察值按大小顺序排列:nn为奇数时,nn为偶数时,n例:n临床观察7名某病患者,其潜伏期(天)分别为:2,3,3,5,6,9,16,求其平均潜伏天数。M5n临床观察8名某病患者,其潜伏期(天)分别为:2,3,3,5,6,9,16,20 求其平均潜伏天数。M(5+6)/25.5频数表法频数表法计算中位数计算中位数 n频数表法是以第50位百分位数(P50)作为中位数。n百分位数(percentile,P)是指把一组资料的全部观测值分为两部分,理论上讲,有x%的观测值比Px小,有(100-x)%的观测值比Px大。频数表法频数表法n nM=P50nLx:第x百分位数所在组段的下限;nfx:第x百分位数所在组段的频数;nix:第x百分位数所在组段的组距;nfL:小于L各组段的累计频数。某医师检测某医师检测120例链球菌感染咽炎患者咽痛至发热出现的例链球菌感染咽炎患者咽痛至发热出现的时间时间(小时)(小时),试计算中位数、第,试计算中位数、第25、75百分位数。百分位数。潜伏期 病例数累计频数累计频率(%)12-221.724-202218.336-365848.3 48-288671.760-109680.072-810486.784-811293.396-411696.7108-4120100.0 合计120中位数所中位数所在组段在组段P25所在组段所在组段P75所在组段所在组段某医师检测某医师检测120例链球菌感染咽炎患者咽痛至发热出现的例链球菌感染咽炎患者咽痛至发热出现的时间时间(小时)(小时),试计算中位数、第,试计算中位数、第25、75百分位数。百分位数。百分位数的应用百分位数的应用 n百分位数用于描述样本或总体观察值序列在某百分位置水平,多个百分位数结合应用时,可更全面地描述总体或样本的分布特征,可用来确定医学参考值范围。n由于位于中部的百分位数比较稳定,所以最常用的百分位数是中位数,它有较好的代表性。离散程度指标离散程度指标n三组同性别、同年龄儿童的体重(kg)如下,分析其集中趋势与离散趋势。甲组甲组 26 28 30 32 34 X甲甲=30kg R=8 S=3.16乙组乙组 24 27 30 33 36 X乙乙=30kg R=12 S=4.74丙组丙组 26 29 30 31 34 X丙丙=30kg R=8 S=2.91 哪一组数值的代表性好?离散程度指标离散程度指标n离散趋势即个体值之间的变异程度,数据越分散,变异程度越高。n极差n四分位数间距n方差n标准差n变异系数极差极差(range,R)n极差也叫全距,表示一组观察值中最大值与最小值之差,反映个体差异的范围。n极差大,说明变异度大,各变量值离均数越远,数据越分散;反之亦然。n缺点:n由于计算极差时只采用了最大值和最小值,未考虑组内其它数据的变异程度,因此用极差反映变异度不够全面,稳定性也差;n当样本例数增大时,得到较大或较小观察值的机会可能会变大,所以极差也可能更大。四分位数间距(quartile range,QR)nQR=QU-QL=P75P25n四分位数间距包含一半的观测值,其值越大,变异程度越大;其值越小,变异程度越小。n优点:采用四分位数间距来反映一组资料的变异程度,比极差稳定。实际工作中,常与中位数结合使用,描述偏态分布资料偏态分布资料的分布特征。n缺点:不能全面地反映所有观察值的变异程度。离散趋势指标离散趋势指标n极差Rn 离均差(x-)离均差总和(x)=0 n离均差平方和(x)2 n 均方(方差)2=(x)2/N n 标准差四分位数间距QR方差与标准差方差与标准差n但是在实际工作中,总体方差往往是未知的,常用样本方差s2来估计。在公式中,用 代替,用n代替N,这时计算的结果往往比总体方差2要小,所以分母用n-1来代替N,即公式变为:n样本方差s2是总体方差2的无偏估计。nN-1:自由度,常用或df表示,是指随机样本研究中,可独立地随机选择变动的观测值的个数。标准差(标准差(s,SD)的计算)的计算n通常所说的标准差为样本标准差。n标准差的计算包括直接法和加权法两种。标准差的应用标准差的应用n标准差是反映数据变异程度的指标,其大小受每一个观察值的影响,变异程度大,标准差也大。n常用于描述对称分布,尤其是正正态态分分布布或或近近似似正正态分布资料态分布资料的离散程度。n各观察值同加(或减)一个不为零的常数,标准差仍保持不变;但每一个观察值同乘(或除)一个不为零的常数,其标准差等于原标准差乘(或除)以该常数的绝对值。谁的离散程度大?谁的离散程度大?n身高:Mean=172cm,SD=8cmn体重:Mean=63kg,SD=6kgn身高(30岁):Mean=172cm,SD=8cmn身高(3岁):Mean=98cm,SD=5cm变异系数(变异系数(CV)nCV=s/100%n它是反映相对变异度的指标。n变异系数常用于:n测量单位不同的几组资料变异度的比较;n均数相差悬殊的几组资料变异度的比较。谁的离散程度大?谁的离散程度大?n身高:Mean=172cm,SD=8cm,CV=0.047n体重:Mean=63kg,SD=6kg,CV=0.095n身高(30岁):Mean=172cm,SD=8cm,CV=0.047n身高(3岁):Mean=98cm,SD=5cm,CV=0.051计算器功能简介计算器功能简介nMODE或DRG:模式转换nDEG:degree 角度nRAD:radian 弧度nGRA:gradient 梯度nINV、SHIFT或2nd F:第二功能nSD 或 STAT:统计功能 ,x,x2,n(X),n-1(sX,s)。nX、data 或DT:数据储存 Xi f data小小 结结 n频数的分布特征:集中趋势和离散趋势。n频数的分布类型:对称分布和偏态分布。n 平均数是描述频数分布集中位置的指标,它代表一组观察值的平均水平。n均数:描述对称分布,特别是正态或近似正态分布的平均数量水平。n几何均数:反映等比级数资料或对数正态分布资料的平均增(减)倍数。n中位数:常用于反映偏态分布、分布不明或分布末端无确定值的资料的位次居中的观察值水平。小小 结结n百分位数描述观察序列在某百分位置的水平,它是分布的百分界值,可用于确定医学参考值范围,适用于任何分布。n描述频数分布离散程度的指标有:n方差与四分位间距,后者较稳定,但均不能综合反映各观察值的变异程度;n 方差和标准差,最为常用,对正态及近似正态分布尤为重要;n变异系数,可用于资料度量单位不同或均数相差悬殊时变异度的比较。