最新十四章数值变量的统计描述精品课件.ppt
第十四章 数值变量的统计描述 第一节 数值变量资料的频数分布表与频数分布图 第二节 集中趋势的描述 第三节 离散趋势的描述 第四节 正态分布和医学参考值范围的估计正态分布正态分布( normal distribution )中间高、两边低、左右对称属于对称分布的一种中间高、两边低、左右对称属于对称分布的一种许多医学资料都属于这种分布,例如人体正常的生理生化指标许多医学资料都属于这种分布,例如人体正常的生理生化指标正态分布正态分布正偏态分布正偏态分布正偏态分布:正偏态分布:峰偏左,尾部向右侧延伸峰偏左,尾部向右侧延伸如:以儿童为主的传染病发病人数的分布如:以儿童为主的传染病发病人数的分布右偏态右偏态负偏态分布:负偏态分布:峰偏右,尾部向左侧延伸峰偏右,尾部向左侧延伸如:以老年人为主的慢性病发病人数的分布如:以老年人为主的慢性病发病人数的分布左偏态左偏态负偏态分布负偏态分布(positive skewed)(negative skewed)四、频数分布图 绘制频数分布直方图 坐标轴 横坐标:变量值即研究指标,无需从横坐标:变量值即研究指标,无需从0开始,以单位尺度开始,以单位尺度划分。划分。 纵坐标:为频数纵坐标:为频数f,必须从,必须从0开始(开始(f为每一组段内的人数)为每一组段内的人数) 直条 直条的宽度:组距直条的宽度:组距 直条的高度:每一组段的频数直条的高度:每一组段的频数 累计频数分布图图图14-1 某市某市150名名3岁女孩身高的频数分布岁女孩身高的频数分布第二节 集中趋势的描述 算术均数(arithmetic mean) 几何均数(geometric mean) 中位数和百分位数(median percentile)以上统称为平均数(average)常用于描述一组变量值的集中位置,代表其平均水平或是集中位置的特征值。某公司员工工资,请描述平均水平 1、1800,1900,1900,2000,2000,2000,2000,2100,2100,2200, 平均工资为2000. 2、1800,1900,1900,2000,2000,2000,2000,2100,2100,10000 平均工资为2800,合理吗?请描述以下资料中变量的平均水平 1、8名某病患者血清抗体滴度为:1:2,1:4,1:8,1:16,1:32,1:64,1:128。 2、某医院收治某癌症患者6人,其生存时间(月)分别为10,8,19,6,20,25一、算术均数又简称为均数(mean) 定义:是反映一组观察值在数量上的平均水平。 总体均数用希腊字母总体均数用希腊字母 表示,样本均数用表示,样本均数用 表示表示 应用: 对称分布,特别是正态分布或近似正态分布的数值变量资料 计算方法: 直接法:直接法: 加权法:加权法:x(arithmetic mean)(arithmetic mean)计算方法 直接法:即将所有观察值x1,x2,x3,xn直接相加再除以观察值的个数,写成公式nxnxxxxxn.321 为样本均数,为样本均数, n n为变量值个数,为变量值个数,表示求和表示求和x一、算术均数 例14.2 有10名3岁女孩身高(CM)分别为92.5,82.5,102.6,99.1,96.6,99.3,85.2,89.2,90.6,95.1,求算术均数。 (CM)27.93 /10) 1 .955 .82(92.5 x一、算术均数 计算方法 加权法(weighting method) 当资料中相同观察值的个数较多时,可将相同观察值的个数,当资料中相同观察值的个数较多时,可将相同观察值的个数,即频数即频数f,乘以该观察值,乘以该观察值x,以代替相同观察值逐个相加。,以代替相同观察值逐个相加。 对于频数表资料,用各组段的频数作对于频数表资料,用各组段的频数作f,以相应的组中值,以相应的组中值(class mid-value)作)作x。组中值组中值=(下限(下限+上限)上限)/ 2 公式公式 f fi i为各组段的频数为各组段的频数x xi i为各组段的组中值为各组段的组中值fxfffffxfxfxfxfxiinnn.321332211一、算术均数2022-7-520表14-1 某市150名3岁女孩身高的频数分布组段fxfxfx28018181656182383249206678488568057800861087870756908819891691150499902391209319046392269324182248749424952280216600961797164915995398109999098010100610160661206102210320621218104106110510511025合计150-139181294566组中值组中值= =(下限(下限+ +上限)上限)/ 2/ 21391892.79()150iif xxcmf一、算术均数 f1, f2,fk分别为各组段的频数,这里的f起到了“权数”的作用,它权衡了各组中值由于频数不同对均数的影响。即频数多,权数大,作用也大;频数少,权数小,作用也小,故称为加权法。 92.7993.27cm用组中值,加用组中值,加权法计算出的权法计算出的均数是精确值均数是精确值吗?吗?一、算术均数二、几何均数 定义:有些医学资料,如抗体滴度、细菌计数等,其频数分布明显偏态,各观察值之间呈倍数变化(等比关系),此时宜用几何均数反映其平均增减倍数。 应用:等比资料或对数正态分布资料 计算方法: 直接法直接法 加权法加权法(geometric mean) 计算方法: 直接法:直接将n个观察值( x1,x2,x3,xn )的乘积开n次 公式公式 写成对数形式为写成对数形式为 nnxxxxG.,3211121lglg.lglg()lglg()nxxxGnxn几何均数:几何均数:变量对数值变量对数值的算术均数的算术均数的反对数。的反对数。二、几何均数 例14-3 设有5人的血清抗体效价为1:10,1:100,1:1000,1:10000,1:100000,求平均抗体效价。本例先求抗体效价的倒数,再求几何均数本例先求抗体效价的倒数,再求几何均数1lg10lg100.lg100000lg10005G血清抗体的平均效价为血清抗体的平均效价为1 1:10001000二、几何均数计算方法: 加权法:当资料中相同观察值得个数f(即频数)较多时,如频数表资料 写成公式写成公式)lg(lg1fxfG二、几何均数 注意事项等比资料,如:等比资料,如:抗体的平均滴度、药物的平均效价、卫生事业平抗体的平均滴度、药物的平均效价、卫生事业平均发展速度、人口的几何增长均发展速度、人口的几何增长对数正态分布:对数正态分布:是右偏态分布是右偏态分布观察值不能有观察值不能有0 0,因为因为0 0不能去对数,不能与任何其他数呈倍数不能去对数,不能与任何其他数呈倍数 关系。关系。观察值不能同时有正值和负值。观察值不能同时有正值和负值。若全是负值,计算是可以把负号若全是负值,计算是可以把负号去掉,得出结果后再加上负号。去掉,得出结果后再加上负号。同一组资料求得的几何均数小于算术均数。同一组资料求得的几何均数小于算术均数。二、几何均数三、中位数 (一)中位数 定义:是将一组观察值从小到大按顺序排列,位次居定义:是将一组观察值从小到大按顺序排列,位次居中的中的观察值观察值就是中位数。就是中位数。 例:例:( (median) ) X X: 5 5,5 5, 6 6, 7 7, 2020, 位次:位次: 1 2 3 4 51 2 3 4 5中位数中位数(M): 6 66.56.523 23 6 6 计算方法:计算方法: 直接由原始数据计算中位数直接由原始数据计算中位数先将观察值按大小顺序排列,再按下面公式计算:先将观察值按大小顺序排列,再按下面公式计算:212221nnnXXMnXMn为偶数时:为奇数时:为为相相应应为为此此上上的的观观察察值值位位次次为为有有序序数数列列中中观观察察值值的的12221)12()2()21(nnnxxxnnn、位次上的观察值位次上的观察值 例14-5 某病患者10人的潜伏期从小到大排列为1,3,8,9,15,19,20,23,25,30,求中位数。 解:n=10 为偶数122561211151917()22nnnMXXMXX为偶数时:天 请大家思考下:计算中位数和其他平均数有什么不同?请大家思考下:计算中位数和其他平均数有什么不同?特点:仅特点:仅利用了中利用了中间的间的1 12 2个数据个数据 计算方法:计算方法: 用频数表计算中位数,用频数表计算中位数,按所分组段,由小到大计算累计频数和累计频率。按所分组段,由小到大计算累计频数和累计频率。再按下面公式计算为:再按下面公式计算为:50%LmiMLnff()下限值下限值L L上限值上限值U Ui; fm中位数中位数M M)%50(Lfn50%LmiMLnff()50%1212(181/2 30)23.52( )63LmnfML ihf 表14-4 181名食物中毒患者的潜伏期天数f累计频数累计频率%0303016.5712639351.38244714077.35362016088.40481217295.0360818099.4572841181100.00 反映了位次反映了位次居中的观察值的水平居中的观察值的水平 优点:不受两端特大值和特小值影响优点:不受两端特大值和特小值影响 缺点:并非考虑到每个观测值缺点:并非考虑到每个观测值 适用于各种分布类型的资料,适用于各种分布类型的资料, 特别适合于:特别适合于:大样本明显偏态分布资料、分布不明的资料、大样本明显偏态分布资料、分布不明的资料、 或者一端或者一端/两端无确切数值的资料两端无确切数值的资料 3.中位数和算术均数在对称分布的资料中,理论上数值是相中位数和算术均数在对称分布的资料中,理论上数值是相 同的同的中位数的特征中位数的特征常用平均数的意义及其应用场合平平均均数数 意意义义 应应用用场场合合 均均数数 平平均均数数量量水水平平 应应用用甚甚广广,适适用用于于对对称称分分布布,特特别别是是正正态态分分布布 几几何何均均数数 平平均均增增(减减)倍倍数数 等等比比资资料料 ;对对数数正正态态分分布布 中中位位数数 位位次次居居中中的的观观察察值值水水平平 偏偏态态资资料料 ;分分布布不不明明 ;分分布布末末端端无无确确定定值值 小小 结结第三节 离散趋势的描述 平均水平的指标只是描述了一组数据的集中平均水平的指标只是描述了一组数据的集中趋势指标,可以作为总体的一个代表值,那么不趋势指标,可以作为总体的一个代表值,那么不同组观察值之间是否存在差异?描述差异的指标同组观察值之间是否存在差异?描述差异的指标有哪些呢?差异究竟有多大?如何计算?有哪些呢?差异究竟有多大?如何计算? 例2-11 三组同龄男孩的身高值(cm) 甲组甲组 90 95 100 105 110 乙组乙组 96 98 100 102 104 丙组丙组 96 99 100 101 104 丙乙甲描述计量资料数据间离散程度的指标 变异指标。常用的指标:极差极差 四分位间距四分位间距方差方差标准差标准差变异系数。变异系数。第三节 离散趋势的描述一、极差 定义:亦称为全距,即一组观察值中最大值与最小值之差 计算方法: RXMaxXMin 意义: R值越大,表示该组数据的变异越大。 优点:计算简单,意义明了。 缺点: 数据利用不全,仅利用了两个极端值,部分信息损失,结果不稳定。(Range) 例2-11 三组同龄男孩的身高值(cm) R 甲组甲组 90 95 100 105 110 100 20 乙组乙组 96 98 100 102 104 100 8 丙组丙组 96 99 100 101 104 100 8x二、百分位数二、百分位数v定义:定义:是一种位置指标,用是一种位置指标,用 P PX X 来表示。来表示。将将n n个变量值从小到大依次排列,再把它们的位次转换为百分位。个变量值从小到大依次排列,再把它们的位次转换为百分位。对应于对应于X%X%位次的数值即为第位次的数值即为第X X百分位数。百分位数。 变量值:变量值: 5 5 8 89 758 位位 次:次: 1 2 3 75 150 百分位次:百分位次:0.7% 1.3% 2% 50% 100%v计算方法 频数表法 公式如下)%(LxxfxnfiLxPLx:第:第X百分位数所在组段的百分位数所在组段的下限下限ix:第:第X百分位数所在组段的百分位数所在组段的组距组距fx:第:第X百分位数所在组段的百分位数所在组段的频数频数 :第:第X百分位数所在组段百分位数所在组段上一组段累计频数上一组段累计频数Lf257550%1212(181 25% 30) 14.90( )6334.91LmnfPL ihfP 表14-4 181名食物中毒患者的潜伏期天数f累计频数累计频率%0303016.5712639351.38244714077.35362016088.40481217295.0360818099.4572841181100.00n25%-四分位数间距 四分位数( quartile ):可看作特定的百分位数,第25百分位数P25,表示全部观察值中有25(四分之一)的观察值比它小,为下四分位数,记做QL ;同理第75百分位数P75为上四分位数,记做记做Qu ; 四分位数间距,简记为Q,第75百分位数与第25百分位数之差。(inter-quartile range)P P5050P P2525P P7575 计算方法:Q= Qu QL=P75%-P25% 意义: Q值越大,表示该组数据的变异度越大。 优点:1. 四分位数间距包括了全部观察值的一半,因此也可看成是中间一半观察值的极差。 2.四分位数间距作为说明个体差异的指标,比极差稳定。 缺点:未考虑到每个观察值的变异度大。 应用:常用于表示偏态分布资料的变异。 例14-4 Q=QUQL =34.91-14.90=20.01(h) 极差仅采用了观察值中的最大值和最小值;而四分位数间距也仅仅采用了上、下四分位数,均没有考虑每个观察值,因此这两项指标不能全面反映资料的离散程度。第三节 离散趋势的描述三、方差 若要克服以上缺点,就必须全面考虑到每一个观察值。 可用总体中每一个观察值xi与总体均数 ,之差的总和(离均差总和),反映资料的离散程度,但 。 若计算离均差平方和 ,结果就不为0,但受到样本例数多少的影响,为了消除这一影响,就取离均差平方和的均数,该指标简称为方差(variance)。 总体方差用2 表示,样本方差用S2表示。 0)(x2x() (variance )公公 式式奇怪:为什么样本方差是除以(奇怪:为什么样本方差是除以(n-1)呢?呢?11)()-()-()square of sum(0)-(22222nnxxnxxNxxSSx2 22 2样样本本方方差差S S总总体体方方差差 离离均均差差平平方方和和离离均均差差和和三、方差 方差 (variance)是全部观察值的离均差平方和的均值。表示一组数据的平均离散情况。 特点: 方差的分子离均差平方和,是将每一个观察值与均数作差之后平方:反映了全部观察值的离散程度;但同时也将变量值的度量衡单位平方了,变成了(m)2、(kg)2唉!这个指标还是不够尽善尽美,继续探索唉!这个指标还是不够尽善尽美,继续探索 方差的单位是原度量衡单位的平方,为了用原单位,就把总体方差开平方,取其正的平方根,这就是总体标准差,用表示:Nx2)(其单位与原变量其单位与原变量x x的单位相同。的单位相同。四、标准差 自由度(自由度(degrees of freedomdegrees of freedom)。)。 自由度是统计学术语,其意义是自由度是统计学术语,其意义是随机变量能自由取值的随机变量能自由取值的个数个数。如:。如:n n个数据如不受任何条件的限制,则个数据如不受任何条件的限制,则n n个数据可取个数据可取任意值,称为有任意值,称为有n n个自由度。若受到个自由度。若受到k k个条件的限制,就只有个条件的限制,就只有(n nk k)个自由度了。)个自由度了。如有一个如有一个n=4数据样本,受到数据样本,受到 5的条件限制,在自由确定的条件限制,在自由确定4,2,5三个数据之后,第四个数据只能是三个数据之后,第四个数据只能是9,否则均数不是,否则均数不是5,推而广之,推而广之,任何统计量的任何统计量的v=n-限制条件的个数。限制条件的个数。x 例2-13 试计算三组同龄男童的身高的标准差编号甲组乙组丙组甲2乙2丙219096968100921692162959899902596049801310010010010000100001000041051021011102510404102015110104104121001081610816合计50050050050250500405003422250250500/ 57.91513.2,2.9xxnSnSS甲乙丙 150名3岁女孩身高的标准差2221129456613918 /1504.61()1501fxfxnSncm 用 途: 用于对称分布,特别是正态分布资料,反映一组观察值的离散程度。标准差小,数据间的离散程度小,均数的代表性好。 结合均值与正态分布规律估计医学参考值范围。 用于计算标准误 用于计算变异系数五、变异系数变异系数变异系数(coefficient of variation(coefficient of variation,CV)CV)即标准差即标准差s s与均数与均数 之比用百分数表示,写成公式为之比用百分数表示,写成公式为应应 用用(1 1)比较度量衡单位不同的多组资料的变异度)比较度量衡单位不同的多组资料的变异度(2 2)比较均数相差悬殊的多组资料的变异度。)比较均数相差悬殊的多组资料的变异度。x%100 xsCV 单位:极差、四分位数间距和标准差都是有单位的,其单位与观察值单位相同,而变异系数是相对数,没有单位,更便于资料间的分析比较。 (1)比较度量衡单位不同的多组资料的变异度例10名小学生,试比较胸围、背肌力变异度何者为大?均数 标准差胸围67.1cm3.0cm背肌力37.0 kg2.5 kg背肌力胸围8 .6%1000 .375 .25 .4%1001 .670 .3%100CVxsCV (2)比较均数相差悬殊的多组资料的变异度。例: 结论:随着年龄增加,身高的变异变小。结论:随着年龄增加,身高的变异变小。 均数 标准差2月女婴56.9cm2.3cm5岁女孩109.2cm3.1cm岁月84.2%1002 .1091 .304.4%1009 .563 .2%10052CVxsCV变异指标小结1.极差较粗,适合于任何分布2.四分位数间距,也不全面,常用于偏态分布3.标准差与均数的单位相同,最常用,适合于正态/近似正态分布4.变异系数主要用于单位不同或均数相差悬殊资料5.平均指标和变异指标分别反映资料的不同特征, 常配套使用 如 正态分布:均数、标准差; 偏态分布:中位数、四分位数间距第四节 正态分布和医学参考值范围的估计(Normal distribution) 正态分布是描述连续型变量值分布的曲线,医学资料许多服从正态分布。 62图图14-2 14-2 频数分布与正态分布示意图频数分布与正态分布示意图一、正态分布的概念和特征 正态分布(normal distribution)又称Gauss分布(Gauss distribution ),是以均数为中心,中间频数分布多,两侧逐渐减少的对称分布, 由于频率的总和等于100%或1,故横轴上曲线下的面积等于100%或1。1.正态分布曲线的数学函数表达式:21()21(),2XfXeX X X为连续随机变量,为连续随机变量,为为X X值的总体均数,值的总体均数,2 2 为总为总体方差,记为体方差,记为X XN N(,2 2) 当当x x确定后,就可由此式求得其密度函数确定后,就可由此式求得其密度函数f(x)f(x), ,即纵坐标的高度了,嘿嘿即纵坐标的高度了,嘿嘿2.正态分布的特征(1)正态曲线(normal curve)在横轴上方,且均数所在处最高;(2)正态分布以均数 为中心,左右对称; (3)正态分布有两个参数,即均数与标准差(与)总体均数总体均数是位置参数是位置参数:描述正态分布的集中趋势位置。描述正态分布的集中趋势位置。总体标准差总体标准差是是变异度参数:变异度参数:描述正态分布离散趋势,描述正态分布离散趋势,标准差标准差越小,越小,分布越集中,曲线形状越分布越集中,曲线形状越“瘦高瘦高”;反之越;反之越“矮胖矮胖”。(4)正态分布的面积分布有一定的规律性,总面积=1;正态分布参数位置变化示意图正态分布参数位置变化示意图正态分布变异度不同变化示意图正态分布变异度不同变化示意图221( )2uuexu 标准正态分布标准正态分布u u为标准化变量值为标准化变量值标准正态分布概率密度函数,记作标准正态分布概率密度函数,记作N N(0,10,1)。正态分布正态分布21()21( )2xf xe标准正态离标准正态离差差二、标准正态分布二、标准正态分布(standard normal distribution)(standard normal distribution) 将正态分布曲线的原点移到的位置,横轴尺度以为单位,令=0,=1,则将正态分布变换为标准正态分布-4-3-2-101234u(u)- 0+u u( (u u) )u (u) 0 0.00.10.20.30.40.5-4-3-2-101234Xf(X)三、正态曲线下面积的分布规律三、正态曲线下面积的分布规律dXeXFXX)2()(2221)(是正态变量是正态变量x x的累计分布函数,反映正态曲线下,的累计分布函数,反映正态曲线下,横轴自横轴自到到x x的面积,即下侧累计面积(概率)的面积,即下侧累计面积(概率)标准正态分布曲线下面积左侧任一区间的面积可以通过对下式积分求得dueuuu2221)(u)(u)表示从表示从到到u u值范围内值范围内X X分布面积分布面积曲线下面积分布规律0-11-1.961.96-2.582.5868.27%95.00%99.00%标准正态曲线标准正态曲线横轴为横轴为u u值值(一)基本概念 医学参考值范围(reference ranges)是指绝大多数正常人(或动物)的人体形态、功能和代谢产物等各种生理及生化指标常数。 由于存在个体差异,参考值范围并非为常数,而是在一定范围内波动。 确定医学参考值范围,是常用95%或99%的分布范围作为判定正常和异常的参考标准。二 医学参考值范围的估计(二)制定医学参考值范围的基本原则 1.抽取样本含量足够大的“正常人” “正常人”:不是机体任何器官、组织的形态及机能都正常的人,而是排除了影响所研究指标的疾病和有关因素的同质人群。 如:指定“谷丙转氨酶”的医学参考值范围 正常人条件:肝、肾、心、脑、肌肉等无器质性疾患;近期无使用损肝药物;测定前未做剧烈运动。 样本量:100例以上 2.对抽取的正常人进行准确而统一的测定,控制测量误差 3.判断是否需要分组制定 4.决定单侧或双侧界值。 5.选择适当的百分界值:习惯用80%、90%、95%、99%。 减少误诊选择高的,95%或99% 减少漏诊选择低的,80%或90% 6.根据资料的分布类型选用恰当的方法估计(a)a)白细胞数参考值范围白细胞数参考值范围(b)24(b)24小时尿糖参考值范围小时尿糖参考值范围(c)(c)肺活量参考值范围肺活量参考值范围正态分布法百分位数法医学参考值范围的计算方法:医学参考值范围的计算方法:医学参考值范围1、正态分布法应用条件:正态分布或近似正态分布资料 计算 双侧100(1-)%正常值范围: 单侧100(1-)%正常值范围: 双侧95%正常值范围: 单侧95%正常值范围:(下限)上限SuxSuxSux)(2/(下限)上限SxSxSx64.1)(64.196.1图14-1 某市150名3岁女孩身高的频数分布例14-14 根据14-2中150名3岁女孩身高资料,估计其95%参考值范围 适用于偏态分布资料 双侧95%正常值范围: P2.5P97.5 单侧95%正常值范围: P5(下限)2、百分位数法例如: 1.确定白细胞总数的95%参考值范围 由于白细胞数过高过低均为异常,故应分别计算P2.5和P97.5 2.确定肺活量的95%参考值范围 由于肺活量只过低为异常,故只计算P5 3.确定尿铅的95%参考值范围 由于尿铅只以过高为异常,应计算P95 小结 1.正态分布是一种很重要的连续型分布,不少的医学现象服从正态分布或近似正态分布,或经变量变换转换为正态分布,可按正态分布规律来处理。它也是许多统计方法的理论基础。 2.正态分布的特征:(1 1)曲线在横轴上方,均数处最高)曲线在横轴上方,均数处最高(2 2)以均数为中心,左右对称)以均数为中心,左右对称(3 3)确定正态分布的两个参数是均数)确定正态分布的两个参数是均数和标准和标准差差小结 3.正态分布用N(,2) 表示,为了应用方便,常对变量x作 变换,使=0,=1,则正态分布转换为标准正态分布,用N(0,1)表示。 4.正态曲线下面积的分布有一定规律。理论上1,1.96和2.58区间的面积(观察单位数)各占总面积的(总观察单位数)的68.27%,95%和99%,可用来估计医学参考值范围和质量控制等方面。xu