计量资料统计描述.pptx
NEJM:Olaparib维持治疗可显著延长铂类敏感性复发性高级别浆液性卵巢癌患者生存期第1页/共138页NEJM:吲哚美辛可显著减少ERCP术后胰腺炎发生率随机,安慰剂对照双盲临床试验对ERCP术后胰腺炎高危患者立即经直肠给予单一剂量吲哚美辛或安慰剂治疗。受试者为已被确诊并具备手术相关危险因素的高危患者。试验主要结束指标为ERCP术后胰腺炎发生率,表征为新发生的腹疼,术后24小时后胰酶含量为正常范围上限的至少3倍以上,并住院至少2天。试验共纳入602例患者并全部完成随访。大部分患者(82%)出现疑似胆道口括约肌功能紊乱症。吲哚美辛处理组295例患者中有27例发生ERCP术后胰腺炎(9.2%),而安慰剂处理组307例患者中则有52例(16.9%)发生胰腺炎(P=0.005)。吲哚美辛处理组有13例患者发生中度至高度胰腺炎(4.4%),而安慰剂组这一数据则为27例(8.8%)(P=0.03)。第2页/共138页第二章第二章 计量资料的统计描述计量资料的统计描述第一节 频数分布第二节 集中趋势的描述第三节 离散趋势的描述第四节 正态分布第五节 医学参考值范围的制定32023/3/21第3页/共138页第二章第二章 计量资料的统计描述计量资料的统计描述 常用的描述定量资料分布规律的统计方法有两类:统计图表:统计图表:频数分布表频数分布表/图图 选用适当的统计指标:选用适当的统计指标:集中趋势指标:均数、中位数集中趋势指标:均数、中位数离散趋势指标:极差、标准差、方差、四分位间距、变异系数离散趋势指标:极差、标准差、方差、四分位间距、变异系数42023/3/21第4页/共138页第5页/共138页第一节第一节 频数分布频数分布频数分布表(frequency distribution table):将变量值化分为若干个组段,清点并记录各组段变量值的个数,称为频数表(frequency table)。62023/3/21第6页/共138页第一节第一节 频数分布频数分布72023/3/21最小值最大值例1第7页/共138页一、频数分布表一、频数分布表频数表的编制步骤1.求极差:极差(range)是全部数据中的最大值与最小值之差,它描述了数据的变异幅度。公式:RXMaxXMin 例1:XMax=5.59 XMin=3.60 R=5.59-3.60=1.99 82023/3/21第8页/共138页一、频数分布表一、频数分布表 (2)确定组段数和组距 确定组段数:n100,1015组;n100,810组 确定组距:组距可以相等也可以不相等,一般采用等距分组,组距可以相等也可以不相等,一般采用等距分组,组距组距=极差极差/组数组数 例例1 1.99/102,故组距,故组距=2mmol/L92023/3/21第9页/共138页一、频数分布表一、频数分布表(3)划分组段 每个组段的起点为该组的每个组段的起点为该组的下限下限L(low limit),终点终点为为上限上限U(upper limit),上限上限=下限下限+组距;变量值组距;变量值X的归组统一定为的归组统一定为LX U,最后组段写出上限,起始最后组段写出上限,起始组段和最后组段应包含最小值和最大值组段和最后组段应包含最小值和最大值各组段不能重叠,每一组段均为半开半闭区间,即包各组段不能重叠,每一组段均为半开半闭区间,即包括下限,不包含上限。括下限,不包含上限。例例1 第一组段下限为第一组段下限为 3.60,上限为,上限为3.60+0.20=3.80 即即3.60,3.80);以此类推。最后一组段 5.40,5.60 102023/3/21第10页/共138页一、频数分布表一、频数分布表112023/3/21最后一组段第一组段列出各组段第11页/共138页一、频数分布表一、频数分布表(4)分组划记并统计频数 122023/3/21将原始数据一一对应入每个组段,通过划“正”字,来统计每个组段内的数据第12页/共138页一、频数分布表一、频数分布表132023/3/21(4)分组划记并统计频数统计每个组段内的频数(例数)频数的合计数等于样本含量第13页/共138页一、频数分布表一、频数分布表142023/3/21(4)分组划记并统计频数计算出每个组段的频率每组的频数 样本含量第14页/共138页一、频数分布表一、频数分布表152023/3/21(4)分组划记并统计频数计算出每个组段的累计频率=本组段的频率+上一组段的累计频率第15页/共138页一、频数分布表一、频数分布表162023/3/21第16页/共138页二、频数分布图二、频数分布图 绘制频数分布直方图坐标轴横坐标:变量值即研究指标,无需从0开始,以单位尺度划分。纵坐标:为频数f,必须从0开始(f为每一组段内的人数)直条直条的宽度:组距直条的高度:每一组段的频数累计172023/3/21第17页/共138页二、频数分布图二、频数分布图182023/3/21第18页/共138页二、频数分布图二、频数分布图192023/3/21第19页/共138页三、频数表和频数分布图的用途三、频数表和频数分布图的用途1.描述频数分布的类型2.描述频数分布的特征3.便于发现某些特大或特小可疑值4.便于进一步做统计分析和处理202023/3/21第20页/共138页1.频数分布的类型频数分布的类型 频数分布又可分为对称分布和偏态分布对称分布:集中位置在正中,左右两侧频数分布大体对称偏态分布:集中位置偏向一侧,频数分布不对称正偏态分布:集中位置偏向年龄小的一侧负偏态分布:集中位置偏向年龄大的一侧 不同类型的分布,应采用相应的统计分析方法。212023/3/21第21页/共138页1.频数分布的类型频数分布的类型222023/3/21正态分布(normal distribution)中间高、两边低、左右对称属于对称分布的一种许多医学资料都属于这种分布,例如人体正常的生理生化指标正态分布第22页/共138页1.频数分布的类型频数分布的类型232023/3/21 a.尖峭峰 b.正态峰c.平阔峰第23页/共138页1.频数分布的类型频数分布的类型242023/3/21正偏态分布正偏态分布:峰偏左,尾部向右侧延伸如:以儿童为主的传染病发病人数的分布右偏态负偏态分布:峰偏右,尾部向左侧延伸如:以老年人为主的慢性病发病人数的分布左偏态负偏态分布(positive skewed)(negative skewed)第24页/共138页252023/3/21正(右)偏态分布第25页/共138页262023/3/21g负(左)偏态分布第26页/共138页2.频数分布的特征频数分布的特征从频数表可以看到频数分布的两个重要的特征 集中趋势(central tendency)血糖值向中央部分(中等水平)集中,以中等水平的血糖值者居多,是为集中趋势。离散趋势(tendency of dispersion)从中央部分到两侧(血糖值从中等水平到较低或较高水平)的频数分布逐渐减少,是为离散趋势。集中趋势和离散趋势是频数分布的两个重要侧面,从这两方面就可全面的分析所研究的事物。272023/3/21第27页/共138页3、便于发现某些特大或特小可疑值、便于发现某些特大或特小可疑值282023/3/21第28页/共138页白细胞分布直方图的模式 第29页/共138页白细胞的干扰“R”的分布 类似于“R0、R1、R2、R3、R4及Rm”这样的标记经常会出现在CD1600的报告单的WBC计数及分类的数值结果旁边,这些R的标记是对白细胞分布中的某些区域数值异常所进行的提示 第30页/共138页中介值细胞区域出异常白细胞峰 第31页/共138页由大量白血病细胞出现形成的单一峰 第32页/共138页第33页/共138页红细胞分布直方图 第34页/共138页第35页/共138页第36页/共138页第二节第二节 集中趋势的描述集中趋势的描述算术均数(arithmetic mean)几何均数(geometric mean)中位数和百分位数(median percentile)以上统称为平均数(average)常用于描述一组变量值的集中位置,代表其平均水平或是集中位置的特征值。372023/3/21第37页/共138页一、算术均数一、算术均数又简称为均数(mean)定义:是反映一组观察值在数量上的平均水平。总体均数用希腊字母 表示,样本均数用 表示计算方法:直接法:直接法:加权法:加权法:应用:正态分布或近似正态分布资料 382023/3/21(arithmetic mean)第38页/共138页一、算术均数一、算术均数计算方法直接法:即将所有观察值x1,x2,x3,xn直接相加再除以观察值的个数,写成公式2023/3/2139 为样本均数,n为变量值个数,i为各变量值,表示求和第39页/共138页一、算术均数一、算术均数 例2 有9名健康成人的空腹胆固醇测定值(mmol/L)为5.61,3.96,3.67,4.99,4.24,5.06,5.20,4.79,5.93,求算术均数。402023/3/21第40页/共138页一、算术均数一、算术均数 计算方法 加权法(weighting method)当资料中相同观察值的个数较多时,可将相同观察值的个数,即频数f,乘以该观察值x,以代替相同观察值逐个相加。对于频数表资料,用各组段的频数作f,以相应的组中值(class mid-value)作x。组中值组中值=(下限(下限+上限)上限)/2公式公式412023/3/21 fi为各组段的频数xi为各组段的组中值第41页/共138页一、算术均数一、算术均数422023/3/21第42页/共138页一、算术均数一、算术均数432023/3/21组中值=(下限+上限)/2如:3.60组段的组中值=(3.60+3.80)/2=3.70以此类推第43页/共138页一、算术均数一、算术均数f1,f2,fk分别为各组段的频数,这里的f起到了“权数”的作用,它权衡了各组中值由于频数不同对均数的影响。即频数多,权数大,作用也大;频数少,权数小,作用也小,故称为加权法。442023/3/21用组中值,加权法计算出的均数是精确值吗?第44页/共138页一、算术均数一、算术均数 均数的两个重要特性各离均差(即各观察值x与均数 x之差)的总和等于零。离均差的平方和小于个观察值x与任何数(x)之差的平方和。452023/3/21第45页/共138页一、算术均数一、算术均数462023/3/21v各离均差(即各观察值x与均数 x之差)的总和等于零。第46页/共138页一、算术均数一、算术均数1、最常用,特别是正态分布资料2、均数对极值特别敏感,极大值或极小值通常将均数拉向自己472023/3/21均数的特征第47页/共138页二、几何均数二、几何均数定义:有些医学资料,如抗体滴度、细菌计数等,其频数分布明显偏态,各观察值之间呈倍数变化(等比关系),此时宜用几何均数反映其平均增减倍数。计算方法:直接法加权法应用:等比资料或对数正态分布资料482023/3/21(geometric mean)第48页/共138页二、几何均数二、几何均数 计算方法:直接法:直接将n个观察值(x1,x2,x3,xn)的乘积开n次公式公式写成对数形式为写成对数形式为 492023/3/21几何均数:变量对数值的算术均数的反对数。第49页/共138页二、几何均数二、几何均数例3 有7份血清的抗体效价分别为1:2,1:4,1:8,1:16,1:32,1:64,1:128,求平均抗体效价。本例先求抗体效价的倒数,再求几何均数本例先求抗体效价的倒数,再求几何均数502023/3/21血清抗体的平均效价为1:16第50页/共138页二、几何均数二、几何均数计算方法:加权法:当资料中相同观察值得个数f(即频数)较多时,如频数表资料写成公式写成公式512023/3/21第51页/共138页二、几何均数二、几何均数例4 有60人的血清抗体效价,分别为7人1:5,11人 1:10,22人1:20,12人1:40,8人1:80,求平均抗体效价。522023/3/2160人的血清平均抗体效价为1:20.705第52页/共138页二、几何均数二、几何均数 注意事项等比资料,如:等比资料,如:抗体的平均滴度、药物的平均效价、卫抗体的平均滴度、药物的平均效价、卫生事业平均发展速度、人口的几何增长生事业平均发展速度、人口的几何增长对数正态分布:对数正态分布:是右偏态分布是右偏态分布观察值不能有观察值不能有0 0。因为因为0 0不能去对数,不能与任何其他数不能去对数,不能与任何其他数呈倍数关系。呈倍数关系。观察值不能同时有正值和负值。观察值不能同时有正值和负值。若全是负值,计算是可若全是负值,计算是可以把负号去掉,得出结果后再加上负号。以把负号去掉,得出结果后再加上负号。同一组资料求得的几何均数小于算术均数。同一组资料求得的几何均数小于算术均数。532023/3/21第53页/共138页二、几何均数二、几何均数 若一组数值变量资料为偏态分布,变量为x,令y=lgx后,变量y服从正态分布,请问变量x为什么样的偏态分布资料?542023/3/21正偏态分布正态分布变量y 服从则变量x服从抗体滴度抗体滴度 人数人数,f f 滴度倒数滴度倒数,X X lglgX X1:2.51:101:401:1601:640 合计合计141822126722.510.040.0160.0640.00.39791.00001.60212.20412.8062102.1032 第54页/共138页三、中位数和百分位数三、中位数和百分位数(一)中位数定义:定义:是将一组观察值从小到大按顺序排列,位次是将一组观察值从小到大按顺序排列,位次居中的居中的观察值观察值就是中位数。就是中位数。例:例:552023/3/21((median percentile))X:5,5,6,7,20,位次:1 2 3 4 5中位数(M):6.523 6第55页/共138页(一)中位数(一)中位数计算方法:计算方法:直接由原始数据计算中位数直接由原始数据计算中位数先将观察值按大小顺序排列,再按下面公式计算:先将观察值按大小顺序排列,再按下面公式计算:562023/3/21第56页/共138页(一)中位数(一)中位数 例5 有7名正常人的血压(舒张压)测定值(mmHg)为:72,75,76,77,81,82,86,求中位数。解:n=7 为奇数 变量x:72,75,76,77,81,82,86 位 次:1 2 3 4 5 6 7572023/3/21 请大家思考下:计算中位数和其他平均数有什么不同?特点:仅利用了中间的12个数据第57页/共138页(一)中位数(一)中位数计算方法:计算方法:用频数表计算中位数,用频数表计算中位数,按所分组段,由小到大计算累计频数和累计频率。按所分组段,由小到大计算累计频数和累计频率。再按下面公式计算为:再按下面公式计算为:582023/3/21第58页/共138页592023/3/21下限值L上限值Ui;fm中位数M(一)中位数第59页/共138页602023/3/210 2.27 4.55 10.61 28.03 46.21 65.15 80.30 89.39 96.97 (一)中位数累计频数3 614376186106118128132第60页/共138页612023/3/21(一)中位数1.反映了位次居中的观察值的水平 优点:不受两端特大值和特小值影响 缺点:并非考虑到每个观测值2.适用于各种分布类型的资料,特别适合于:大样本偏态分布资料 或者一端/两端无确切数值的资料 3.中位数和算术均数再对称分布的资料中,理论上数值是相 同的中位数的特征第61页/共138页622023/3/21(二)百分位数v定义:是一种位置指标,用 PX 来表示。将n个变量值从小到大依次排列,再把它们的位次转换为百分位。对应于X%位次的数值即为第X百分位数。变量值:5 5 8 89 758 位 次:1 2 3 75 150 百分位次:0.7%1.3%2%50%100%第62页/共138页632023/3/21百分数示意(100-x)%x%位图(二)百分位数 一个PX将全部变量值分为两部分,在不包含 PX的全部变量值中有X%的变量值比它小,有(100-X)%的变量值比它大。PX是一个界值。第63页/共138页v计算方法计算方法直接计算法直接计算法 设有n个原始数据从小到大排列,第X百分位数的计算公式为:当 为带有小数位时:当 为整数时:642023/3/21Trunc()取整函数(二)百分位数第64页/共138页例例 对某医院细菌性痢疾治愈者的住院天数统计,对某医院细菌性痢疾治愈者的住院天数统计,120名患者的住院天数从小到大排列如下,试求第名患者的住院天数从小到大排列如下,试求第5百分位数和第百分位数和第99百分位数百分位数。(1)n=120,1205%=6,为整数:652023/3/21(二)百分位数患 者:住院天数:第65页/共138页 (2)12099%=118.8,带有小数,故取整 trunc(118.8)=118662023/3/21患 者:住院天数:(二)百分位数第66页/共138页v计算方法计算方法 频数表法频数表法 公式如下公式如下672023/3/21(二)百分位数Lx:第X百分位数所在组段的下限ix:第X百分位数所在组段的组距fx:第X百分位数所在组段的频数 :第X百分位数所在组段上一组段累计频数第67页/共138页l例8.3 某传染性疾病的潜伏期(天)见表8-3,求平均潜伏期和潜伏期的第25、75与95百分位数P25,P75,P95。682023/3/21(二)百分位数第68页/共138页692023/3/21(二)百分位数第69页/共138页1、四分位数(Quartile)(三个四分位数)2、十分位数(Centile):9个十分位数3、百分位数(Percentile)99个百分位数702023/3/21(二)百分位数P50P25P75第70页/共138页百分位数是用于描述样本或总体观察值序列在某百分位置的水平,最常用的是P50即中位数;多个百分位数结合应用时,可更全面地描述总体或样本的分布。百分位数常用于确定医学参考值范围(reference ranges),(下节后述)。一般,分布中部的百分位数相当稳定,具有较好的代表性,但靠近两端的百分位数,只在样本例数足够多时才比较稳定。因此,样本例数不够多时,不宜取太近两端的百分位数。712023/3/21(二)百分位数第71页/共138页常用平均数的意义及其应用场合常用平均数的意义及其应用场合722023/3/21小 结第72页/共138页第三节第三节 离散趋势的描述离散趋势的描述732023/3/21平均水平的指标只是描述了一组数据的集中趋势指标,可以作为总体的一个代表值,那么这组观察值之间的是否存在差异?描述差异的指标有哪些呢?差异究竟有多大?如何计算?第73页/共138页第三节第三节 离散趋势的描述离散趋势的描述742023/3/21盘号盘号 甲甲乙乙丙丙15605205102540510505350050050044604904955440480490合计250025002500均数均数500500500500500500例:设甲、乙、丙三人,采每人的耳垂血,然后作红细胞计数,每人数5个计数盘,得结果如下(万/mm3)甲乙丙第74页/共138页第三节第三节 离散趋势的描述离散趋势的描述描述计量资料数据间离散程度的指标 变异指标。常用的指标:极差极差 四分位间距四分位间距方差方差标准差标准差变异系数。变异系数。752023/3/21第75页/共138页一、极差一、极差定义:亦称为全距,即一组观察值中最大值与最小值之差计算方法:RXMaxXMin 意义:R值越大,表示该组数据的变异越大。缺点:数据利用不全,仅利用了两个极端值,部分信息损失,在例数少时结果不稳定。762023/3/21(Range)第76页/共138页一、极差一、极差例2-11 三组同龄男孩的身高值(cm)R 甲组 90 95 100 105 110 100 20 乙组 96 98 100 102 104 100 8 丙组 96 99 100 101 104 100 8772023/3/21第77页/共138页二、四分位数间距二、四分位数间距 四分位数(quartile):可看作特定的百分位数,第25百分位数P25,表示全部观察值中有25(四分之一)的观察值比它小,为下四分位数,记做QL;同理第75百分位数P75为上四分位数,记做记做Qu;四分位数间距,简记为Q,第75百分位数与第25百分位数之差。782023/3/21(inter-quartile range)P50P25P75第78页/共138页二、四分位数间距二、四分位数间距计算方法:Q=Qu QL=P75%-P25%意义:Q值越大,表示该组数据的变异度越大。优点:1.四分位数间距包括了全部观察值的一半,因此也可看成是中间一半观察值的极差。2.四分位数间距作为说明个体差异的指标,比极差稳定。缺点:未考虑到每个观察值的变异度大。应用:常用于表示偏态分布资料的变异。792023/3/21第79页/共138页二、四分位数间距二、四分位数间距例7 利用表8-3资料计算四分位数间距Q。802023/3/21第80页/共138页第三节第三节 离散趋势的描述离散趋势的描述极差仅采用了观察值中的最大值和最小值;而四分位数间距也仅仅采用了上、下四分位数,均没有考虑每个观察值,因此这两项指标不能全面反映资料的离散程度。812023/3/21第81页/共138页三、方差与标准差三、方差与标准差若要克服以上缺点,就必须全面考虑到每一个观察值。可用总体中每一个观察值xi与总体均数,之差的总和(离均差总和),反映资料的离散程度,但 。若计算离均差平方和 ,结果就不为0,但受到样本例数多少的影响,为了消除这一影响,就取离均差平方和的均数,该指标简称为方差(variance)。总体方差用2 表示,样本方差用S2表示。822023/3/21(variance&standard deviation)第82页/共138页三、方差与标准差三、方差与标准差832023/3/21公 式奇怪:为什么样本方差是除以(n-1)呢?后述第83页/共138页三、方差与标准差三、方差与标准差 方差(variance)是全部观察值的离均差平方和的均值。表示一组数据的平均离散情况。特点:方差的分子离均差平方和,是将每一个观察值与均数作差之后平方:反映了全部观察值的离散程度;但同时也将变量值的度量衡单位平方了,变成了(m)2、(kg)2842023/3/21唉!这个指标还是不够尽善尽美,继续探索第84页/共138页三、方差与标准差三、方差与标准差方差的单位是原度量衡单位的平方,为了用原单位,就把总体方差开平方,取其正的平方根,这就是总体标准差,用表示:852023/3/21其单位与原变量x的单位相同。第85页/共138页三、方差与标准差三、方差与标准差总体标准差在实际的应用当中只是个“理论值”。因为实际工作中常常得到的是样本资料,不知道的,只能用样本均数 来估计,这样就用 代替 ;用样本例数n代替N,但这样计算得结果常比真实的低,英国统计学家提出用样本例数n-1代替n来校正。应用更多的是样本标准差S。862023/3/21频数表资料基本公式第86页/共138页样本方差为什么要除以(样本方差为什么要除以(n n1 1)872023/3/21 与自由度(degrees of freedom)有关。自由度是统计学术语,其意义是随机变量能自由取值的个数。如:n个数据如不受任何条件的限制,则n个数据可取任意值,称为有n个自由度。若受到k个条件的限制,就只有(nk)个自由度了。如有一个n=4数据样本,受到 5的条件限制,在自由确定4,2,5三个数据之后,第四个数据只能是9,否则均数不是5,推而广之,任何统计量的v=n-限制条件的个数。计算标准差时,n个变量值本身有n个自由度。但受到样本均数的限制,任何一个“离均差”均可以用另外的(n1)个“离均差”表示,所以只有(n1)个独立的“离均差”。因此只有(n1)个自由度。三、方差与标准差第87页/共138页三、方差与标准差三、方差与标准差例8 有三组成人的舒张压资料(见表8.4),求全距、方差和标准差,进行比较。882023/3/21编号编号甲组甲组乙组乙组丙组丙组甲甲2 2乙乙2 2丙丙2 21 16060606060603600360036003600360036002 26666686872724356435646244624518451843 37575757575755625562556255625562556254 48282797977776724672462416241592959295 5868686868686739673967396739673967396合计合计3693693683683703702770127701 274827486 62773427734第88页/共138页三、方差与标准差三、方差与标准差892023/3/21编号编号甲组甲组乙组乙组丙组丙组甲甲2 2乙乙2 2丙丙2 21 16060606060603600360036003600360036002 26666686872724356435646244624518451843 37575757575755625562556255625562556254 48282797977776724672462416241592959295 5868686868686739673967396739673967396合计合计369369368368370370277027701 12748627486277327734 4全距全距262626262626方差方差117.117.2 2100.3100.3 88.588.5标准差标准差 10.810.83 310.0110.01 9.419.41三组舒张压值的全距R相同,不能反映出各组数据的离散程度的区别;方差和标准差考虑了每个数据和均数的相差情况,三组的S2和S明显不同,全面的反映了资料的变异情况。第89页/共138页三、方差与标准差三、方差与标准差例 利用表8-2资料和加权法计算标准差。902023/3/21第90页/共138页三、方差与标准差三、方差与标准差意义:从上例可以看出,方差、标准差越大,其观察值之间的变异就越大,则平均数的代表性就越差。912023/3/21第91页/共138页三、方差与标准差三、方差与标准差 用 途:反映一组观察值的离散程度,标准差小,数据间的离散程度小,均数的代表性好。用于计算变异系数用于计算标准误结合均值与正态分布规律估计医学参考值范围。922023/3/21第92页/共138页四、变异系数四、变异系数932023/3/21 变异系数(coefficient of variation,CV)即标准差s与均数 之比用百分数表示,写成公式为应 用(1)比较度量衡单位不同的多组资料的变异度(2)比较均数相差悬殊的多组资料的变异度。第93页/共138页四、变异系数四、变异系数 单位:极差、四分位数间距和标准差都是有单位的,其单位与观察值单位相同,而变异系数是相对数,没有单位,更便于资料间的分析比较。942023/3/21第94页/共138页四、变异系数四、变异系数(1)比较度量衡单位不同的多组资料的变异度例 比较某地20岁男子100人,其身高和体重的均数、标准差如下表,试比较身高、体重变异度何者为大?952023/3/21均数 标准差身高166.06 cm4.95cm体重53.72 kg4.96 kg第95页/共138页四、变异系数四、变异系数(2)比较均数相差悬殊的多组资料的变异度。例:表 某地不同年龄组男童身高(cm)年龄组 S CV%1-2月 56.3 2.1 3.73 5-6月 66.5 2.2 3.31 3-3.5岁 96.1 3.1 3.22 5-5.5岁 107.8 3.3 3.06 结论:随着年龄增加,身高的变异变小。962023/3/21第96页/共138页变异指标小结变异指标小结1.极差较粗,适合于任何分布2.四分位数间距,也不全面,常用于偏态分布3.标准差与均数的单位相同,最常用,适合于正态/近似正态分布4.变异系数主要用于单位不同或均数相差悬殊资料5.平均指标和变异指标分别反映资料的不同特征,常配套使用 如 正态分布:均数、标准差;偏态分布:中位数、四分位数间距972023/3/21第97页/共138页数值变量资料的统计描述数值变量资料的统计描述 小结小结*1.在医学杂志中,正态或近似正态资料,常以 的形式表达,描述和比较数据的平均水平和离散程度。2.偏态分布或特定资料(生存时间、病程、潜伏期时间等)用中位数和四分位间距描述。表达形式:M,(Q)3.等比数据和正偏态资料可用几何均数和几何标准差描述 表达形式:GSG982023/3/21第98页/共138页第四节第四节 正态分布正态分布(Normal distribution)(Normal distribution)正态分布是描述连续型变量值分布的曲线,医学资料许多服从正态分布。直方图的频数分布与正态分布992023/3/21第99页/共138页2023/3/21100图2-4 频数分布与正态分布示意图第100页/共138页一、正态分布的概念和特征一、正态分布的概念和特征正态分布(normal distribution)又称Gauss分布(Gauss distribution),是以均数为中心,中间频数分布多,两侧逐渐减少的对称分布,由于频率的总和等于100%或1,故横轴上曲线下的面积等于100%或1。1012023/3/21f f(x x)x x第101页/共138页一、正态分布的概念和特征一、正态分布的概念和特征1.正态分布曲线的数学函数表达式:1022023/3/21X为连续随机变量,为X值的总体均数,2 为总体方差,记为XN(,2)(2.17)当x确定后,就可由此式求得其密度函数f(x),即纵坐标的高度了,嘿嘿第102页/共138页2.正态分布的特征正态分布的特征(1)正态分布以均数 为中心,左右对称;(2)正态曲线(normal curve)在横轴上方,且均数所在处最高,X离 越远,f(x)越小,逐渐接近0,但不会等于0,故正态曲线永远不与横轴相交;(3)正态分布有两个参数,即均数与标准差(与)(4)正态分布的面积分布有一定的规律性,总面积=1;1032023/3/21第103页/共138页一、正态分布的概念和特征一、正态分布的概念和特征正态分布的参数总体均数总体均数是位置参数是位置参数:描述正态分布的集中趋势位置。描述正态分布的集中趋势位置。总体标准差总体标准差是是变异度参数:变异度参数:描述正态分布离散趋势,描述正态分布离散趋势,越小,分布越集中,曲线形状越越小,分布越集中,曲线形状越“瘦高瘦高”;反之越;反之越“矮矮胖胖”。1042023/3/21正态曲线由 两个参数共同决定第104页/共138页一、正态分布的概念和特征一、正态分布的概念和特征1052023/3/21 1 2 3三种不同均值的正态分布-+恒定 1 2 3越大,曲线沿横轴越向右移动第105页/共138页一、正态分布的概念和特征一、正态分布的概念和特征1062023/3/21321三种不同标准差的正态分布恒定123越大,表示数据越分散,曲线越“胖”越小,表示数据越集中,曲线越“瘦”第106页/共138页一、正态分布的概念和特征一、正态分布的概念和特征1072023/3/21曲线1:=2.4,=0.8曲线2:=3.4,=0.8曲线3:=3.4,=1.2第107页/共138页一、正态分布的概念和特征一、正态分布的概念和特征1082023/3/21第108页/共138页1092023/3/21 标准正态分布u为标准化变量值标准正态分布概率密度函数,记作N(0,1)。正态分布标准正态离差二、标准正态分布(standard normal distribution)第109页/共138页二、二、标准正态分布标准正态分布将正态分布曲线的原点移到的位置,横轴尺度以为单位,令=0,=1,则将正态分布变换为标准正态分布1102023/3/21-4-3-2-101234u(u)-0+u(u)u(u)0第110页/共138页二、二、标准正态分布标准正态分布1112023/3/21一般正态分布为一个分布簇:N(,2);标准正态分布只有一个 N(0,1);这样简化了应用。标准正态分布的曲线是唯一的。第111页/共138页 2023/3/21112正态曲线下面积的分布规律是正态变量x的累计分布函数,反映正态曲线下,横轴自到x的面积,即下侧累计面积(概率)第112页/共138页标准正态分布曲线下面积标准正态分布曲线下面积左侧任一区间的面积可以通过对下式积分求得1132023/3/21附表1(P695)就是根据此公式和图形制定的(u)表示从到u值范围内X分布面积第113页/共138页 1142023/3/21概率密度函数与累积分布函数第114页/共138页曲线下面积分布规律曲线下面积分布规律1152023/3/210-11-1.961.96-2.582.5868.27%95.00%99.00%正态曲线下面积的分布规律标准正态曲线横轴为u值第115页/共138页正态曲线下面积的分布规律正态曲线下面积的分布规律1162023/3/21将变量值(x)转换为u值后,统计学家按(u)公式编制成了附表1(P803),即标准正态分布表查表注意事项:1.、和x已知时,先求出u值,再查表,得所求面积占总面积的比例。、未知时,常分别用样本均数和样本标准差来估计。2.曲线下对称于0的区间,面积相等。比如区间(-,-2.58)与区间(2.58,+)的面积相等。因为附表只列出(-u)值。3.曲线下横轴上的总面积为100%或1。根据2.3.可以计算上侧累计面积。第116页/共138页正态曲线下面积的分布规律正态曲线下面积的分布规律例 1.求区间(2.58,+)的面积。因为区间(2.58,+)和区间(-,-2.58)对称所以只需求出(-,-2.58)的面积即可,即查表(-2.58)=0.0049(-u)对应的u值区间是(-,-u)2.求区间(-,2.58)的面积。(2.58)=1-(-2.58)1172023/3/21第117页/共138页正态曲线下面积的分布规律正态曲线下面积的分布规律1182023/3/21医学常用的三个X分布范围及u界值任意正态分布变量值(X)理论上分布规律变量值分布的范围X占的百分比(%)第118页/共138页1192023/3/21 (双侧)(双侧)(单侧)(单侧)正态曲线下面积的分布规律第119页/共138页正态分布的应用正态分布的应用1.概括估计变量值频数分布范围例:在例8.1中,n=132,4.653mmol/L,s0.40066mmol/L,试估计95和99的频数分布范围。(3.8685.438,3.6195.687)2.制定医学参考值范围3.控制实验误差:上下警戒限:上下控制限:2023/3/21120第120页/共138页101101名正常成年女子的血清总胆固醇名正常成年女子的血清总胆固醇 。试估计该总体正。试估计该总体正常女子血清总胆固醇在常女子血清总胆固醇在4 mmol/L4 mmol/L以下者的百分比。以下者的百分比。假定该资料服从正态分布,将假定该资料服从正态分布,将X X1 1=4=4转换为转换为u u值,查正态值,查正态分布表分布表 1212023/3/21正态分布的应用第121页/共138页正态分布的应用正态分布的应用标准正态变量(u1)=0.09 查附表1,在表的左侧找到0.0,在表的上方找到0.09,两者的相交处为0.4641=46.41%。1222023/3/21该地正常女子血清