正态分布及其应用-sm.ppt
复习:集中趋势与离散趋势复习:集中趋势与离散趋势平均指标和变异指标分别反映资料的不同特征平均指标和变异指标分别反映资料的不同特征,常配套使用常配套使用,根据根据资料类型不同有不同组合资料类型不同有不同组合,如如 正态分布正态分布:均数、标准差均数、标准差 偏态分布偏态分布:中位数、四分位数间距中位数、四分位数间距n描述集中趋势指标描述集中趋势指标:算术均数(简称均数)()几何均数(G)中位数(M)众数(Mode)调和均数(H)n描述离散程度指标描述离散程度指标:极差(R)四分位数间距(Q)方差(S2)标准差(S)变异系数(CV)随机变量及其概率分布概述随机变量及其概率分布概述n连续型连续型随机变量(continous random variable)数据间无缝隙,其取值充满整个区间,无法一一列举每一可能值n例如:身高、体重、血清胆固醇含量n离散型离散型随机变量(discrete random variable)数据间有缝隙,其取值可以列举n 例如:抛硬币10次,正面的可能取值x为0、1、2、3、4、5、6、7、8、9、10概率分布概率分布(probability distributionprobability distribution)n概率分布概率分布:描述随机变量值xi 及这些值对应概率P(X=xi)的表格、公式或图形n连续型连续型随机变量概率分布n 正态分布正态分布n离散型离散型随机变量概率分布n 二项分布n Poisson分布一、正态分布一、正态分布n正态分布概念、特征n正态曲线下的面积分布规律n标准正态分布n正态分布的应用正态分布的应用 n估计频数分布n制定医学参考值范围n质量控制n统计方法的理论基础 正态分布的概念和特性正态分布的概念和特性 频数分布特点:频数分布特点:n频数集中在均数周围n左右基本对称n离均数愈近数据愈多n离均数愈远数据愈少正态分布及其应用正态分布及其应用正态分布的概念和特性正态分布的概念和特性n某地用随机抽样方法检查了140名成年男子的红细胞数,当取组距为0.2时 正态分布及其应用正态分布及其应用正态分布的概念和特性正态分布的概念和特性n某地用随机抽样方法检查了140名成年男子的红细胞数,当取组距为0.1时 正态分布及其应用正态分布及其应用正态分布的概念和特性正态分布的概念和特性n某地用随机抽样方法检查了140名成年男子的红细胞数,当取组距为0.05时 正态分布及其应用正态分布及其应用正态分布的概念和特性正态分布的概念和特性正态分布及其应用正态分布及其应用图3-1临产母亲体重频率密度图图3-2 概率密度曲线示意图频率密度直方图就近似地反映了一个变量的分布 复习:复习:频数分布表的编制步骤频数分布表的编制步骤组段组段(1)组中值组中值Xi(2)频数频数(3)频率频率fi(%)(4)累计频率(累计频率(%)(5)485060.40.45254543.84.2565816211.615.8606229320.936.7646635925.662.3687029821.383.6727414010.093.67678705.098.68082171.299.884888630.2100.0合合计计1402100.0表2-1 1402名临产母亲的体重(kg)频率表图图2-11402名临产母亲体重(名临产母亲体重(kg)的)的频率分布图频率分布图复习:频率直方图复习:频率直方图每一直条的面积就是相应各组段的频率,所有组段的频率之和就是相应各直条的面积之和,整个直方图面积之和为1。频率密度=频率/组距面积=直方的长 宽 面积=频率/组距组距 面积=频率 当样本量n越来越大,而组距越来越小时,就得到该连续变量所在总体的概率分布。可以设想,如果观察例数逐渐增多,组段数也不断增多,可以设想,如果观察例数逐渐增多,组段数也不断增多,就会形成一条光滑曲线就会形成一条光滑曲线图图(3),称为,称为正态分布曲线正态分布曲线。正态分布的概念和特性正态分布的概念和特性n这条呈中间高、两边低、左右基本对称的“钟形”曲线数学上称为正态分布正态分布曲线曲线n由于纵坐标相当于概率密度,故叫做正态分布的概正态分布的概率密度曲线率密度曲线正态分布及其应用正态分布及其应用图3-2 概率密度曲线示意图n正态分布曲线略呈钟形,中间高,两头低,以均数 为中心,左右对称,均数处最高n正态分布的曲线在横轴上方,向两侧逐渐减低,两侧都以横轴为其渐近线n正态分布有两个参数,即均数均数 和 标准差标准差 正态分布的特性正态分布及其应用正态分布及其应用把服从正态分布的变量表示为:把服从正态分布的变量表示为:XN(,2)正态分布的特性 正态分布曲线的参数的意义均数均数(位置参数)(位置参数)n表示正态分布曲线峰(集中趋势)的位置n固定时,增大,曲线沿横轴向右移动 减小,曲线沿横轴向左移动正态分布及其应用正态分布及其应用 正态分布的特性n正态分布曲线的参数标准差标准差 (变异度参数)(变异度参数)n表示正态变量取值的离中程度n固定时,越大,曲线越宽,表示数据越分散 越小,曲线越窄,表示数据越集中正态分布及其应用正态分布及其应用正态分布的概率密度函数正态分布及其应用正态分布及其应用式中,式中,为总体均数为总体均数;为总体标准差为总体标准差;=3.14159为圆周率;为圆周率;e为自然对数的底为自然对数的底(e2.71828),X为变量为变量服从正态分布的变量服从正态分布的变量X的概率密度函数的概率密度函数f(x)为为图图1 1 正态分布的概率密度函数与分布函数正态分布的概率密度函数与分布函数X 取值落在区间(-,x)内的累积概率为概率密度曲线下位于(-,x)的图形面积,等于其概率密度函数f(x)在-到 x上的积分,记作 为正态分布 的分布函数。其值表示变量X落在区间(-,x)内的概率,对应于从-到x概率密度曲线下的阴影面积(常称为左侧尾部面积)图图1 1 正态分布的概率密度函数与分布函数正态分布的概率密度函数与分布函数图图1 1 正态分布的概率密度函数与分布函数正态分布的概率密度函数与分布函数 图图2 2 正态分布的概率正态分布的概率 利用分布函数 可以计算正态分布变量取值在任意区间 a,b)的概率为P(aXb)=F(b)-F(a)(其几何意义如图2中阴影部分所示)。由图可得P(Xb)=1-P(Xb)=1-F(b)正态分布曲线下面积的分布规律正态分布及其应用正态分布及其应用n服从正态分布的随机变量在一区间上曲线下的面积与该随机变量在同一区间内取值的概率相等n正态曲线与横轴所夹面积为1正态分布曲线下面积的规律正态分布及其应用正态分布及其应用n1)正态曲线与横轴所夹的面积为1n2)位于(-1.64,+1.64)内的面积为0.90,说明正态变量在1.64范围内取值的概率为0.9,在该区间以外取值的概率(两侧的阴影面积之和)为0.1,左右两侧各0.05n3)位于(-1.96,+1.96)内的面积为0.95,说明正态变量在1.96范围内取值的概率为0.95,在该区间以外取值的概率(两侧的阴影面积之和)为0.05,左右两侧各0.025n4)位于(-2.58,+2.58)内的面积为0.99,说明正态变量在2.58范围内取值的概率为0.99,在该区间以外取值的概率(两侧的阴影面积之和)为0.01,左右两侧各0.005正态分布曲线下面积分布规律示意图正态分布曲线下面积分布规律示意图正态分布曲线下的面积分布规律正态分布曲线下的面积分布规律正态分布及其应用正态分布及其应用标准正态分布标准正态分布n当参数 和 已知时,依据正态分布N(,2)的分布函数公式,正态变量取值落在各区间的概率概率 都归结为正态分布都归结为正态分布曲线下的面积,只需知道分布函数曲线下的面积,只需知道分布函数 F F(x x)在区间端点处的函在区间端点处的函数值数值 就可以算出,但要通过该公式计算F(x)是困难的n实际应用中,要把服从一般正态分布N(,2)的随机变量X作如下标准化变换:n变换后新的随机变量 z z 服从,=0,=1的正态分布,即 ZN(0,1)正态分布及其应用正态分布及其应用标准正态分布标准正态分布n指数据经标准化变换后,=0,=1时的正态分布n标准正态分布(又称Z分布):ZN(0,1)n公式n任何一个正态分布,都可以通过变换,成为标准正态分布正态分布及其应用正态分布及其应用mm+sm-sX N(m,s2)01-1X-msZ =N(0,1)正态分布及其应用正态分布及其应用标准正态分布标准正态分布n图中阴影部分的面积面积表示标准正态变量Z落在(-,z)内的概率概率即为分布函数 的值标准正态分布的概率密度曲线与分布函数示意图z0z10z21-正态分布及其应用正态分布及其应用标准正态分布标准正态分布n图中阴影部分的面积面积表示标准正态变量Z落在(-,z)内的概率概率即为分布函数 的值标准正态分布的概率密度曲线与分布函数示意图正态分布的应用1 1、估计频数分布、估计频数分布n标准正态分布正态分布及其应用正态分布及其应用查 标准正态分布表标准正态分布表(附表C1)得标准正态变量z落在(-,z)内的概率值z.00.01.02.03.04.05.06.07.08.09-3.0.0013.0013.0013.0012.0012.0011.0011.0011.0010.0010-2.9.0019.0018.0018.0017.0016.0016.0015.0015.0014.0014-2.8.0026.0025.0024.0023.0023.0022.0021.0021.0020.0019-2.7.0035.0034.0033.0032.0031.0030.0029.0028.0027.0026-2.6.0047.0045.0144.0043.0041.0040.0039.0038.0037.0036-2.5.0062.0060.0059.0057.0055.0054.0052.0051.0049.0048-2.4.0082.0080.0078.0075.0073.0071.0069.0068.0066.0064-2.3.0107.0104.0102.0099.0096.0094.0091.0089.0087.0084-2.2.0139.0136.0132.0129.0125.0122.0119.0116.0113.0110-2.1.0179.0174.0170.0166.0162.0158.0154.0150.0146.0143-2.0.0228.0222.0217.0212.0207.0202.0197.0192.0188.0183-1.9.0287.0281.0274.0268.0262.0256.0250.0244.0239.0233-1.8.0359.0351.0344.0336.0329.0322.0314.0307.0301.0294-1.7.0446.0436.0427.0418.0409.0401.0392.0384.0375.0367-1.6.0548.0537.0526.0516.0505.0495.0485.0475.0465.0455-1.5.0668.0655.0643.0630.0618.0606.0594.0582.0571.0559-1.4.0808.0793.0778.0764.0749.0735.0721.0798.0694.0681表C1 标准正态分布(z-分布)密度曲线下的面积(z)值自-到-z的面积(-,-z),(z,+)=1-(-,-z)-1.4.0808.0793.0778.0764.0749.0735.0721.0798.0694.0681-1.3.0968.0951.0934.0918.0901.0885.0869.0853.0838.0823-1.2.1151.1131.1112.1093.1075.1056.1038.1020.1003.0985-1.1.1357.1335.1314.1292.1271.1251.1230.1210.1190.1170-1.0.1587.1562.1539.1515.1492.1469.1446.1423.1401.1379-0.9.1841.1814.1788.1762.1736.1711.1685.1660.1635.1611-0.8.2119.2090.2061.2033.2005.1977.1949.1922.1894.1867-0.7.2420.2339.2358.2327.2296.2266.2236.2206.2177.2148-0.6.2743.2709.2676.3643.2611.2578.2546.2514.2483.2451-0.5.3085.3050.3015.2981.2946.2912.2877.2843.2810.2776-0.4.3446.3409.3372.3336.3300.3264.3228.3192.3156.3121-0.3.3821.3783.3745.3707.3669.3632.3594.3557.3520.3483-0.2.4207.4168.4129.4090.4052.4013.3974.3936.3897.3859-0.1.4602.4562.4522.4483.4443.4404.4364.4325.4286.4247-0.0.5000.4960.4920.4880.4840.4801.4761.4721.4681.4641z.00.01.02.03.04.05.06.07.08.09正态分布的应用1 1、估计频数分布、估计频数分布例:140名成年男子红细胞均数和标准差分别为 4.781012/L和 0.371012/L,求红细胞数在4 1012/L5.3 1012/L范围内所占的比例?正态分布及其应用正态分布及其应用z0z10z2正态分布的应用练习:练习:假定一组男孩的体重呈正态分布,体重均数40kg、体重的标准差4kg,请回答以下问题:(1)体重低于46.6kg的男孩占百分之几?(2)体重大于什么值的男孩占10%?正态分布及其应用正态分布及其应用以以z11.65查表,得查表,得(z1)0.04950.05 (z2)10.050.95 即体重低于即体重低于46.6kg的男孩占的男孩占95%z1 0 z2 40 46.6?%z1 0 z2 4010%X?(2)以)以(z)10%0.10先查表,得先查表,得z11.28 z2 z1 z21.28 XX+zSX401.28445.12(kg)即体重大于即体重大于45.12kg的男孩占的男孩占10%1 1、制定医学参考值范围、制定医学参考值范围n医学参考值,又称正常值范围,医学上包括绝大多数正常人的某指标值的波动范围n确定范围:一般以95%参考值范围最常用n按资料特点选取不同方法计算正常值范围的上下限正态分布的应用正态分布及其应用正态分布及其应用 单侧下限单侧下限-过低异常过低异常单侧下限单侧下限异常异常正常正常单侧上限单侧上限异常异常正常正常异常异常正常正常双侧下限双侧下限双侧上限双侧上限异常异常单侧上限单侧上限-过高异常过高异常双侧双侧-过高、过低均异常过高、过低均异常根据指标含义决定单、双侧范围根据指标含义决定单、双侧范围正态分布的应用 1 1、制定医学参考值范围、制定医学参考值范围 依据资料的分布类型有以下两种的常用方法:n1 1)正态近似法)正态近似法 适用于服从正态分布或近似正态分布的资料n双侧 参考值范围n单侧 参考值范围 或正态分布的应用 1 1、制定医学参考值范围、制定医学参考值范围 依据资料的分布类型有以下两种的常用方法:n1 1)正态近似法)正态近似法n对于正态分布或近似正态分布的资料,只要样本含量足够大(n100)时,可用:作为95%的正常值范围(双侧)正态分布及其应用正态分布及其应用正态分布的应用正态分布及其应用正态分布及其应用140名成年男子的红细胞数,已知:均 数 4.78(1012/L)标准差 0.37(1012/L)因此,其正常值范围可定为:(4.781.960.37,4.781.960.37)即(4.06,5.51)n例例:估计例3-4中该地正常成年女子的血清总蛋白 (g/L,g/L)的95%参考值范围。n解:解:由于该地正常成年女子血清总蛋白近似服从正态分布,可用正态分布法计算。因血清总蛋白过多或过少均属异常,所以应取双侧,即计算95%参考值范围的上下限。n下限为:(g/L)n上限为:(g/L)n故该地正常成年女子血清总蛋白的95%参考值范围为65.3580.25(g/L)。正态分布的应用正态分布及其应用正态分布及其应用正态分布的应用 1 1、制定医学参考值范围、制定医学参考值范围n2 2)百分位数法百分位数法 适用于偏态分布资料、分布型未知的资料以及分布末端有不确定值的资料n双侧 95%参考值范围n单侧95%参考值范围 正态分布及其应用正态分布及其应用或正态分布的应用n例:某地调查110名健康成年男子的第一秒肺通气量(近似服从正态分布)得:n均数为4.2(L)n标准差为0.7(L)n请据此估计该地成年男子第一秒肺通气量的95%正常值范围?正态分布及其应用正态分布及其应用正态分布的应用n因第一秒肺通气量仅过低属异常,故此正常值范围属仅有下限的单侧正常值范围n又因此资料近似正态分布,故可用正态分布法n即该地成年男子第一秒肺通气量的95%正常值范围不低于3.05(L)正态分布及其应用正态分布及其应用常用参考值范围的制定参考值参考值范围范围(%)正态分布法正态分布法百分位数法百分位数法双侧双侧单侧单侧双侧双侧单侧单侧下限下限上限上限下限下限上限上限90P5P95P10P9095P2.5P97.5P5P9599P0.5P99.5P1P99正态分布的应用 3 3、质量控制、质量控制n绘出质量控制图正态分布及其应用正态分布及其应用上、下警戒限上、下控制限各测定值均在警戒限以内,且随机地分布在中心线的两侧,说明质量在控制中正态分布的应用 3 3、质量控制、质量控制n例如,某实验室对同一控制血清作尿酸定量测定,连续观察20天,得20个数据如下(mg/dl):正态分布及其应用正态分布及其应用5.0 5.0 5.0 4.8 4.6 5.1 4.8 5.0 4.8 4.8 4.8 5.0 4.6 4.7 4.7 4.6 4.7 5.1 4.7 4.7 正态分布的应用 4 4、统计方法的理论基础、统计方法的理论基础n许多统计方法(如t检验、方差分析等)都要求指标服从正态分布n有些统计量的分布(如 t 分布等)都是在正态分布的基础上推演出来的n正态分布在统计学中占有极其重要的地位正态分布及其应用正态分布及其应用n1、正态分布是一种很重要的连续型分布,很多医学现象服从正态分布或近似正态分布,或经变量转换转换为正态分布,可按正态分布规律来处理,是许多统计学方法的理论基础n2、正态分布的特征:曲线在横轴上方,均数处最高;以均数为中心,左右对称;确定正态分布的两个参数是均数与标准差n3、正态曲线下面积的分布有一定规律。利用此规律可用于估计医学参考值范围和质量控制小小 结结正态性转换的常见方法正态性转换的常见方法 1.1.对数变换对数变换:适用于(1)对数正态分布资料,如抗体滴度,疾病潜伏期等;(2)样本标准差与均数成比例2.2.平方根变换平方根变换:适用于(1)服从泊松分布资料,如一些发病率较低的疾病(2)轻度的偏态分布的资料3.3.平方根反正弦变换平方根反正弦变换:适用于率或百分比资料,如患病率等4.4.倒数变换倒数变换:适用于数据两端波动较大的数据 练习练习:某年某地不同年龄组男童身高资料如下:年龄组年龄组 人数人数 均数(均数(cm)标准差标准差cm)12月月 100 56.3 2.156月月 120 66.5 2.23 33.53.5岁岁 300 96.1 3.1300 96.1 3.155.5岁岁 400 107.8 3.3(1)上述资料是否表明6岁以下男童的平均身高和身高的变异程度均随年龄增长而增加?(2)若身高服从正态分布,试估计上述300名33.5 岁男童中身高在95.0100cm范围内者有多少人?(3)计算55.5岁年龄组男童身高的正常值范围?n例题例题 为估计某地居民尿汞值的参考值范围,测得某地200名正常成人的尿汞值如下表,试根据该样本资料估计该地居民尿汞值的95%正常值范围。尿汞值0 4 8 12162024283236404448例数45304120151213546342某地200名正常成人的尿汞值/习习 题题n解法一:解法一:计算得该样本资料的均数13.78(),标准差11.71(),于是估计该地居民尿汞值的95%正常值范围为(,)=(-9.17,36.73)。n解法二:解法二:估计该地居民尿汞值的95%正常值范围为(,)=(2.66,24.90)。习习 题题正确否?n案例辨析案例辨析 以上解法均是错误的。上述解法均利用正态分布法估计正常值范围,但却忽略了对该资料的正态性判断或检验。n正确做法正确做法 严格的正态性检验常用的方法有Z检验(通常称为矩法)、W 检验、D检验等,需要借助统计软件完成。在这里我们用粗略判断的方法:作出频率分布图看是否对称,如果对称可初步判断为正态分布,否则判为非正态。该例频率分布明显不对称 习习 题题n由此图可粗略判断尿汞值这个指标不服从正态分布(经对数变换后频率分布仍不对称),所以不能用正态分布法估计正常值范围,而应用适合描述偏态分布的百分位数法,计算 ,故估计该地居民尿汞值的95%正常值范围不高于38()。习习 题题n在本例中,如果该地居民尿汞值呈正态分布,则有 估计该地居民尿汞值的95%正常值范围为(0,)=(0,32.98)()n因为汞是对人身体有害的微量元素,越少越好,又不可能取负值,下限应该为0,只需求出单侧上限即可。习习 题题三、计算题三、计算题:调查某市2000年110名20岁男性青年的身高(cm)资料如下:173.1 166.8 172.9 175.9 172.8 170.5 174.1 174.2 175.7 173.5 168.2 173.7 184.4 174.8 172.5 174.9 174.9 174.2 173.8 176.2 170.9 165.0 176.3 174.2 179.8 174.5 180.5 171.5 178.9 171.5 166.7 170.8 168.8 177.5 174.5 183.5 182.0 170.9 173.5 177.5 181.2 177.1 172.3 176.5 174.0 174.3 174.6 172.6 171.3 173.1 176.9 170.5 174.2 177.5 176.6 182.3 172.1 169.9 179.5 175.8 178.6 180.6 175.6 173.3 168.7 174.5 178.5 171.3 172.0 173.2 168.8 176.0 182.6 169.5 177.5 180.6 181.5 175.1 165.2 168.0 175.4 169.2 170.0 171.9 176.6 178.8 177.2 173.4 168.5 177.6 175.8 164.8 175.6 180.0 176.6 176.5 177.7 174.1 180.8 170.6 173.8 180.7 176.3 177.5 178.3 176.0 174.8 180.8 176.5 179.2 (1)试估计当年该市20岁男性青年中,身高在175.0178.0(cm)内的占 多大比例?(2)估计当年该市95%以及99%的20岁男青年身高范围。(3)若当年由该市随机抽查1名20岁男青年,试估计其身高超过180 cm的概率。习习 题题操作说明Analyze Descriptive StatisticsDescriptives Options Mean Std.Deviation Continue Variables:x OK调用Descriptives过程计算得均数=174.766,标准差=4.150 9TransformCompute调用“变量计算(Compute Variable)”对话框Target Variable P 定义目标变量“P”Numeric Expression:CDF.NORMAL(178.0,174.766,4.1509)-CDF.NORMAL(175.0,174.766,4.1509)OK当年该市20岁男性青年中,身高在175.0178.0 cm内的比例Target Variable x1 该市95%以及99%的20岁男青年身高范围间的比例Numeric Expression:174.766-1.96*4.1509OKTarget Variable x2 Numeric Expression:174.766+1.96*4.1509OKTarget Variable x3 Numeric Expression:174.766-2.58*4.1509OKTarget Variable x4 Numeric Expression:174.766+2.58*4.1509OKTarget Variable p1 Numeric Expression:1-CDF.NORMAL(180.0,174.766,4.1509)OK由该市随机抽查1名20岁男青年,其身高超过180 cm的概率计算结果:计算结果:DescriptiveStatisticsNMeanStd.Deviationx110174.7664.1509Valid N(listwise)110SPSS输出结果,得到均数(Mean)为174.766 cm,标准差(Std.Deviation)为4.150 9 cm。估计当年该市20岁男性青年中,身高在175.0178.0 cm内的 比例为25.956%,身高在175.0178.0 cm内的约有29人。估计当年该市95%的20岁男青年身高范围为166.63182.90 cm,99%的20岁男青年身高范围为164.06185.48 cm。由该市随机抽查1名20岁男青年,估计其身高超过180 cm的概率约为10%。练习练习:某年某地不同年龄组男童身高资料如下:年龄组年龄组 人数人数 均数(均数(cm)标准差标准差cm)12月月 100 56.3 2.156月月 120 66.5 2.23 33.53.5岁岁 300 96.1 3.1300 96.1 3.155.5岁岁 400 107.8 3.3(1)上述资料是否表明6岁以下男童的平均身高和身高的变异程度均随年龄增长而增加?(2)若身高服从正态分布,试估计上述300名33.5 岁男童中身高在95.0100cm范围内者有多少人?(3)计算55.5岁年龄组男童身高的正常值范围?Thank You!