《医学统计学.正态分布及其应用课件.ppt》由会员分享,可在线阅读,更多相关《医学统计学.正态分布及其应用课件.ppt(61页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、频数分布表、图频数分布表、图分组划计分组划计原始资料原始资料分布分布类型类型数值变量统计描述小结数值变量统计描述小结算术均数与标准差算术均数与标准差对数转换对数转换几何均数与对数值几何均数与对数值标准差的反对数标准差的反对数中位数与四分位数间距中位数与四分位数间距不对称不对称对称对称1第四章第四章 第四节第四节正态分布及其应用正态分布及其应用 流行病与卫生统计学系流行病与卫生统计学系何保昌何保昌3正态分布及其应用正态分布及其应用(Normal distribution)一一.正态分布的概念和特征正态分布的概念和特征二二.正态曲线下面积的分布规律正态曲线下面积的分布规律三三.标准正态分布的性质标
2、准正态分布的性质四四.正态分布的应用正态分布的应用4此图的纵坐标为频率,横坐标为肺活量,称此图为频率直方图此图的纵坐标为频率,横坐标为肺活量,称此图为频率直方图每一个直方条的面积每一个直方条的面积=频率,各组段的频率之和频率,各组段的频率之和=1,所以这个直方,所以这个直方图的面积为图的面积为1如果样本量越大,每个组段的频率就越稳定,也就趋向概率。如果样本量越大,每个组段的频率就越稳定,也就趋向概率。由此我们可得到由此我们可得到:随机抽一个随机抽一个9岁男孩岁男孩,其肺活量落在各个组段的概率其肺活量落在各个组段的概率5假定各组段的概率如下假定各组段的概率如下由此可知由此可知:如果一个区间由若干
3、组段构成如果一个区间由若干组段构成,计算肺活量落在计算肺活量落在某个区间的概率等于计算这个区间的中各个直方条图的面某个区间的概率等于计算这个区间的中各个直方条图的面积之和积之和.只能计算给定区间概率只能计算给定区间概率,不能计算任意区间概率不能计算任意区间概率.对于上述直方图对于上述直方图,组距越小组距越小,组段越多组段越多,能够计算的概率区能够计算的概率区间就越多间就越多,当组距逐渐减小当组距逐渐减小,上述计算方法仍然成立上述计算方法仍然成立.7 随人数逐渐增多,组段不断分随人数逐渐增多,组段不断分细,则频数分布图中的直条逐渐变细,则频数分布图中的直条逐渐变窄,就会逐渐形成一条高峰位于中窄,
4、就会逐渐形成一条高峰位于中央央(均数所在处均数所在处)、两侧逐渐降低且左、两侧逐渐降低且左右对称、不与横轴相交的光滑曲线右对称、不与横轴相交的光滑曲线,近似于数学上的正态分布曲线。近似于数学上的正态分布曲线。8 在在医医学学卫卫生生领领域域中中,许许多多变变量量的的频频数数分分布布是是中中间间(靠靠近近均均数数处处)频频数数多多,两两边边频频数数少少,且且左左右右对对称称。如如人人体体的的许许多多生生理理、生生化化指指标标等等。这这种种变变量量的的频频数数分分布布规规律律可可用用概概率率论论中中的的一一种种重重要要的的随随机机变变量量分分布布正正态态分分布布(Normal(Normal dis
5、tribution)distribution)加加以描述。以描述。一一.正态分布的概念和特征正态分布的概念和特征 1.正态分布的概念正态分布的概念9医学资料中有许多指标的频数分布都呈正态分布医学资料中有许多指标的频数分布都呈正态分布医学资料中有许多指标的频数分布都呈正态分布医学资料中有许多指标的频数分布都呈正态分布:身高身高身高身高 体重体重体重体重 脉搏脉搏脉搏脉搏 血红蛋白血红蛋白血红蛋白血红蛋白 血清总胆固醇血清总胆固醇血清总胆固醇血清总胆固醇 10 正态分布曲线呈对称的钟形,正态分布曲线呈对称的钟形,在均数处最高,两侧逐渐低下,两在均数处最高,两侧逐渐低下,两端在无穷远处与横轴无限接近
6、。端在无穷远处与横轴无限接近。若变量若变量 x 的频率曲线对应于数的频率曲线对应于数学上的正态分布曲线,则称该变量学上的正态分布曲线,则称该变量服从正态分布。服从正态分布。112.正态分布的特征正态分布的特征正态分布曲线的密度函数为:正态分布曲线的密度函数为:-X X+与与X范围内曲线下的面积相等,各占范围内曲线下的面积相等,各占50%;X X轴轴轴轴S S(-(-,-X X)-X XX XS S(X X,)正态分布对称性正态分布对称性正态分布对称性正态分布对称性S S(X X,)S(-S(-,-,-X X)16二二.正态密度函数曲线下的面积规律正态密度函数曲线下的面积规律曲线下在区间曲线下在
7、区间(,)的面积为的面积为68.27%,曲线下在区间曲线下在区间(1.64,1.64)的面积为的面积为90%,曲线下在区间曲线下在区间(1.96,1.96)的面积为的面积为95%,曲线下在区间曲线下在区间(2.58,2.58)的面积为的面积为99%。17-+68.27%士士范围内的面积占正态曲线下面积的范围内的面积占正态曲线下面积的68.2768.27,也,也就是说有就是说有68.2768.27的变量值分布在此范围内。的变量值分布在此范围内。18士士1.641.64范围内的面积占正态曲线下面积的范围内的面积占正态曲线下面积的9090,也就是,也就是说有说有9090的变量值分布在此范围内。的变量
8、值分布在此范围内。-1.64-1.64 +1.641.64 5%5%90%19-1.96-1.96 +1.961.96 2.5%2.5%95%士士1.961.96范围内的面积占正态曲线下面积的范围内的面积占正态曲线下面积的9595,也就是说有也就是说有9595的变量值分布在此范围内。的变量值分布在此范围内。20-2.58-2.58 +2.582.58 0.5%0.5%99%士士2.582.58范围内的面积占正态曲线下面积的范围内的面积占正态曲线下面积的9999,也就是说有也就是说有9999的变量值分布在此范围内。的变量值分布在此范围内。21曲线下的面积的计算曲线下的面积的计算 对对于于任任意意
9、一一个个区区间间的的曲曲线线下下面面积积,在在知知道道变变量量值值x对对应应的的概概率率密密度度函函数数f(x)后后,都都可可以以根根据微积分的方法求出其面积的大小据微积分的方法求出其面积的大小a ab bx xf f(x x)22实际工作中,常需要了解正态曲实际工作中,常需要了解正态曲线下横轴上某一区间的面积占总线下横轴上某一区间的面积占总面积的百分数,以便估计该区间面积的百分数,以便估计该区间的例数占总例数的百分数(频数的例数占总例数的百分数(频数分布)或观察值落在该区间的概分布)或观察值落在该区间的概率。对于不同的参数率。对于不同的参数和和会会产产生不同位置、不同形状正生不同位置、不同形
10、状正态态分布,分布,(x1,x2)范)范围围内的面内的面积积也不同,也不同,计计算起来很麻算起来很麻烦烦。23为了计算方便,对于正态或近似正态为了计算方便,对于正态或近似正态分布的资料,只要得出均数和标准分布的资料,只要得出均数和标准差,可通过标准转化,转化成求标差,可通过标准转化,转化成求标准正态曲线下横轴自准正态曲线下横轴自-到到z的面积。的面积。为了便于应用,统计学家按为了便于应用,统计学家按(z)编编制了标准正态分布曲线下的面积表,制了标准正态分布曲线下的面积表,由此表可查出曲线下某区间的面积,由此表可查出曲线下某区间的面积,这样就可对符合正态分布资料的频这样就可对符合正态分布资料的频
11、数分布作出估计。数分布作出估计。三、标准正态分布三、标准正态分布241.标准化变换标准化变换 若若 x 服从正态分布服从正态分布 N(,2),则,则 z就服从均数为就服从均数为0、标准差为、标准差为1的正态分布,的正态分布,这种正态分布称为标准正态分布或这种正态分布称为标准正态分布或 z 分分布,记为布,记为 N(0,12),这一变换也称为标这一变换也称为标准化变换准化变换。25N(,2)N(0,1)从一般的正态分布转变为标准的正态分布从一般的正态分布转变为标准的正态分布26 标准正态分布的密度函数标准正态分布的密度函数为为27对上式求积分可得到标准正态变量对上式求积分可得到标准正态变量Z的分
12、布函的分布函数。数。由于积分计算繁琐,统计学家按标准正态分布由于积分计算繁琐,统计学家按标准正态分布的累积概率分布函数的累积概率分布函数(-Z)编制了附表编制了附表2(P315),标准正态分布曲线下的面积,由),标准正态分布曲线下的面积,由表可查出曲线下某区间的面积。表可查出曲线下某区间的面积。28标准正态分布曲线下面积标准正态分布曲线下面积(Z)Z Z 0.00 0.00-0.02-0.02-0.04-0.04-0.06-0.06-0.08-0.08-3.0-3.00.00130.00130.00130.00130.00120.00120.00110.00110.00100.0010-2.5
13、-2.50.00620.00620.00590.00590.00550.00550.00520.00520.00490.0049-2.0-2.00.02280.02280.02170.02170.02070.02070.01970.01970.01880.0188-1.9-1.90.02870.02870.02740.02740.02620.02620.02500.02500.02390.0239-1.6-1.60.05480.05480.05260.05260.05050.05050.04850.04850.04650.0465-1.0-1.00.15870.15870.15390.1539
14、0.14920.14920.14460.14460.14010.1401-0.5-0.50.30850.30850.30150.30150.29460.29460.28770.28770.28100.2810 0.0 0.00.50000.50000.49200.49200.48400.48400.47610.47610.46810.46810Z29标准正态分布查表标准正态分布查表-2.62Z=-2.62z0.00 0.01 0.02-3.00.00130.00130.0013-2.90.00190.00180.0018-2.80.00260.00250.0024-2.70.00350.003
15、40.0033-2.60.00470.00450.0044-2.50.00620.00600.0059Standardized Normal Probability Table(p261)P=0.0044概率概率30查附表查附表2时注意事项:时注意事项:曲线下横轴上的总面积为曲线下横轴上的总面积为100%或或1;表中曲线下面积为表中曲线下面积为-到到Z的面积;的面积;对于服从正态分布的变量对于服从正态分布的变量x,先进行标准,先进行标准化变换(化变换(),然后借助标准正态分),然后借助标准正态分布表可得到任意布表可得到任意(x1,x2)范围内的面积或频范围内的面积或频数比例。数比例。31图4.
16、7 查表法求标准正态曲线下面积示意图Z1 Z2计算正态曲线下面积实例计算正态曲线下面积实例例例 4.21 已知已知z1=-1.76,z2=-0.25,欲求标准正态下,欲求标准正态下(-1.76,-0.25)范围的面积。范围的面积。查表查表(-1.76)=0.0392;(-0.25)=0.4013 则则D=(-0.25)-(-1.76)=0.3621例例4.22已知已知z1=-1.20,z2=1.60,欲求标准正,欲求标准正态下(态下(-1.20,1.60)范围的面积。范围的面积。查表查表(-1.20)=0.1151;(1.60)=1-0.0548=0.9452则则 D=(1.60)-(-1.2
17、0)=0.8301曲线下面积分布规律曲线下面积分布规律35四、正态分布的应用四、正态分布的应用1.1.估计频数分布估计频数分布2.2.制定医学参考值范围制定医学参考值范围3.3.质量控制质量控制 4.4.是许多统计方法的理论基础是许多统计方法的理论基础361.估计频数分布估计频数分布n n例例1.某项目研究婴儿的出生体重服从某项目研究婴儿的出生体重服从正态分布,其均数为正态分布,其均数为3150g,标准差为,标准差为350g。若以。若以2500g作为低体重儿,试估作为低体重儿,试估计低体重儿的比例。计低体重儿的比例。37n n首先计算标准正态离差首先计算标准正态离差z:n n查标准正态分布表查
18、标准正态分布表:(-1.86)=?n n结果:估计低体重儿所占比例为结果:估计低体重儿所占比例为_%38392.制定医学参考值范围制定医学参考值范围(medical reference interval)又称又称又称又称正常值范围正常值范围正常值范围正常值范围(normal range)(normal range)40什么是医学参考值范围:什么是医学参考值范围:是绝大多数正常人的是绝大多数正常人的是绝大多数正常人的是绝大多数正常人的的解剖、生理、生化等指的解剖、生理、生化等指的解剖、生理、生化等指的解剖、生理、生化等指标的波动范围标的波动范围标的波动范围标的波动范围绝大多数:绝大多数:绝大多数
19、:绝大多数:90%90%,95%95%,99%99%等等等等“正常人正常人”的定义:的定义:排除了影响所研究的指标的疾病和有关因素的排除了影响所研究的指标的疾病和有关因素的排除了影响所研究的指标的疾病和有关因素的排除了影响所研究的指标的疾病和有关因素的同质的人群。同质的人群。同质的人群。同质的人群。41确定医学参考值范围的意义确定医学参考值范围的意义作为判断正常与异常的参考标准作为判断正常与异常的参考标准42确定参考值范围的注意事项确定参考值范围的注意事项确定观察对象和抽取足够的观察单位确定观察对象和抽取足够的观察单位 测定方法应统一、准确测定方法应统一、准确 应采用得到公认的或权威应采用得到
20、公认的或权威机构推荐的标准方法,以利于结果的评价和比较。机构推荐的标准方法,以利于结果的评价和比较。判断是否分组判断是否分组(性别性别,年龄组年龄组)单、双侧问题单、双侧问题 选择百分界值选择百分界值(90%,95%)(90%,95%)根据资料特点,选用恰当计算方法根据资料特点,选用恰当计算方法43根据医学专业知识确定单双侧!根据医学专业知识确定单双侧!单侧下限单侧下限-过低异常过低异常 单侧上限单侧上限-过高异常过高异常 双侧双侧-过高、过低均异常过高、过低均异常 单侧下限单侧下限异常异常正常正常单侧上限单侧上限异常异常正常正常单侧下限单侧下限单侧下限单侧下限:肺活量肺活量肺活量肺活量,IQ
21、,IQ,单侧上限单侧上限单侧上限单侧上限:转氨酶转氨酶转氨酶转氨酶,尿铅尿铅尿铅尿铅,双侧双侧双侧双侧:红细胞计数、血清总胆固醇红细胞计数、血清总胆固醇红细胞计数、血清总胆固醇红细胞计数、血清总胆固醇 异常异常正常正常双侧下限双侧下限双侧上限双侧上限异常异常44计算医学参考值范围常用的方法计算医学参考值范围常用的方法正态分布法正态分布法正态分布法正态分布法 :适用于正态或近似正态分布资料。适用于正态或近似正态分布资料。适用于正态或近似正态分布资料。适用于正态或近似正态分布资料。双侧界值:双侧界值:双侧界值:双侧界值:单侧上界:单侧上界:单侧上界:单侧上界:;单侧下界:;单侧下界:;单侧下界:;
22、单侧下界:对数正态分布法:对数正态分布法:对数正态分布法:对数正态分布法:适用于对数正态分布资料适用于对数正态分布资料适用于对数正态分布资料适用于对数正态分布资料双侧界值:双侧界值:双侧界值:双侧界值:百分位数法:百分位数法:百分位数法:百分位数法:常用于偏态分布资料常用于偏态分布资料常用于偏态分布资料常用于偏态分布资料 双侧界值双侧界值双侧界值双侧界值:P P2.52.5和和和和P P97.597.5;单侧上界;单侧上界;单侧上界;单侧上界:P P9595;或单侧下界;或单侧下界;或单侧下界;或单侧下界:P P5 5 45表表4.6 参考值范围的制定参考值范围的制定 46n n例例4.24
23、某地调查正常成年男子某地调查正常成年男子200人的红人的红细胞数,得均数细胞数,得均数 =55.261012/L,标准,标准差差S=0.381012/L,试估计该地正常成年,试估计该地正常成年男子红细胞数的男子红细胞数的95%参考值范围。参考值范围。47解:该地正常成年男子红细胞数的解:该地正常成年男子红细胞数的解:该地正常成年男子红细胞数的解:该地正常成年男子红细胞数的95%95%参考值范围为参考值范围为参考值范围为参考值范围为 下限:下限:下限:下限:1.961.96S S=55.26 =55.26 1.960.38=54.52(101.960.38=54.52(101212/L)/L)上
24、限:上限:上限:上限:1.961.96S S=55.26 =55.26 1.960.38=56.00(101.960.38=56.00(101212/L)/L)48正常人病人假阳性率假阴性率病人正常人与病人的数据分布重叠示意图正常人与病人的数据分布重叠示意图正常人与病人的数据分布重叠示意图正常人与病人的数据分布重叠示意图(双侧双侧双侧双侧)49n n例例4.25 2005年某市进行的小学生体质评年某市进行的小学生体质评价研究中,测定了价研究中,测定了120名名9岁男孩的肺活岁男孩的肺活量量,=1.672L,S=0.298L,试估计,试估计9岁岁男孩的肺活量的男孩的肺活量的95%参考值范围。参考
25、值范围。50 解:解:解:解:因肺活量因肺活量因肺活量因肺活量仅过低属异常仅过低属异常仅过低属异常仅过低属异常,故取,故取,故取,故取单侧单侧单侧单侧下限。肺活下限。肺活下限。肺活下限。肺活量的量的量的量的95%95%参考值范围为:参考值范围为:参考值范围为:参考值范围为:下限:下限:下限:下限:即该地估计该地小学生中即该地估计该地小学生中即该地估计该地小学生中即该地估计该地小学生中9 9岁男孩的肺活量的岁男孩的肺活量的岁男孩的肺活量的岁男孩的肺活量的95%95%参考值范围为参考值范围为参考值范围为参考值范围为不低于不低于不低于不低于1.183L1.183L。51n n例例.测得某年某地测得某
26、年某地282名正常人的尿汞值如名正常人的尿汞值如下表所示,试制定正常人尿汞的下表所示,试制定正常人尿汞的95%参考参考值范围。值范围。52表表表表1.1.某年某地某年某地某年某地某年某地282282名正常人的尿汞值名正常人的尿汞值名正常人的尿汞值名正常人的尿汞值(g/L)g/L)测量结果测量结果测量结果测量结果尿汞值尿汞值尿汞值尿汞值频数频数频数频数f f累计频数累计频数累计频数累计频数 f f 累计频率累计频率累计频率累计频率(%)(%)0.0 0.04545 45 45 16.0 16.0 8.0 8.06464109109 38.6 38.616.016.09696205205 72.7
27、 72.724.024.03838243243 86.2 86.232.032.02020263263 93.3 93.340.040.01111274274 97.2 97.248.048.0 5 5279279 98.9 98.956.056.0 2 2281281 99.6 99.664.072.064.072.0 1 1282282100.0100.053解:正常人的尿汞值为解:正常人的尿汞值为解:正常人的尿汞值为解:正常人的尿汞值为偏态偏态偏态偏态分布,且过高为异常,故用分布,且过高为异常,故用分布,且过高为异常,故用分布,且过高为异常,故用百分百分百分百分位数法位数法位数法位数法计
28、算,且取单侧上限。其计算,且取单侧上限。其计算,且取单侧上限。其计算,且取单侧上限。其95%95%参考值范围为:参考值范围为:参考值范围为:参考值范围为:上限:上限:上限:上限:即该地正常人尿汞的即该地正常人尿汞的即该地正常人尿汞的即该地正常人尿汞的95%95%参考值范围为参考值范围为参考值范围为参考值范围为不高于不高于不高于不高于43.643.6 g/Lg/L 。54正常人病人假阳性率假阴性率正常人与病人的数据分布重叠示意图正常人与病人的数据分布重叠示意图正常人与病人的数据分布重叠示意图正常人与病人的数据分布重叠示意图(单侧单侧单侧单侧)553.质量控制质量控制意义意义意义意义监控日常工作、
29、科研过程、生产过程中误差监控日常工作、科研过程、生产过程中误差监控日常工作、科研过程、生产过程中误差监控日常工作、科研过程、生产过程中误差的变化,分析变化的趋势是否出现异常,从的变化,分析变化的趋势是否出现异常,从的变化,分析变化的趋势是否出现异常,从的变化,分析变化的趋势是否出现异常,从而引起警觉和注意,以便分析原因,并及时而引起警觉和注意,以便分析原因,并及时而引起警觉和注意,以便分析原因,并及时而引起警觉和注意,以便分析原因,并及时采取措施。采取措施。采取措施。采取措施。依据:实验中的检测依据:实验中的检测依据:实验中的检测依据:实验中的检测误差服从正态分布误差服从正态分布误差服从正态分
30、布误差服从正态分布。56质量控制图质量控制图(quality control chart)UCL(UCL(上控制限上控制限上控制限上控制限)UWL(UWL(上警戒限上警戒限上警戒限上警戒限)CL (CL (中心线中心线中心线中心线)LWL(LWL(下警戒限下警戒限下警戒限下警戒限)LCL(LCL(下控制限下控制限下控制限下控制限)样本编号、取样时间+2.58SD+2.58SD+1.96SD+1.96SD -1.96SD-1.96SD-2.58SD-2.58SD574.正态分布是许多统计方法的理论基础正态分布是许多统计方法的理论基础n nt检验、检验、F检验及相关回归等多种统计方法均检验及相关回
31、归等多种统计方法均要求分析的指标服从要求分析的指标服从(近似近似)正态分布;正态分布;n n另有部分统计方法,如秩和检验,其一些另有部分统计方法,如秩和检验,其一些检验统计量,在样本含量足够大时也近似检验统计量,在样本含量足够大时也近似正态分布。正态分布。5.如何判断一组数据是否符合正态分布:如何判断一组数据是否符合正态分布:1.根据文献报道根据文献报道 例如:文献报道中学生的体重、肺活量服从正态例如:文献报道中学生的体重、肺活量服从正态分布,则可沿用文献的作法对数据进行处理。分布,则可沿用文献的作法对数据进行处理。2.根据经验或专业知识判断:根据经验或专业知识判断:例如:根据专业知识,同性别健康成人的红细胞例如:根据专业知识,同性别健康成人的红细胞数、血红蛋白含量、脉搏数都近似正态分布,而正数、血红蛋白含量、脉搏数都近似正态分布,而正常人的血铅含量近似对数正态分布。常人的血铅含量近似对数正态分布。3.用统计软件进行正态性检验:用统计软件进行正态性检验:SPSS、SAS、EXCEL等等方法方法绘制图形直接观察绘制图形直接观察专门检验方法考察专门检验方法考察1.“直方图直方图”或或“茎叶茎叶图图”2.“P-P图图”或或“Q-Q图图”60本章小结本章小结1.正态分布特点正态分布特点2.正态分布的应用正态分布的应用61
限制150内