医学统计学第讲正态分布精.ppt
医学统计学第讲正态分布第1页,本讲稿共33页第2页,本讲稿共33页第3页,本讲稿共33页分布特点单峰,钟形以均数为中心,两侧对称尾端不与横轴相交均数位置,标准差形状曲线下面积分布有特殊规律正态分布第4页,本讲稿共33页又称为高斯分布,是以均数为又称为高斯分布,是以均数为中心,呈对称的钟形分布,中心,呈对称的钟形分布,是是最常见、最重要的一种连续型最常见、最重要的一种连续型分布。分布。K.Pearson第5页,本讲稿共33页随机变量的概率分布随机变量的概念:即变量,按一定的概率可以在一个特定数据集中取值的变量,通常指医学研究中研究对象具有的某种特征。概率分布是指确定一个随机变量取给定值或属于一给定集合的概率的函数。统计学上,分布函数F(X)即总体中个体值小于或等于X的观察值的比例。密度函数f(X)离散型随机变量:f(x)=P(X)连续性变量:第6页,本讲稿共33页1.正态分布的图形正态分布的图形(a)(b)(d)(c)第7页,本讲稿共33页近似正态曲线近似正态曲线第8页,本讲稿共33页-x 2.718283.14159正态分布的密度函数,即正态曲线的方程正态分布的密度函数,即正态曲线的方程因此,正态分布曲线是一簇曲线第9页,本讲稿共33页标准正态分布标准正态分布-u+均数为0,标准差为1的正态分布,这种正态分布称为标准正态分布。对于任意一个服从正态分布N(,2)的随机变量,可作如下的标准化变换,也称u变换。标准正态分布的密度函数:标准正态离差标准正态离差第10页,本讲稿共33页2.正态分布的特征正态分布的特征N(,2)N(0,1)单峰分布;高峰在均数处;单峰分布;高峰在均数处;以均数为中心,均数两侧完全对称。以均数为中心,均数两侧完全对称。正态分布有两个参数正态分布有两个参数(parameter),即位置参数,即位置参数(均数均数)和和变异度参数变异度参数(标准差标准差)。有些指标本身不服从正态分布,但经过变换之后可以有些指标本身不服从正态分布,但经过变换之后可以服从正态分布。服从正态分布。正态曲线下的面积分布有一定的规律。正态曲线下的面积分布有一定的规律。第11页,本讲稿共33页第12页,本讲稿共33页方差相等、均数不等的正态分布图示方差相等、均数不等的正态分布图示312第13页,本讲稿共33页均数相等、方差不等的正态分布图示均数相等、方差不等的正态分布图示213第14页,本讲稿共33页X轴与正态曲线所夹面积恒等于1。对称区域面积相等。S(-,-X)S(+X,)S(-,-X)正态曲线正态曲线下面积分布规律下面积分布规律第15页,本讲稿共33页S(-x1,-x2)-x1 -x2 +x2+x1S(-x1,-x2)=S(+x1,+x2)对称区域面积相等第16页,本讲稿共33页-11-1.961.9668.27%95.00%正态曲线正态曲线下面积分布规律下面积分布规律第17页,本讲稿共33页标准正态曲线标准正态曲线下面积分布规律下面积分布规律0 0-11-1.961.9668.27%95.00%双侧双侧u 双侧双侧u0.05=1.96,双侧双侧u0.01=2.58第18页,本讲稿共33页正态分布的应用估计频数分布制定参考值范围质量控制统计分析方法的基础第19页,本讲稿共33页估计频数分布估计频数分布例:=1.14mmol/L,S=0.298mmol/L,试估计该地正常女子血清甘油三脂在1.10 mmol/L以下者占正常女子血清甘油三脂总人数的百分比。计算标准离差查表得 (-0.14)=0.444344.43即该地正常女子血清甘油三脂在1.10mmol/L以下者,估计占总人数的44.43%。第20页,本讲稿共33页44.43第21页,本讲稿共33页例:已知某年某市120名5岁女孩身高 S=5.86cm,现预估计该市某年身高界于104.0108.0cm范围内的5岁女孩所占比例及120名5岁女孩中身高界于104.0108.0cm范围内的人数。计算标准离差:(u1)=(-1.05)=0.1469,(u2)=(-0.37)=0.3557查表得:S=S=(u(u1 1)-)-(u(u2 2)=0.3557-0.1469=0.2088=20.88%)=0.3557-0.1469=0.2088=20.88%故估计该市某年身高界于104.0108.0cm范围内的5岁女孩所占比例为20.8820.88,在此范围内的人数为12020.882525名。第22页,本讲稿共33页划分正异常划分正异常制定参考值范围制定参考值范围参考值范围又称正常值范围,医学上是指参考值范围又称正常值范围,医学上是指绝大绝大多数正常人多数正常人的某指标值所在的范围。的某指标值所在的范围。参考值范围的意义参考值范围的意义第23页,本讲稿共33页 1.1.从从“正常人正常人”总体中抽样:明确研究总体总体中抽样:明确研究总体 2.2.控制检测误差控制检测误差 3.3.判断是否需要分组(如性别、年龄)确定判断是否需要分组(如性别、年龄)确定 4.4.根据专业知识决定单侧还是双侧根据专业知识决定单侧还是双侧 5.5.选择百分界值选择百分界值 6.6.确定可疑范围确定可疑范围 单侧下限单侧下限-过低异常过低异常 单侧上限单侧上限-过高异常过高异常 双侧双侧-过高、过低均异常过高、过低均异常 单侧下限单侧下限异常异常正常正常单侧上限单侧上限异常异常正常正常异常异常正常正常双侧下限双侧下限双侧上限双侧上限异常异常第24页,本讲稿共33页正常人病人假阳性假阴性正常人与病人的数据分布重叠示意图(单侧)第25页,本讲稿共33页正常人病人假阳性率假阴性率正常人与病人的数据分布重叠示意图(单侧)第26页,本讲稿共33页正常人病人假阳性率假阴性率病人正常人与病人的数据分布重叠示意图(双侧)第27页,本讲稿共33页正态分布法正态分布法 对数正态分布法对数正态分布法百分位数法百分位数法第28页,本讲稿共33页双侧双侧100(1-)%正常值范围:正常值范围:单侧单侧100(1-)%正常值范围:正常值范围:双侧双侧95%正常值范围:正常值范围:单侧单侧95%正常值范围:正常值范围:正态分布法正态分布法第29页,本讲稿共33页百分位数法百分位数法 双侧双侧95%正常值范围:正常值范围:P2.5P97.5 单侧单侧95%正常值范围:正常值范围:P5(下限)(下限)适用于偏态分布资料适用于偏态分布资料 第30页,本讲稿共33页例例:某地调查正常成年男子的红细胞数,近似正:某地调查正常成年男子的红细胞数,近似正态分布,得态分布,得x=5.38*1012/L,s=0.44*1012/L,试估计该地成年男子红细胞数的试估计该地成年男子红细胞数的95%正常值范围。正常值范围。下限下限 x-1.96s=4.52上限上限 x+1.96s=6.25(4.52,6.25)正态分布与近似正态分布实例第31页,本讲稿共33页血铅含血铅含(g/100g)人数人数累计频数累计频数累计频率累计频率(%)0663.05485427.010439748.5153613366.5202816180.5251317487.0301418894.035419296.040419698.045119798.550219999.555019999.560651200100.0200200名正常成人血铅含量的分布名正常成人血铅含量的分布百分位数法实例第32页,本讲稿共33页某市某市239名正常人发汞值的频数分布名正常人发汞值的频数分布 发汞值(g/g)男性女性合计频数累计频数百分率181220208.36820133135668635.98326528326014661.08787723254819481.1715591171821288.70293111241622895.397491333623497.907951510123598.326361710123698.744771921213239100合 计120119239100百分位数法实例第33页,本讲稿共33页