《医学统计学 常用概率分布-正态分布.ppt》由会员分享,可在线阅读,更多相关《医学统计学 常用概率分布-正态分布.ppt(74页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第五章:常用概率分布1.1 1.1 正态分布的概念正态分布的概念1.2 1.2 正态概率密度曲线下的面积正态概率密度曲线下的面积1.31.3 正态分布的应用正态分布的应用1.4 1.4 正态分布的判断正态分布的判断正 态 分 布一、正态分布的概念 正态分布正态分布(normal distribution)德莫佛最早发现了二项概率德莫佛最早发现了二项概率的一个近似公式,这一公式被的一个近似公式,这一公式被认为是正态分布的首次露面。认为是正态分布的首次露面。正态分布在十九世纪前叶由正态分布在十九世纪前叶由高斯加以推广,所以通常称为高斯加以推广,所以通常称为高斯分布高斯分布(Gauss distri
2、bution)。德莫佛德莫佛高高 斯斯10马克的钱币马克的钱币 医学研究中许多生理、生化指标;测量误差等多医学研究中许多生理、生化指标;测量误差等多呈正态分布或近似正态分布。呈正态分布或近似正态分布。许多非正态分布资料,当样本含量足够大时,也许多非正态分布资料,当样本含量足够大时,也可以用正态分布作为它的极限分布形式。可以用正态分布作为它的极限分布形式。有时也可将非正态分布资料转化为正态分布来处有时也可将非正态分布资料转化为正态分布来处理。理。引子引子:举例:举例:随机抽取某医院随机抽取某医院1402例待分娩孕妇,例待分娩孕妇,测得她们的体重值测得她们的体重值,试述其体重频数分布,试述其体重频
3、数分布的特征。的特征。表表5-1 某医院某医院1402例待分娩孕妇体重频数分布例待分娩孕妇体重频数分布 作图:以体重测量值为作图:以体重测量值为横轴横轴,频率密度为,频率密度为纵轴纵轴作出作出直方图,直方图,此图即称为此图即称为频率密度图频率密度图;纵轴表示的是每个;纵轴表示的是每个组段内单位长度所占有的频率。组段内单位长度所占有的频率。图图5-1 体重体重频率密度频率密度图图 若将各直条顶端的中点顺次连接起来若将各直条顶端的中点顺次连接起来,得一条折线。当样得一条折线。当样本量本量n越来越大时,折线就越来越接近一条光滑的曲线越来越大时,折线就越来越接近一条光滑的曲线。图5-1 体重频率密度图
4、 图5-2 概率密度曲线示意图 图图5-1 体重体重频率密度频率密度图图 由于频率的总和为由于频率的总和为1,所以该曲线下横轴上的面积为,所以该曲线下横轴上的面积为1 面积面积=频率频率 正态分布正态分布(normal distribution):是:是描述连续型描述连续型随机变量最重要的分布。随机变量最重要的分布。其分布曲线叫正态分布其分布曲线叫正态分布曲线,呈中间高,两边低,左右基本对称的曲线,呈中间高,两边低,左右基本对称的“钟钟型型”曲线,曲线,近似于数学上的正态分布,近似于数学上的正态分布,又称高斯又称高斯分布(分布(Gauss distribution)。正态分布的密度函数正态分布
5、的密度函数,即正态曲线的函数表达式即正态曲线的函数表达式正态分布曲线正态分布曲线:高峰位于中间,两侧逐渐下降并完全:高峰位于中间,两侧逐渐下降并完全对称,曲线两端永远不与横轴相交的对称,曲线两端永远不与横轴相交的“钟型钟型”曲线。曲线。当当固定不变时,固定不变时,越大,曲线沿横轴越向右移动;反越大,曲线沿横轴越向右移动;反之,之,越小,则曲线沿横轴越向左移动,所以越小,则曲线沿横轴越向左移动,所以叫正态曲叫正态曲线线N(,2)的的位置参数位置参数,。位置参数:位置参数:图图5-4 正态分布位置随参数正态分布位置随参数变换示意图变换示意图=1=1.5=2 形状参数:形状参数:图图5-6 正态分布
6、形态随参数正态分布形态随参数变换示意图变换示意图 当当固定不变时,固定不变时,越大,曲线越平阔;越大,曲线越平阔;越小,曲越小,曲线越尖峭,线越尖峭,叫叫正态曲线正态曲线N(,2)的)的形状参数形状参数。(二)正态曲线下的面积(二)正态曲线下的面积采采用用定定积积分分的的办办法法,对对函函数数式式进进行行定定积积分分,算算得得从从 -到到 a累累计计面面积积,再再推推算算出出该该区区间间事事件件发发生生的的概概率率值值-a b -a 正态曲线下的面积分布有一定的规律性:正态曲线下的面积分布有一定的规律性:因正态曲线下累计频数的总和等于因正态曲线下累计频数的总和等于 100%或或 1,则:,则:
7、横轴上曲线下的面积(概率)就等于横轴上曲线下的面积(概率)就等于 100%或或 1;均数两侧的面积(概率)各占均数两侧的面积(概率)各占 50%。正态分布图形的特征正态分布图形的特征:1.对称性:对称性:关于关于x=对称对称2.集中性:集中性:正态曲线在横轴上方,正态曲线在横轴上方,当当x=时时,f(x)取最大值,即均数位于曲线的最高处。取最大值,即均数位于曲线的最高处。5.对对频率密度分布图,横轴上频率密度分布图,横轴上曲线下面积为曲线下面积为1;其面积与其面积与概率分布有对应关系,可通过求面积确定其概率值。概率分布有对应关系,可通过求面积确定其概率值。3.是正态曲线的位置参数,决定曲线在横
8、轴上的位置;是正态曲线的位置参数,决定曲线在横轴上的位置;增大曲线沿横轴向右移,增大曲线沿横轴向右移,减小曲线沿横轴向左移。减小曲线沿横轴向左移。4.是正态曲线的形状参数,是正态曲线的形状参数,越大数据越分散,曲线越越大数据越分散,曲线越“矮胖矮胖”,越小数据越集中,曲线越越小数据越集中,曲线越“瘦高瘦高”。由由,决定的正态分布曲线决定的正态分布曲线 N(,2)具有多样性具有多样性.为了应用方便,常将正态概率函数中的为了应用方便,常将正态概率函数中的 x 作如作如下变量代换,令:下变量代换,令:u称为标准正态变量。把称为标准正态变量。把u代入概率密度函数代入概率密度函数,得标准正态分布的概率密
9、度函数:,得标准正态分布的概率密度函数:相对于正态变量相对于正态变量 x,Z 没有度量单位。根据没有度量单位。根据 u 的不同取值,可绘出标准正态分布的图形。的不同取值,可绘出标准正态分布的图形。sm-=xu+5000时,结果以时,结果以Kolmogorov-Smirnov(D检验检验)为准为准 H0:呈正:呈正态分布;分布;H1:不呈正:不呈正态分布分布 =0.10正正态性性检验:注意:注意:很多统计方法的前提是变量服从正态分布,应该很多统计方法的前提是变量服从正态分布,应该建立这种意识,建立这种意识,对变量是否服从正态分布应该通对变量是否服从正态分布应该通过检验确定。过检验确定。在在SPS
10、S 中有很多方法可以进行正态分布的检验中有很多方法可以进行正态分布的检验,在使用中可以根据自己对在使用中可以根据自己对SPSS 熟悉程度选择一种熟悉程度选择一种方法对正态分布进行检验。方法对正态分布进行检验。正态分布图形有其明确的特征,是一典型的钟形曲正态分布图形有其明确的特征,是一典型的钟形曲线。线。正态分布的两个参数是均数正态分布的两个参数是均数和标准差和标准差,为了应用方便,常对任意一个正态分布的随机变量为了应用方便,常对任意一个正态分布的随机变量X作作Z变换,将其转为标准正态曲线。变换,将其转为标准正态曲线。应用正态分布曲线下的面积分布规律,可以估计医应用正态分布曲线下的面积分布规律,
11、可以估计医学参考值范围,概率及进行质控等学参考值范围,概率及进行质控等正态分布是一种重要的连续型变量分布形式。正态分布是一种重要的连续型变量分布形式。小 结 选择题选择题 1.正态分布的两个参数正态分布的两个参数与与,对应的正对应的正态曲线平行右移。态曲线平行右移。A.增大增大 B.减小减小 C.增大增大 D.减小减小 E.增大增大同时增大同时增大2.2.正态分布的特点有正态分布的特点有 A.A.算术均数算术均数=几何均数几何均数 B.B.算术均数算术均数=中位数中位数 C.C.几何均数几何均数=中位数中位数 D.D.算术均数算术均数=几何均数几何均数=中位数中位数 E.E.以上都没有以上都没
12、有3.3.正态分布曲线下右侧正态分布曲线下右侧5 5对应的分位点为对应的分位点为 A.A.+1.96+1.96 B.B.-1.96-1.96 C.C.+2.58+2.58 D.D.+1.64+1.64 E.E.-2.58-2.58计算题计算题 1.某地抽查某地抽查120份黄连中小蘖碱含量(份黄连中小蘖碱含量(mg/100g)得平均数为得平均数为4.38,标准差为,标准差为0.18,假设数据服从,假设数据服从正态分布,问:正态分布,问:(1)95%黄连样品中小蘖碱含量在什么范围?黄连样品中小蘖碱含量在什么范围?(2)有一份黄连样品,小蘖碱含量为)有一份黄连样品,小蘖碱含量为4.80,怎,怎样评价
13、?样评价?答案答案:根据公式根据公式另另(4.8-4.38)/0.18=2.331.96所以可认为小蘖碱含量不正常。所以可认为小蘖碱含量不正常。某地某地1998年抽样调查了年抽样调查了100名名18岁男大学生身岁男大学生身高,其均数高,其均数=172.70cm,标准差标准差=4.01 cm。(1)估计该地估计该地18岁男大学生身高在岁男大学生身高在168 cm以下以下者占该地者占该地18岁男大学生总数的百分数;岁男大学生总数的百分数;(2)估计该地估计该地18岁男大学生身高在岁男大学生身高在177 cm以下以下者占该地者占该地18岁男大学生总数的百分数。岁男大学生总数的百分数。答案答案:查附表
14、得,查附表得,(u)=0.1210,即,即该地该地18岁男大学生身高在岁男大学生身高在168 cm以下者占该地以下者占该地18岁男大学生总数的岁男大学生总数的12.10%。查附表得,查附表得,(-1.07)=0.1423,则则(u)=1-(-1.07)=1-0.1423=0.8577 即该地即该地18岁男大学生身高在岁男大学生身高在177 cm以下者占该地以下者占该地18岁男大岁男大学生总数的学生总数的85.77%。计算题计算题2.已已知知某某地地正正常常成成年年女女子子的的血血清清总总蛋蛋白白数数服服从从正正态态分分布布,调调查查了了该该地地110名名正正常常成成年年女女子子,得得样样本本血
15、血清清总总蛋蛋白白均均数数为为72.8g/L,标标准准差差为为3.8g/L,试试估估计计该该地地正正常常成成年年女女子子血血清清总总蛋蛋白白介介于于66.075.0 g/L之之间间的的比比例例,以以及及110名名正正常常成成年年女女子子中中血血清清总总蛋蛋白白介介于于66.075.0 g/L之之间间的的 人人 数数。.解析:解析:由于本例是大样本,可用样本均数由于本例是大样本,可用样本均数X和样本标准差和样本标准差 S 作为总体作为总体、的估计值,即的估计值,即将该地正常成年女子的血清总蛋白数近似看将该地正常成年女子的血清总蛋白数近似看作服从作服从N(72.8,3.82)的正态分布。)的正态分布。1.将变量作如下标准化变换:将变量作如下标准化变换:2.查查 u 值表值表得:得:(z2)-(z1)=0.719-0.0367=68.23%3.求所定区间概率求所定区间概率:即即估计血清总蛋白介于估计血清总蛋白介于66.075.0g/L的比例为的比例为68.23%所以所以110名正常成年女子中血清总蛋白介于之间名正常成年女子中血清总蛋白介于之间的人数约为的人数约为 110 68.23%=75人。人。4.求所定区间的可能人数求所定区间的可能人数:THANK YOU!
限制150内