医学统计学幻灯片.ppt
医学统计学课件第1页,共40页,编辑于2022年,星期五一、识别统计资料分布的意义识别统计资料分布的意义1.资料分布明确后,分布规律自然呈现,按规律科学分析。资料分布明确后,分布规律自然呈现,按规律科学分析。2.资料分布不同,描述的特征数(参数)种类不同,采用不同统资料分布不同,描述的特征数(参数)种类不同,采用不同统计量估计和对比。计量估计和对比。3.某些分布资料相应要求具备一定条件,如独立试验结果某些分布资料相应要求具备一定条件,如独立试验结果在医学生物学有专业含义在医学生物学有专业含义无聚积性(传染性疾病、无聚积性(传染性疾病、遗传性疾病、地方病遗传性疾病、地方病 有聚积性),可以通过考察分布有聚积性),可以通过考察分布拟合情况间接推断拟合情况间接推断“聚积性聚积性”含义是否存在。含义是否存在。第2页,共40页,编辑于2022年,星期五二、识别统计资料分布的思维方法和程序二、识别统计资料分布的思维方法和程序 1.依据资料性质和样本大小,给出不同分布框架。依据资料性质和样本大小,给出不同分布框架。2.依据散点图(小样本)或频数分布表(大样本:连续依据散点图(小样本)或频数分布表(大样本:连续 分布分布 组段数值组段数值;离散分布;离散分布 x)进一步探知分布方向。)进一步探知分布方向。3.分布拟合。分布拟合。4.拟合优度统计检验。拟合优度统计检验。5.若不成功,则改变数据表达方式或结构再度拟合和检验。若不成功,则改变数据表达方式或结构再度拟合和检验。第3页,共40页,编辑于2022年,星期五三、统计资料分布识别方法的特点三、统计资料分布识别方法的特点 1.方法较多。方法不同,原理亦不同,但采用何种分方法较多。方法不同,原理亦不同,但采用何种分布拟合,用该分布主要统计量作标准。布拟合,用该分布主要统计量作标准。2.原则上资料要排序(除峰度与偏度)。原则上资料要排序(除峰度与偏度)。3.直接检验判定法:样本统计量(参数比较)直接检验判定法:样本统计量(参数比较)间接检验判定法:拟合理论分布频数与实际频数差,间接检验判定法:拟合理论分布频数与实际频数差,用用x2分布识别。分布识别。第4页,共40页,编辑于2022年,星期五四、正态分布四、正态分布(Normal Distribution)(一)正态分布(一)正态分布(二)正态分布的识别(二)正态分布的识别五、二项分布五、二项分布(Binomial Distribution)与与Poisson分布分布(一)二项分布与(一)二项分布与Poisson分布分布(二)二项分布的识别及聚集性分析(二)二项分布的识别及聚集性分析六、游程检验六、游程检验第5页,共40页,编辑于2022年,星期五 四、正态分布四、正态分布(Normal Distribution)第6页,共40页,编辑于2022年,星期五(一)正态分布(一)正态分布(Normal Distribution)(Normal Distribution)表表1 1(体模)骨密度测量值(体模)骨密度测量值(mg/cmmg/cm3 3)的频率分布表)的频率分布表组段组段频数频数频率频率(%)(%)1.2281.2282 21.14 1.14 1.2341.2342 21.14 1.14 1.2401.2407 74.00 4.00 1.2461.24617179.71 9.71 1.2521.252252514.29 14.29 1.2581.258373721.14 21.14 1.2641.264252514.29 14.29 1.2701.27016169.14 9.14 1.2761.2764 42.29 2.29 1.2821.2821 10.57 0.57 合计合计175175100.00 100.00 第7页,共40页,编辑于2022年,星期五图图1 1(体模)骨密度测量值的分布接近正态分布示意图(体模)骨密度测量值的分布接近正态分布示意图 第8页,共40页,编辑于2022年,星期五正态曲线正态曲线(Normal cure):(Normal cure):是一条高峰位于中央,两侧逐渐下降并是一条高峰位于中央,两侧逐渐下降并完全对称,曲线两端永远不与横轴相交的钟形曲线。完全对称,曲线两端永远不与横轴相交的钟形曲线。第9页,共40页,编辑于2022年,星期五1.正态分布曲线的数学函数正态分布曲线的数学函数 X为连续随机变量,为连续随机变量,为为X值的总体均数,值的总体均数,为总体方差,记为为总体方差,记为XN(,)X X X X 第10页,共40页,编辑于2022年,星期五2.正态分布曲线的理论特征正态分布曲线的理论特征(1)以以X=为中心为中心,左右左右X值对称性减少。值对称性减少。(2)在在X=处曲线最高,处曲线最高,f(X=)为最大值。)为最大值。(3)、决定决定 正态分布曲线位置和形状正态分布曲线位置和形状固定固定,随,随 不同,曲线位置不同,称不同,曲线位置不同,称为位置参数。为位置参数。固定固定,越大,曲线形状不同,越大,曲线形状不同,称称为形状参数。为形状参数。第11页,共40页,编辑于2022年,星期五图图3 3 正态分布参数位置变化示意图正态分布参数位置变化示意图第12页,共40页,编辑于2022年,星期五图图4 4 正态分布变异度不同变化示意图正态分布变异度不同变化示意图第13页,共40页,编辑于2022年,星期五3.正态曲线下面积(概率)的分布规律正态曲线下面积(概率)的分布规律横轴上、曲线下的面积为横轴上、曲线下的面积为1。横轴上、曲线下对称于横轴上、曲线下对称于的面积相等。的面积相等。X X X X X1X2对正态分布函数从-到X1积分第14页,共40页,编辑于2022年,星期五问题问题XN(1.256,0.0382)1.0的比例?的比例?X X X X1.2561.2561.01.0对正态分布函数从-到4积分第15页,共40页,编辑于2022年,星期五X=X=时时,u=u=0 0X=X=时时,u=u=1 1X=X=1.961.96 时时,u=u=1.961.96X=X=2.582.58 时时,u=u=2.582.58Xu u大样本大样本第16页,共40页,编辑于2022年,星期五4.标准正态分布标准正态分布标准正态变换:标准正态变换:标准正态分布标准正态分布:XN(0,1)曲线下的面积分布规律曲线下的面积分布规律 附表附表1(不同位置上数的意义,图示)(不同位置上数的意义,图示)u第17页,共40页,编辑于2022年,星期五第18页,共40页,编辑于2022年,星期五(二)正态分布的识别(二)正态分布的识别1.作图法作图法 P-P 、Q-Q2.直接检验判定法直接检验判定法 峰度与偏度峰度与偏度、W检验、检验、D检验检验3.间接检验判定法间接检验判定法 卡方检验卡方检验、K-S法法、对数似然比法、对数似然比法第19页,共40页,编辑于2022年,星期五正态期望累积概率 实际累积频率P-P图正态期望分位数 实际分位数Q-Q图第20页,共40页,编辑于2022年,星期五原始数据的正态分布的检验原始数据的正态分布的检验(Page125)峰度(偏度)峰度(偏度)W检验检验D检验检验第21页,共40页,编辑于2022年,星期五第22页,共40页,编辑于2022年,星期五第23页,共40页,编辑于2022年,星期五第24页,共40页,编辑于2022年,星期五第25页,共40页,编辑于2022年,星期五第26页,共40页,编辑于2022年,星期五频数表资料的正态分布拟合优度的卡方检验频数表资料的正态分布拟合优度的卡方检验组数组数x x(1)(1)人人数数f f(2)(2)10.510.51 111.011.01 111.511.53 312.012.05 512.512.57 713.013.0131313.513.5161614.014.0191914.514.5181815.015.0141415.515.56 616.016.04 416.516.52 217.017.01 1合计合计110110表表2 2 某指标的频数分布表某指标的频数分布表XXN N(,)H H0 0:总体分布数是正态分布总体分布数是正态分布 H H1 1:总体分布数不是总体分布数不是正态分正态分 =0.20=0.20第27页,共40页,编辑于2022年,星期五组数组数x x(1)(1)人人数数f f(2)(2)u u(3)(3)累累计概计概率率(u)(4)(u)(4)组组段段区间概区间概率率 (5)(5)理理论论人人数数F F(6)(6)(7)(7)10.510.51 111.011.01 1-2.63-2.630.00430.00430.00430.00430.470.4711.511.53 3-2.21-2.210.01360.01360.00930.00931.021.020.28520.285212.012.05 5-1.80-1.800.03590.03590.02230.02232.452.4512.512.57 7-1.39-1.390.08230.08230.04640.04645.115.110.00240.002413.013.01313-0.98-0.980.16350.16350.08120.08128.938.930.41710.417113.513.51616-0.56-0.560.28770.28770.12420.124213.6613.660.03190.031914.014.01919-0.15-0.150.44040.44040.15270.152716.8016.800.03810.038114.514.518180.260.260.60260.60260.16220.162217.8417.840.07540.075415.015.014140.680.680.75170.75170.14910.149116.4016.400.15610.156115.515.56 61.091.090.86210.86210.11040.110412.1512.150.28170.281716.016.04 41.501.500.93320.93320.07110.07117.827.820.42360.423616.516.52 21.921.920.97260.97260.03940.03944.334.3317.017.01 12.332.330.99010.99010.01750.01751.931.932.57492.574917.517.50.00990.00991.091.09合计合计1101101.00001.0000110.0110.04.28644.2864表表2 2 正态分布拟合优度的卡方正态分布拟合优度的卡方()()检验检验5 53 33.93.94 47.357.35第28页,共40页,编辑于2022年,星期五五、二项分布五、二项分布(Binomial Distribution)与与Poisson分布分布第29页,共40页,编辑于2022年,星期五(一)二项分布与(一)二项分布与Poisson分布分布1.二项分布二项分布例例 0.2、0.8、2 表表 实验结果实验结果结果结果A AB BprobabilityprobabilityX X结果结果1 1结果结果2 2结果结果3 3结果结果4 4-+-+-+0.8*0.8=0.640.8*0.8=0.640.8*0.2=0.160.8*0.2=0.160.8*0.2=0.160.8*0.2=0.160.2*0.2=0.040.2*0.2=0.040 01 11 12 2第30页,共40页,编辑于2022年,星期五二项分布的条件二项分布的条件在重复实验中,如果对每一次实验,出现的结在重复实验中,如果对每一次实验,出现的结果只有两种情况。果只有两种情况。每次试验的条件不变。即每次试验中,结果每次试验的条件不变。即每次试验中,结果A发发生的概率不变(假设均为生的概率不变(假设均为 )。)。各次试验独立。即一次试验出现什么样的结果各次试验独立。即一次试验出现什么样的结果与前面已出现的结果无关。与前面已出现的结果无关。第31页,共40页,编辑于2022年,星期五二项分布的图形二项分布的图形XB(,n)第32页,共40页,编辑于2022年,星期五第33页,共40页,编辑于2022年,星期五二项分布的参数二项分布的参数E(x)=n V(x)=n(1-)第34页,共40页,编辑于2022年,星期五2.Poisson分布分布 试验中出现概率很小的事件称作试验中出现概率很小的事件称作稀有事件,稀有事件,如地震、火山如地震、火山爆发、特大洪水、意外事故等等。爆发、特大洪水、意外事故等等。稀有事件稀有事件在单位时间、空间出现的次数近似服从在单位时间、空间出现的次数近似服从PoissonPoisson分布。分布。第35页,共40页,编辑于2022年,星期五设随机变量设随机变量X所有可能取的值为所有可能取的值为0,1,2,且概且概率分布为:率分布为:X X P P()()n n很大,很大,很小很小 ,。E(x)=E(x)=V(x)=V(x)=第36页,共40页,编辑于2022年,星期五(二)二项(二)二项(Poisson)分布的识别及聚集性分析分布的识别及聚集性分析 计数(分类变量、定性)资料的二项计数(分类变量、定性)资料的二项(Poisson)分布分布 拟合优度的卡方检验(拟合优度的卡方检验(Page161)例:某医师对一社区例:某医师对一社区82户户3口之家进行了某疾病患病口之家进行了某疾病患病 调查,见下表。判断该病分布有无聚积性?调查,见下表。判断该病分布有无聚积性?第37页,共40页,编辑于2022年,星期五x x户数频数户数频数A A概率概率P(x)P(x)理论户数理论户数T=82*P(x)T=82*P(x)T-AT-A(T-AT-A)2 2(T-AT-A)2 2/T/T(1)(1)(2)(2)(3)(3)(4)(4)(5)(5)(6)(6)(7)(7)0 026260.132650.1326510.877410.8774-15.1226-15.1226228.6936228.693621.024721.02471 110100.382350.3823531.352531.352521.352521.3525455.9273455.927314.542014.54202 228280.367350.3673530.122930.12292.12292.12294.50694.5069 0.1496 0.14963 318180.117650.117659.64729.6472-8.3528-8.352869.769069.7690 7.2320 7.2320某病患病资料的二项分布拟合及某病患病资料的二项分布拟合及x x2 2检验检验 H H0 0:该病无聚积性(符合二项分布):该病无聚积性(符合二项分布)H H1 1:该病有聚积性(不符合二项分布):该病有聚积性(不符合二项分布)x x2 2=42.9483=42.9483,v v=4-1-1=2=4-1-1=2,p0.05p0.05结论:拒绝二项分布假设,说明本病出现聚积性,其原因尚待研究。结论:拒绝二项分布假设,说明本病出现聚积性,其原因尚待研究。第38页,共40页,编辑于2022年,星期五六、游程检验在聚积性分析中的作用六、游程检验在聚积性分析中的作用 1.什么是游程什么是游程 依时间顺序或空间顺序排列的二分类定性现象或数值现象数列中,具依时间顺序或空间顺序排列的二分类定性现象或数值现象数列中,具有相同性质或范围数值的现象划定为符号有相同性质或范围数值的现象划定为符号+或或,符号,符号+或或的序列中,的序列中,符号连续部分称为一个游程。在一个游程中,符号的个数称为游程的长度。符号连续部分称为一个游程。在一个游程中,符号的个数称为游程的长度。如如-+-+-+符号序列中有符号序列中有6个游程,个游程,r=6;游程长度游程长度l依次为依次为3,2,1,4,2,1。2.符号符号+或或-序列的随机性检验,可以通过序列的随机性检验,可以通过(1)游程个数检验)游程个数检验(2)游程长度检验加以推断)游程长度检验加以推断 存在随机性,则无聚积性;拒绝随机性,则推断有聚积性。存在随机性,则无聚积性;拒绝随机性,则推断有聚积性。第39页,共40页,编辑于2022年,星期五 End!第40页,共40页,编辑于2022年,星期五