《定量资料学习.pptx》由会员分享,可在线阅读,更多相关《定量资料学习.pptx(66页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、2/6/20231频数分布表和分布图描述集中趋势的指标描述离散趋势的指标正态分布变量变换容许区间与参考值范围离群值的取舍第1页/共66页第四节 正态分布2/6/20232第2页/共66页2/6/20233第3页/共66页2/6/20234频数红细胞计数3.204.403.805.005.606.20510152025频数直方图1:长方形的高度等于频数频数分布以均数为中心,向两侧逐渐减少,并且基本对称第4页/共66页2/6/20235所有长方形面积之和是多少?频率密度(%)红细胞计数3.204.403.805.005.606.200.10.20.30.40.5频率密度分布图频率密度=(频率/组距
2、)0.70.6长方形的面积?答案:频率;面积之和等于1或100%第5页/共66页2/6/20236红细胞计数概率密度如果组距无限小,样本例数大到总体,会怎么样?此时,即可由频率密度估计出概率密度。正态分布曲线利用正态分布曲线特点来描述正态分布的特征第6页/共66页2/6/20237第7页/共66页一、正态分布(normal distribution)略呈钟形,中间高,两头低,以均数为中心左右对称2/6/20238Xf(X)第8页/共66页正态分布曲线的特点2/6/20239Xf(X)I.以X=为中心,左右对称,两端以X轴为渐近线。II.在X=时,曲线达到最高峰,即f()最大,随着X逐渐远离,f
3、(X)逐渐减小。III.曲线下面积为1.第9页/共66页正态分布的命名2/6/202310正态分布的概念最早由德国数学家和天文学家Moivre提出。德国数学家Gauss率先将其应用于天文学研究,得到推广。因此正态分布又称Gauss分布(Gauss distribution)第10页/共66页正态分布的重要性2/6/2023111.很多医学指标服从或近似服从正态分布。如:同性别、同年龄儿童的身高值、同性别健康成人的红细胞数、血红蛋白含量、脉搏数等2.不服从正态分布的资料科通过变量变换转化为正态分布。如:正偏态(对数正态)资料取对数后近似正态3.随机误差服从正态分布。4.正态分布是很多统计方法的理
4、论基础。第11页/共66页2/6/202312正态分布曲线的函数表达式(即随机变量X的概率密度函数)总体均数总体标准差圆周率3.1415926自然对数的底2.7128随机变量(-X+)正态分布的密度函数称X服从正态分布,记作XN(,2)第12页/共66页2/6/202313正态变量的分布函数f(X)=P(X X 与与X X 的面积相等,各占的面积相等,各占5050;曲线在以下各区间的面积占总面积的比例:曲线在以下各区间的面积占总面积的比例:(-,+)68.2768.27(-1.645-1.645,+1.645+1.645)90.0090.00(-1.96-1.96,+1.96+1.96)95.
5、0095.00(-2.58-2.58,+2.58+2.58)99.0099.00第34页/共66页5、正态分布的应用正态分布在统计理论和应用中占有特别重要的地位,很多抽样分布如f分布、t分布都是建立在正态分布基础上的。二项分布、Poisson分布、t分布等的极限为正态分布。可按正态分布规律估计参考值范围。很多资料,如毒物致死量服从正态分布或近似正态分布,可按正态分布规律来处理。中毒潜伏期、剂量效应曲线、正常成人血铅含量等,虽不服从正态分布,但经变量代换(如取对数)后则服从正态分布或近似正态分布,可按正态分布规律来处理。利用随机误差服从正态分布,系统误差不舰队正态分布的特点,可进行测量过程的质量
6、控制。2/6/202335第35页/共66页2/6/202336第五节 变量变换第36页/共66页2/6/2023371、对数变换:是指以原始数据的对数值作为统计分析的变量值。例如y=lnx。用对数变换时,原数据中不能有零和负数。当原数据中有小值及零或有负数时,可根据需要选用y=ln(x+k)、y=ln(x-k)等。对数变换常用于:使服从对数正态分布的资料正态化。标准差与均数成比例的资料。方差不齐,但是变异系数接近甚至等于某一常数的资料,可经对数变换以缩小臀方差间的差别,使资料达到方差齐性要求。使曲线直线化,常用于曲线拟合。第37页/共66页2/6/2023382、平方根反正弦变换:是一种角度
7、转换。原始数据为百分数p 且接近于0 或1 时,分布为偏态,作平方根反正弦变换,可改善正态性和方差齐性。适用于:各组百分比的极差较大的资料,也可用于S 形曲线或反S 形曲线的直线化。第38页/共66页2/6/202339第六节 容许区间与参考值范围第39页/共66页2/6/202340第40页/共66页2/6/202341 容许区间(tolerancelimitofpopu1ation):又称预测区间(prodictioninterval),指的是指绝大多数个体观察值可能出现的范围。医学参考值范围(medicalreferencerange)是指特定的“正常”人群的解剖、生理、生化指标及组织代
8、谢产物含量等数据中大多数个体的取值所在的范围。也称正常值范围。由于医学参考值范围通常是从对“正常人”的观察中取得,故亦称医学正常值范围。如95%参考值范围或正常值范围的含义是指样本中有95%的个体其测定值在所求的范围之内。并不是指集体任何器官、任何组织的形态和技能都正常的健康人,而是排除了对所研究指标有影响的疾病和有关因素的特定人群。第41页/共66页2/6/202342制定步骤1、判断是否需要分组(目测或检验)。2、抽样(每组n100)。3、测量样本的指标值(控制测量误差)。4、决定取单侧还是双侧(根据指标的实际用途,有的指标过高过低均属异常,需确定上下界值;某些指标过高为异常,只需确定上限
9、;某些指标过低为异常,只需确定下限)。5、选定合适的百分限(根据指标的使用目的,如果是普查,目的是减少漏诊,则取较低的百分限;如果是确诊,目的是减少误诊,则取较高的百分限)。6 6、根据资料的分布类型,选择合适的方法估计正常值范围。第42页/共66页2/6/202343第43页/共66页2/6/202344第44页/共66页2/6/202345 第45页/共66页2/6/2023463判断是否需要分组测定参考值范围例:欲制定正常人肺活量的参考值范围,经研究发现该指标在男女间有明显的差别,且差别具有实际意义,因此肺活量的参考值范围应按照不同的性别分别制定。第46页/共66页2/6/202347第
10、47页/共66页2/6/2023485选择合适的百分界限目的:1.减少假阳性(确诊病人)减少把正常人诊断为病人的可能性。较大的百分界限2.减少假阴性(病人初筛)减少把病人诊断为正常人的可能性。较小的百分界限实际中最好结合正常人和病人的数据分布特点,权衡假阳性和假阴性的比例,选择一个适当的百分界限。人数上限值假阳性病人假阴性正常人以单侧上限为例第48页/共66页2/6/202349不同分布类型下的95%参考值范围估计方法分布类型估计方法公式双侧单侧上限单侧下限正态分布正态分布法偏态分布百分位数法第49页/共66页2/6/202350 医学参考值范围有 、等,最常用的为 。计算医学参考值范围的常用
11、方法:1、正态分布法 2、百分位数法第50页/共66页方法2/6/2023511、正态分布法:许多生物医学数据服从或近似服从正态分布,如同年龄同性别儿童的身高值、体重值,同性别健康成人的红细胞数等;有些医学资料虽然呈偏态分布,但若能通过适当的变量变换转换为正态分布,也可采用正态分布法制定参考值范围。适用:正态分布资料第51页/共66页2/6/202352第52页/共66页2/6/202353第53页/共66页2/6/202354例:现抽取某单位101名正常女子测量血清总胆固醇水平,均数为4.06mmol/L,标准差为0.654mmol/L。试估计该单位正常成年女子血清总胆固醇的95%参考值范围
12、。结论:该单位正常成年女子血清总胆固醇的95%参考值范围为(2.78,5.34)mmol/L。应用实例:该单位某女子测得血清总胆固醇值为6.42mmol/L,指标异常,应引起注意。第54页/共66页2/6/2023552、百分位数法适用:各种分布资料特别是偏态分布资料 第55页/共66页百分位数法公式:2/6/202356百分位数法(偏态分布资料)双侧:P 2.5 P 97.5 单侧:(过高异常)P P95 (过低异常)P P5 第56页/共66页2/6/202357 例2-17 测得某年某地名正常人的尿汞值如下表,试制定正常人尿汞值的参考值范围。第57页/共66页2/6/202358 正常人
13、的尿汞值为偏态分布,且过高为异常 应计算第95百分位数第58页/共66页3、对数正态分布法2/6/202359第59页/共66页2/6/202360第60页/共66页参考值范围制定中需注意的问题参考值范围的意义:绝大多数正常人的某项指标所在的范围。并不是所有的正常人都在这个范围内。2/6/202361第61页/共66页2/6/202362第七节 离群值的取舍第62页/共66页2/6/202363离群值:测量数据中有时会有个别过大或过小,与群体数据严重偏离的可疑数据,这种数值称为离群值或极端值。离群值有两种可能:局内值、局外值对离群值的取舍原则:在周密的实验设计指导下所获得的实验数据,一般都不应随意舍弃。对离群值首先应反复检查、核对,如果确认数据有逻辑错误,又无法纠正,可直接删除该数据。第63页/共66页2/6/202364判断离群值是否局外值的方法:X3S法:适用于正态分布资料,且样本含量较大N60,N较小时,此法不适用,至少N10,当N10时,无论可疑值是多大,它都不会超过X3S。以xj代表离群值,按小概率原来,可疑根据X3S范围内是否包括xj做出判断,当xj在X3S范围之外时可以舍弃,当在此范围之内时保留。第64页/共66页2/6/202365第65页/共66页2/6/202366感谢您的观看!第66页/共66页
限制150内