离散程度的统计描述.ppt
离散程度的统计描述现在学习的是第1页,共21页 例例3.1 对甲乙两名高血压患者连续观察对甲乙两名高血压患者连续观察5天,测得的收缩天,测得的收缩压压(mmHg)mmHg)结果结果如下:如下:可以看出:两患者收缩压的均数十分接近,但甲患者的血可以看出:两患者收缩压的均数十分接近,但甲患者的血压波动较大,而乙患者相对稳定。通常,描述一组观察值压波动较大,而乙患者相对稳定。通常,描述一组观察值,除需要表示其平均水平外,还要说明它的离散或变异的,除需要表示其平均水平外,还要说明它的离散或变异的情况。情况。患者患者第第1天天第第2天天第第3天天第第4天天第第5天天均数均数甲患者甲患者 162145178142186162.6乙患者乙患者 164160163159166162.4X现在学习的是第2页,共21页 第一节第一节 衡量变异程度的指标衡量变异程度的指标 一、间距指标一、间距指标(一)极差(一)极差(Range)(Range)也称作全距,即观察值中最大值和最小值之差,用符号也称作全距,即观察值中最大值和最小值之差,用符号R R 表表示示。如前例甲乙两患者收缩压的极差分别为。如前例甲乙两患者收缩压的极差分别为 该法简单明了、容易使用,如用于说明传染病、食物中该法简单明了、容易使用,如用于说明传染病、食物中毒等的最短、最长潜伏期等;缺点是结果不稳定。毒等的最短、最长潜伏期等;缺点是结果不稳定。(mmHg)44142186甲R(mmHg)7159166乙R现在学习的是第3页,共21页(二)四分位数间距(二)四分位数间距(Quartile)如由上一章例如由上一章例2.4 2.4 算出,算出,5050岁岁6060岁正常女性血清甘油三岁正常女性血清甘油三脂含量的百分位数脂含量的百分位数P P7575和和P P2525的位置分别为的位置分别为63.2 63.2 mg/dlmg/dl和和135.7 135.7 mg/dlmg/dl,则,则 四分位数间距主要用于衡量明显偏态分布资料的变异四分位数间距主要用于衡量明显偏态分布资料的变异程度。程度。2575PPQ(mg/dl)5.722.637.135Q现在学习的是第4页,共21页二、平均差距指标二、平均差距指标(一)平均偏差(一)平均偏差(M Mean ean D Differenceifference)如对于例如对于例3.1:甲患者:甲患者:乙患者:乙患者:特点特点:直观直观,易理解;但由于用了绝对值,不便于数学处理,易理解;但由于用了绝对值,不便于数学处理,实际中很少使用。实际中很少使用。nXX平均偏差)15.52(mmHg56.1621866.1621456.162162平均偏差2.32(mmHg)54.1621664.1621604.162164平均偏差现在学习的是第5页,共21页(二)离均差平方和(二)离均差平方和(Sum of SquareSum of Square,SS)为了克服平均偏差的缺点,可以不通过取绝对值,为了克服平均偏差的缺点,可以不通过取绝对值,而是通过取平方来避免正负抵消,即使用离均差平方和,而是通过取平方来避免正负抵消,即使用离均差平方和,其计算公式为其计算公式为 SS 通常作为一个中间统计量使用。通常作为一个中间统计量使用。nXXXXSS222)()(现在学习的是第6页,共21页(三)方差(三)方差 (Variance)(Variance)方差是将离均差平方和再取平均,方差是将离均差平方和再取平均,即即 注意:注意:对于样本资料,分母用的是对于样本资料,分母用的是n-1-1,称为自,称为自由度由度(degree of freedom(degree of freedom,dfdf )。方差的特点:便于数学上的处理,但由于有平方差的特点:便于数学上的处理,但由于有平方,度量衡发生变化,不便于实际应用。方,度量衡发生变化,不便于实际应用。1)(22nXXS现在学习的是第7页,共21页(四)标准差(四)标准差(Standard Deviation)将方差取平方根,还原成与原始观察值单位相同的变将方差取平方根,还原成与原始观察值单位相同的变异量度即为标准差:异量度即为标准差:例如对于例例如对于例3.13.1经计算经计算有有 甲患者:甲患者:同理乙患者同理乙患者:1)(1)(222nnXXnXXS813X1337132X5n(mmHg)49.19155/8131337132S(mmHg)88.2S现在学习的是第8页,共21页(五)变异系数五)变异系数(Coefficient of Variation(Coefficient of Variation)主要用于主要用于对均数相差较大或单位不同的几组观察值对均数相差较大或单位不同的几组观察值的变异程度进行比较的变异程度进行比较。例例3.3 3.3 测得某地成年人舒张压均数为测得某地成年人舒张压均数为77.5mmHg,77.5mmHg,标准差为标准差为10.7mmHg10.7mmHg;收缩压均数为;收缩压均数为122.9mmHg,122.9mmHg,标准差为标准差为17.1mmHg17.1mmHg。试比较舒张压和收缩压的变异程度。试比较舒张压和收缩压的变异程度。%100XSCV%8.13%1005.777.10舒张压CV%9.13%1009.1221.17收缩压CV现在学习的是第9页,共21页00.20.40.60.811.23.84.24.65.05.45.8)(XfX00.20.40.60.811.23.84.24.655.45.8)(XfX00.20.40.60.811.23.644.44.85.25.66f(X)X正态分布有两个参数:正态分布有两个参数:和和 ,分别表示均数和标准差。分别表示均数和标准差。第二节第二节 正态分布及应用正态分布及应用图图3-1 某地成年男子红细胞数的分布逐渐接近正态分布示意图某地成年男子红细胞数的分布逐渐接近正态分布示意图 X一、正态分布正态分布(Normal Distribution)Normal Distribution)iiXnfXf/)/()(222)(21)(XeXf现在学习的是第10页,共21页-4-3-2-101234567123321-5-4-3-2-1012345123321-5-4-3-2-101234596.196.158.258.2%0.99%0.95%3.68主要特征:主要特征:1.以以 为中心的对称分布为中心的对称分布 2.钟型曲线钟型曲线 3.曲线下面积分布有规律曲线下面积分布有规律 4.两个参数决定位置和变异两个参数决定位置和变异 图图3-23-2 正态分布曲线下的面积正态分布曲线下的面积 图图3-3 3-3 三种不同均值的正态分布三种不同均值的正态分布 图图3-4 3-4 三种不同标准差的正态分布三种不同标准差的正态分布 现在学习的是第11页,共21页二、标准正态分布二、标准正态分布(Standard Normal Distribution)Standard Normal Distribution)对任何参数的正态分布,都可以通过一个简单的变量对任何参数的正态分布,都可以通过一个简单的变量变换变换 化成化成 和和 的的标准正态分布标准正态分布。通常,。通常,可以利用标准正态分布表求出与原始变量可以利用标准正态分布表求出与原始变量X X 有关的概率值。有关的概率值。01Xu 图图3-5 标准正态分布及曲线下面积标准正态分布及曲线下面积 参见书中计算实例参见书中计算实例现在学习的是第12页,共21页 一、基本概念一、基本概念 通常指正常人的解剖、生理、生化、免疫及组织代谢产物通常指正常人的解剖、生理、生化、免疫及组织代谢产物的含量等各种数据的波动范围。主要目的:用于临床疾病诊断的含量等各种数据的波动范围。主要目的:用于临床疾病诊断。最常用的是。最常用的是95%95%参考值范围。参考值范围。第三节第三节 医学参考值范围医学参考值范围 (Reference Value Range)Reference Value Range)确定确定95%95%参考值范围示意图参考值范围示意图现在学习的是第13页,共21页 二、医学参考值范围的制定方法二、医学参考值范围的制定方法 (一)选择一定数量的参照样本一)选择一定数量的参照样本 选择参照样本必须要考虑可能影响所要制定参考值选择参照样本必须要考虑可能影响所要制定参考值范围指标的各种疾病及干扰因素,将这些人排除在外。范围指标的各种疾病及干扰因素,将这些人排除在外。例如在制定血清谷丙转氨酶活性正常值时,选取正常例如在制定血清谷丙转氨酶活性正常值时,选取正常人的条件为肝、肾、心、脑、肌肉等无器质性疾患,近人的条件为肝、肾、心、脑、肌肉等无器质性疾患,近期无特殊用药史等。同时可能需要考虑性别、年龄、民期无特殊用药史等。同时可能需要考虑性别、年龄、民族、地理位置等因素。样本含量一般要较大,如族、地理位置等因素。样本含量一般要较大,如n120120。现在学习的是第14页,共21页(二)(二)对选定的参照样本进行准确的测定对选定的参照样本进行准确的测定 为保证原始数据可靠,要严格控制检测误差,包括分析为保证原始数据可靠,要严格控制检测误差,包括分析仪器的灵敏度、试剂的纯度、操作技术及标准的掌握等,仪器的灵敏度、试剂的纯度、操作技术及标准的掌握等,同时必须对测量条件做出统一的规定和说明,如临床化验同时必须对测量条件做出统一的规定和说明,如临床化验参考值范围的制定,应对收集样本时的环境和生理条件(参考值范围的制定,应对收集样本时的环境和生理条件(温度、季节、体育活动强度、饮食、妊娠等),收集、转温度、季节、体育活动强度、饮食、妊娠等),收集、转运和储藏样品的方法及时间有明确的规定。运和储藏样品的方法及时间有明确的规定。现在学习的是第15页,共21页(三)(三)决定取单侧范围还是双侧范围值决定取单侧范围还是双侧范围值 有些指标如白细胞数过高或过低均属异常有些指标如白细胞数过高或过低均属异常(a)(a),故其,故其参考值范围需要分别确定下限和上限,称作双侧。有些指标如参考值范围需要分别确定下限和上限,称作双侧。有些指标如2424小时尿糖含量仅在过高小时尿糖含量仅在过高(b)(b)、肺活量仅在过低时为异常、肺活量仅在过低时为异常(c)(c),只需确定其上限或下限,称作单侧参考值范围。,只需确定其上限或下限,称作单侧参考值范围。(a)a)白细胞数参考值范围白细胞数参考值范围(b)24b)24小时尿糖参考值范围小时尿糖参考值范围(c)c)肺活量参考值范围肺活量参考值范围现在学习的是第16页,共21页(四)(四)选择适当的百分范围选择适当的百分范围 参考值参考值的百分的百分范围范围应根据应根据资料的性质和研究目的资料的性质和研究目的选选择,它与诊断阈值有确定的关系。百分择,它与诊断阈值有确定的关系。百分范围范围的不同将导致的不同将导致不同的假阳性率和假阴性率。不同的假阳性率和假阴性率。图图3-6 3-6 正常人和病人数据分布重叠正常人和病人数据分布重叠现在学习的是第17页,共21页(五)(五)估计参考值范围的界限估计参考值范围的界限 参考值范围估计参考值范围估计主要主要有百分位数法和正态分布法。有百分位数法和正态分布法。百分范围(百分范围(%)单单 侧侧 双双 侧侧 下限下限 上限上限 下限下限 上限上限 95 95 P5 5 P9595 P2.52.5 P97.597.5 9999 P1 1 P9999 P0.50.5 P99.599.5百分范围(百分范围(%)单单 侧侧 双双 侧侧 下限下限 上限上限 下限下限 上限上限 95 95 9999 表表3-2 3-2 参考值范围所对应的百分位数参考值范围所对应的百分位数 表表3-3 3-3 参考值范围所对应的正态分布区间参考值范围所对应的正态分布区间 SX65.1SX65.1SX33.2SX33.2SX96.1SX96.1SX58.2SX58.2现在学习的是第18页,共21页 例例3.4 3.4 若已算得某地正常成年男子红细胞数的均数为若已算得某地正常成年男子红细胞数的均数为4.784.7810101212/L,/L,标准差为标准差为0.380.3810101212/L,/L,试估计该地成年男子红细胞试估计该地成年男子红细胞数的数的95%95%参考值范围。参考值范围。例例3.5 3.5 见第二章表见第二章表2-42-4资料。资料。为该地区为该地区5050岁岁6060岁女性高血脂岁女性高血脂诊断与治疗提供参考依据,诊断与治疗提供参考依据,试估计血清甘油三脂含量的试估计血清甘油三脂含量的95%95%单侧参单侧参考值范围。考值范围。(mmol/L)098.230.028)58095.0630(90.195P)/10(04.438.096.178.496.112LSX)/10(52.538.096.178.496.112LSX下限:下限:上限:上限:即即95%95%单侧参考值范围为小于单侧参考值范围为小于2.0982.098mmol/Lmmol/L。现在学习的是第19页,共21页 小小 结结 1.1.描述一组观察值,除需要表示其平均水平外,还要说描述一组观察值,除需要表示其平均水平外,还要说明它的离散或变异的情况。明它的离散或变异的情况。2.2.衡量变异程度大小的指标有多种衡量变异程度大小的指标有多种:极差、四分位数间距极差、四分位数间距、方差、标准差和变异系数。其中应用最多的是标准差和变异、方差、标准差和变异系数。其中应用最多的是标准差和变异系数。系数。3.3.标准差与均数结合能够完整地描述一个正态分布标准差与均数结合能够完整地描述一个正态分布。对任何参数的正态分布,都可以通过一个简单的变量变换化对任何参数的正态分布,都可以通过一个简单的变量变换化成标准正态分布。成标准正态分布。利用正态分布可以很容易地确定其数值出现利用正态分布可以很容易地确定其数值出现在任意指定范围内的概率在任意指定范围内的概率。现在学习的是第20页,共21页 4.4.医学参考值范围指医学参考值范围指“正常正常参照人群参照人群”的解剖、生理、生化、的解剖、生理、生化、免疫及组织代谢产物的含量等各种数据的波动范围。免疫及组织代谢产物的含量等各种数据的波动范围。主要用主要用作划分正常作划分正常人与异常人的界线人与异常人的界线。5 5.医学参考值范围的制定医学参考值范围的制定需要按照一定步骤进行需要按照一定步骤进行。实际中最好结。实际中最好结合正常人和病人的数据分布特点,权衡假阳性和假阴性的比例,选择合正常人和病人的数据分布特点,权衡假阳性和假阴性的比例,选择一个适当的百分范围一个适当的百分范围,最常用的百分界限是最常用的百分界限是95%95%。6.6.参考值范围估计的方法有多种,其中最基本的有百分位数法和参考值范围估计的方法有多种,其中最基本的有百分位数法和正态分布法。正态分布法。正态法的优点是结果较稳定,但对资料要求严格;正态法的优点是结果较稳定,但对资料要求严格;百分位百分位数法数法适合于任何分布类型的资料,但要求大样本。适合于任何分布类型的资料,但要求大样本。现在学习的是第21页,共21页