统计描述离散趋势的描述课件.ppt
统计描述离散趋势的描述统计描述离散趋势的描述1 1第1页,此课件共38页哦(二)百分位数(二)百分位数n n 百分位数(percentile)是一种位置指标,用 来表示。n n一个百分位数 将全部变量值分为两部分,在不包含 的全部变量值中有 的变量值比它小,变量值比它大。2 2第2页,此课件共38页哦1直接计算法直接计算法 n n 设有x个原始数据从小到大排列,第x百分位数的计算公式为:n n当 为带有小数位时:n n n n当 为 整数时:3 3第3页,此课件共38页哦例例例例2-9 2-9 对某医院细菌性痢疾治愈者的住院天数统计,名患者的对某医院细菌性痢疾治愈者的住院天数统计,名患者的对某医院细菌性痢疾治愈者的住院天数统计,名患者的对某医院细菌性痢疾治愈者的住院天数统计,名患者的住院天数从小到大的排列如下,试求住院天数从小到大的排列如下,试求住院天数从小到大的排列如下,试求住院天数从小到大的排列如下,试求第第第第5 5百分位数和百分位数和百分位数和百分位数和第第第第9999百分位百分位百分位百分位数。数。数。数。患 者:住院天数:n=120,120X5%=6,为整数:第4页,此课件共38页哦例例例例2-9 2-9 对某医院细菌性痢疾治愈者的住院天数统计,名患者对某医院细菌性痢疾治愈者的住院天数统计,名患者对某医院细菌性痢疾治愈者的住院天数统计,名患者对某医院细菌性痢疾治愈者的住院天数统计,名患者的住院天数从小到大的排列如下,试求的住院天数从小到大的排列如下,试求的住院天数从小到大的排列如下,试求的住院天数从小到大的排列如下,试求第第第第5 5百分位数和百分位数和百分位数和百分位数和第第第第9999百百百百分位数。分位数。分位数。分位数。患 者:住院天数:,带有小数,取整后trunc(118.8)=118第5页,此课件共38页哦2频数表法频数表法 n n公式:式中XL、Xi和Xf分别为第X百分位数所在组段的下限、组距和频数,LfS为小于XL各组段的累计频数,n 为总例数。6 6第6页,此课件共38页哦 7 7第7页,此课件共38页哦例例2-10 2-10 某地某地118名链球菌咽喉炎患者的潜伏期频名链球菌咽喉炎患者的潜伏期频数表见表数表见表2-52-5第第第第(1)(1)、(2)(2)栏,试分别求中位数及第栏,试分别求中位数及第栏,试分别求中位数及第栏,试分别求中位数及第2525、第第第第75百分位数。百分位数。8 8第8页,此课件共38页哦 n n 9 9第9页,此课件共38页哦某地某地120120名正常成人血清铜含水量名正常成人血清铜含水量umol/Lumol/L频数表频数表组段组段组段组段 频数频数频数频数f f 频率频率频率频率%累积频数累积频数累积频数累积频数fc fc 累积频率累积频率累积频率累积频率pc%pc%9.0 3 2.5 3 2.59.0 3 2.5 3 2.510.0 4 3.3 7 5.810.0 4 3.3 7 5.811.0 12 10.0 19 15.811.0 12 10.0 19 15.812.0 13 10.8 32 26.612.0 13 10.8 32 26.613.0 17 14.2 49 40.813.0 17 14.2 49 40.814.0 22 18.3 71 59.114.0 22 18.3 71 59.115.0 18 15.0 89 74.115.0 18 15.0 89 74.116.0 13 10.8 102 84.516.0 13 10.8 102 84.517.0 11 9.2 113 94.117.0 11 9.2 113 94.118.0 5 4.2 118 98.318.0 5 4.2 118 98.319.0-20.0 2 1.7 120 100.0 19.0-20.0 2 1.7 120 100.0 合计合计合计合计 120 100120 100请求出请求出M,75%,95%的值及算术均数的值的值及算术均数的值思考题:思考题:思考题:思考题:1010第10页,此课件共38页哦vv反映集中趋势的指标(平均数),表示一组观察值的平反映集中趋势的指标(平均数),表示一组观察值的平均水及集中特性,并可作为总体的一个代表值加以应用。均水及集中特性,并可作为总体的一个代表值加以应用。但是它没有表达其所代表的总体中各个个体之间的差异。但是它没有表达其所代表的总体中各个个体之间的差异。vv统计学中把个体间的差异称为统计学中把个体间的差异称为变异性(变异性(变异性(变异性(variation)。所谓。所谓变异性是指在同质条件下的观察单位,其同一标志的变异性是指在同质条件下的观察单位,其同一标志的数据间的差异性。用以描述一组数值变量资料观察值数据间的差异性。用以描述一组数值变量资料观察值之间参差不齐的程度,即离散程度或变异度的指标,之间参差不齐的程度,即离散程度或变异度的指标,称为离散指标或变异指标。称为离散指标或变异指标。三 离散趋势的描述第11页,此课件共38页哦盘编号盘编号 甲甲乙乙丙丙1 15605205102 25405105053 35005005004 44604904955 5440480490合计合计250025002500250025002500均数500500500 例例:设设甲甲、乙乙、丙丙三三人人,采采每每人人的的耳耳垂垂血血,然然后后作作红红细细胞胞计计数数,每人数每人数5个计数盘,得结果如下(万个计数盘,得结果如下(万/mm3)甲乙丙第12页,此课件共38页哦常用统计指标:n n全距或极差全距或极差(range)n n四分位数间距四分位数间距(quartile interval)n n方差和标准差方差和标准差(variance&standard deviation)n n变异系数变异系数(CV coefficient of variation)第13页,此课件共38页哦n n全距,用R表示:即一组变量值最大值与最小值之差,亦称极差。对于书中例8.1数据,有简单,但仅利用了两端点值,稳定性差。简单,但仅利用了两端点值,稳定性差。一、全距(一、全距(Range)R5.593.60=1.99(mol/L)R R R R越大,变异度越大;越大,变异度越大;越大,变异度越大;越大,变异度越大;R R R R越小,变异度越小。越小,变异度越小。越小,变异度越小。越小,变异度越小。第14页,此课件共38页哦二、四分位数间距(quartile range)四分位数间距,用Q表示,若将一组资料分为四等份,上四分位数和下四分位数之差就是:Q=P7575-P2525下四分位数:上四分位数:比全距稳定;可用于一端或两端无确切数值的偏比全距稳定;可用于一端或两端无确切数值的偏态资料。态资料。未考虑每一个观察值。未考虑每一个观察值。第15页,此课件共38页哦vv全距和四分位数间距都未全面考虑观察值的变异全距和四分位数间距都未全面考虑观察值的变异情况,为了克服该缺点,需计算总体中每个观察情况,为了克服该缺点,需计算总体中每个观察值值x x与总体均数与总体均数 的差值(的差值(x-x-),称为),称为离均差离均差。vv由于由于(x-x-)=0=0,不能反映变异的大小,而用,不能反映变异的大小,而用离均差平方和离均差平方和 (x-x-)2 2(sum of deviation sum of deviation from meanfrom mean)反映。同时还要考虑到观察值个数)反映。同时还要考虑到观察值个数N N的影响,用其均数,即得到的影响,用其均数,即得到总体的方差总体的方差,用,用 2 2表表示。示。vv公式为:公式为:三、方差与标准差第16页,此课件共38页哦 1.方差(方差(variance)是离均差平方和的均数,反映一是离均差平方和的均数,反映一组数据的平均离散水平。组数据的平均离散水平。l由于在实际工作中,往往得到的样本资料,总体均数由于在实际工作中,往往得到的样本资料,总体均数 是未知的,是未知的,所以只能用样本均数所以只能用样本均数 作为作为 的估计值,即用的估计值,即用 代替代替 ,用样本例数,用样本例数n代替代替N。但按公式计算的结果通常比实际的。但按公式计算的结果通常比实际的 低。所以低。所以用用n来代替来代替n进行校正。得到进行校正。得到样本方差样本方差 离均差平方和SS总体方差总体方差样本方差样本方差自由度自由度自由度自由度第17页,此课件共38页哦标准差(standard deviation)vv方差可以比较全面地反映变量值的变异情况,方差可以比较全面地反映变量值的变异情况,但其方差的单位是原单位的平方,故引入标但其方差的单位是原单位的平方,故引入标准差的概念。准差的概念。vv标准差:将方差开平方,恢复成原度量单位,标准差:将方差开平方,恢复成原度量单位,得到总体的标准差得到总体的标准差 和样本标准差和样本标准差S。第18页,此课件共38页哦n n 样本标准差用样本标准差用 表示表示 ,其度量单位与均数一致,所以最,其度量单位与均数一致,所以最常用。常用。离均差平方和SS3.总体标准差 用表示公 式:公 式:第19页,此课件共38页哦 n标准差的公式还可以写成:n利用频数表计算标准差的公式为:第20页,此课件共38页哦例例 对以下数据:75,76,72,69,66,72,57,68,71,72,用直接法计算标准差。第21页,此课件共38页哦血糖(mol/L)组段频数()组中值()3.603 3.70 11.10 41.07 3.803 3.90 11.70 45.63 4.008 4.10 32.80 134.48 4.2023 4.30 98.90 425.27 4.4024 4.50 108.00 486.00 4.6025 4.70 117.50 552.25 4.8020 4.90 98.00 480.20 5.0012 5.10 61.20 312.12 5.2010 5.30 53.00 280.90 5.405.604 5.50 22.00 121.00 合计132614.202878.92例 利用表中的数据和频数表法计算标准差。第22页,此课件共38页哦四、变异系数n变异系数(coefficient of variation,CV)常用于比较度量单位不同度量单位不同或均数相差悬殊均数相差悬殊的两组(或多组)资料的变异程度。第23页,此课件共38页哦例:某地例:某地7岁男孩身高的均数为岁男孩身高的均数为123.10 cm,标,标准差为准差为4.71cm;体重均数为;体重均数为22.29kg,标准,标准差为差为2.26kg,比较其变异度?比较其变异度?第24页,此课件共38页哦 某地某地某地某地7 7岁男孩身高的均数为岁男孩身高的均数为123.10cm123.10cm,标准差为,标准差为,标准差为,标准差为4.714.71;体重均数为体重均数为22.59kg22.59kg,标准差为,标准差为,标准差为,标准差为2.26kg,试,试比较其变异度比较其变异度?应用一:观察指标单位不同应用一:观察指标单位不同2525第25页,此课件共38页哦应用二:均数相差较大时应用二:均数相差较大时2626第26页,此课件共38页哦血糖(mol/L)人数图图图图 某地区某地区某地区某地区20022002年年年年55585558岁健康成人的空腹血糖岁健康成人的空腹血糖岁健康成人的空腹血糖岁健康成人的空腹血糖(mmol/L)(mmol/L)测定值的频数分布图测定值的频数分布图测定值的频数分布图测定值的频数分布图四、正态分布四、正态分布2727第27页,此课件共38页哦 正态分布第28页,此课件共38页哦正态分布正态分布:又称为又称为Gauss分布(分布(Gaussian distribution)。)。n n 设想当原始数据的频数分布图的观察人数逐渐增加且组段不断分细时,图2-4中的直条就不断变窄,其顶端则逐渐接近于一条光滑的曲线。这条曲线形态呈钟形,两头低、中间高,左右对称,近似于数学上的正态分布。在处理资料时,我们就把它看成是正态分布。注意:一组数据是否真正符合正态分布,还需进注意:一组数据是否真正符合正态分布,还需进注意:一组数据是否真正符合正态分布,还需进注意:一组数据是否真正符合正态分布,还需进行相关的检验(见以后内容)!行相关的检验(见以后内容)!行相关的检验(见以后内容)!行相关的检验(见以后内容)!2929第29页,此课件共38页哦正态分布的概念和特征正态分布的概念和特征n n1正态分布曲线的数学函数表达式 n n如果随机变量 的分布服从概率密度函数3030第30页,此课件共38页哦2正态分布的特征正态分布的特征第31页,此课件共38页哦正态分布位置变换图正态分布位置变换图3232第32页,此课件共38页哦正态分布位置变换图正态分布位置变换图3333第33页,此课件共38页哦(4)正态曲线下的面积分布有一定的规律。)正态曲线下的面积分布有一定的规律。n n对公式(2-17)积分:3434第34页,此课件共38页哦图图2-7 正态曲线面积分布示意图正态曲线面积分布示意图 3535第35页,此课件共38页哦第36页,此课件共38页哦正态分布是一个分布族,对应于不同的参数m和s会产生不同位置、不同形状的正态分布。五五第37页,此课件共38页哦第38页,此课件共38页哦