2计量资料的统计描述.pdf
《2计量资料的统计描述.pdf》由会员分享,可在线阅读,更多相关《2计量资料的统计描述.pdf(100页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第二章 计量资料的统计描述第二章 计量资料的统计描述总体与个体总体与个体个体与总体的性质有一定差异:个体与总体的性质有一定差异:?总体具有个体所不具备的某些性质;总体具有个体所不具备的某些性质;?总体的性质可以与个体的性质联系起来;总体的性质可以与个体的性质联系起来;?无规律运动的个体可以组成有规律运动的整体。无规律运动的个体可以组成有规律运动的整体。统计工作的步骤及内容:统计工作的步骤及内容:统计描述统计推断参数估计假设检验统计指标统计图表统计描述统计推断参数估计假设检验统计指标统计图表设计收集资料整理资料设计收集资料整理资料分析资料分析资料?频数分布频数分布?集中趋势的描述集中趋势的描述?
2、离散趋势的描述离散趋势的描述?正态分布正态分布?医学参考值范围的制定医学参考值范围的制定主要内容:主要内容:一.频数分布一.频数分布统计描述统计描述的工作主要是在编制频数表的基 础上描述资料的的工作主要是在编制频数表的基 础上描述资料的集中趋势集中趋势和和离散趋势离散趋势。频数频数(frequency):某变量值或指标值出现 的次数。某变量值或指标值出现 的次数。频数表频数表(frequency table):将变量值化分 为若干个组段,清点并记录各组段变量值的 个数,称为频数表。将变量值化分 为若干个组段,清点并记录各组段变量值的 个数,称为频数表。频数表的编制频数表的编制(1)求极差(ra
3、nge):(1)求极差(range):即最大值与最小值之差,又称为全距,用即最大值与最小值之差,又称为全距,用R R表示。表示。(2)确定组数、组段和组距:(2)确定组数、组段和组距:原则:较好地显示数据分布规律根据研究目的和观察例数n来确定。组数通常取1015个组,组距=极差/组数组距可以相等也可以不相等,一般采用等距分组原则:较好地显示数据分布规律根据研究目的和观察例数n来确定。组数通常取1015个组,组距=极差/组数组距可以相等也可以不相等,一般采用等距分组(3)列出组段:(3)列出组段:第一组段的下限略小于最小值,最后一个组段上限必须包含最大值LXU某组段的组中值为该组段(下限+上限)
4、/2第一组段的下限略小于最小值,最后一个组段上限必须包含最大值LXU某组段的组中值为该组段(下限+上限)/2(4)划记计数:(4)划记计数:归纳得到各组段的频数、频率及累积频数、频率。归纳得到各组段的频数、频率及累积频数、频率。例2-1 某医院用随机抽样方法检查了138名成年女子 红细胞数,其测量结果如下,试编制频数分布表。例2-1 某医院用随机抽样方法检查了138名成年女子 红细胞数,其测量结果如下,试编制频数分布表。3.96 4.23 4.42 3.59 5.12 4.02 4.32 3.72 4.76 4.16 4.61 4.26 3.77 4.20 4.36 3.07 4.89 3.9
5、7 4.28 3.64 4.66 4.04 4.55 4.25 4.63 3.91 4.41 3.52 5.03 4.01 4.30 4.19 4.75 4.14 4.57 4.26 4.56 3.79 3.89 4.21 4.95 3.98 4.29 3.67 4.69 4.12 4.56 4.26 4.66 4.28 3.83 4.20 5.24 4.02 4.33 3.76 4.81 4.17 3.96 3.27 4.61 4.26 3.96 4.23 3.76 4.01 4.29 3.67 3.39 4.12 4.27 3.61 4.98 4.24 3.83 4.20 3.71 4.0
6、3 4.34 4.69 3.62 4.18 4.26 4.36 5.28 4.21 4.42 4.36 3.66 4.02 4.31 4.83 3.59 3.97 3.96 4.49 5.11 4.20 4.36 4.54 3.72 3.97 4.28 4.76 3.21 4.04 4.56 4.25 4.92 4.23 4.47 3.60 5.23 4.02 4.32 4.68 4.76 3.69 4.61 4.26 3.89 4.21 4.36 3.42 5.01 4.01 4.29 3.68 4.71 4.13 4.57 4.26 4.03 5.46 4.16 3.64 4.16 3.7
7、6 最小值最小值最大值最大值差值2.39差值2.39组段组段频数(f)频数(f)频数构成比(%)频数构成比(%)3.073.072 21.451.453.273.273 32.172.173.473.479 96.526.523.673.67141410.1410.143.873.87222215.9415.944.074.07303021.7421.744.274.27212115.2215.224.474.47151510.8710.874.674.6710107.257.254.874.876 64.354.355.075.074 42.902.905.275.475.275.472 2
8、1.451.45合计合计138138100.00100.00138名正常成年女子红细胞数(10138名正常成年女子红细胞数(101212)的频数分布)的频数分布第一组段第一组段最后组段最后组段第一组段第一组段最后组段最后组段最后组段最后组段最后组段最后组段最后组段最后组段最后组段最后组段集中趋势集中趋势离散趋势离散趋势频数分布图频数分布图以变量值为横坐标,以各组段频数为纵坐标 所绘制的以变量值为横坐标,以各组段频数为纵坐标 所绘制的直方图直方图。其用途与频数表类似,但它比 频数表更直观、更形象。其用途与频数表类似,但它比 频数表更直观、更形象。1212表2-1 138名正常成年女子的红细胞数频
9、数分布表2-1 138名正常成年女子的红细胞数频数分布对称分布正态分布对称分布正态分布频数集中位置在中间,左右两侧频数大致对称。频数集中位置在中间,左右两侧频数大致对称。频数分布的特征及类型频数分布的特征及类型?两个特征:两个特征:集中趋势(central tendency)离散趋势(tendency of dispersion)集中趋势(central tendency)离散趋势(tendency of dispersion)?两种类型:两种类型:对称分布(symmetric distribution)偏态分布(skewed distribution)正(右)偏态(positively sk
10、ewed)负(左)偏态(negatively skewed)对称分布(symmetric distribution)偏态分布(skewed distribution)正(右)偏态(positively skewed)负(左)偏态(negatively skewed)是否为对称分布?变量0510152025303540452.453.053.654.254.855.456.10频 数是否为对称分布?变量051015202530354045502.45 3.05 3.654.25 4.85 5.45 6.10频 数115名正常成年女子血清转氨酶频数分布名正常成年女子血清转氨酶频数分布0510152
11、02512 15 18 21 24 27 30 33 36 39 4245血清转氨酶(mmol/L)人数(f)血清转氨酶(mmol/L)人数(f)正(右)偏态分布正(右)偏态分布高峰位于左侧,右侧的组段数多于左侧的组段数,频数向右侧拖尾。高峰位于左侧,右侧的组段数多于左侧的组段数,频数向右侧拖尾。101名正常人血清肌红蛋白频数分布101名正常人血清肌红蛋白频数分布0510152025010203040血清肌红蛋白(血清肌红蛋白(/mL)人数(f)/mL)人数(f)负(左)偏态分布负(左)偏态分布高峰位于右侧,左侧的组段数多于右侧的组段数,频数向左侧拖尾。高峰位于右侧,左侧的组段数多于右侧的组段
12、数,频数向左侧拖尾。频数分布的类型正 态 分布正偏态分布(如:以 儿童为主的传染病发 病人数的分布)负偏态分布(如:以老 年入为主的慢性病发病 人数的分布)(1)描述频数分布的类型。(2)描述频数分布的特征。(3)便于发现一些特大或特小的离群值。(4)便于进一步做统计分析和处理。(1)描述频数分布的类型。(2)描述频数分布的特征。(3)便于发现一些特大或特小的离群值。(4)便于进一步做统计分析和处理。频数表和频数分布图的用途:频数表和频数分布图的用途:便于发现一些特大或特小的可疑值便于发现一些特大或特小的可疑值组 段 频数f(1)(2)2.30 1 2.60 0 2.90 0 3.20 0 3
13、.50 17 3.80 20 4.10 17 4.40 12 4.70 9 5.00 0 5.30 0 5.605.90 8 合 计 101 二、集中趋势的描述二、集中趋势的描述常用平均数来描述描述计量资料集中趋势或平均水平的指标 称为常用平均数来描述描述计量资料集中趋势或平均水平的指标 称为平均数(average)平均数(average)。常用几种平均数:算术均数(mean)几何均数(geometric mean)中位数(median)常用几种平均数:算术均数(mean)几何均数(geometric mean)中位数(median)1.算术均数(1.算术均数(arithmetic mean)
14、?均数(mean):一组均数(mean):一组性质相同性质相同的观察值在数量上的平均水平。(总体)(样本)的观察值在数量上的平均水平。(总体)(样本)?计算方法:直接法加权法计算方法:直接法加权法?适用条件:适用条件:对称分布特别是正态分布或近似正态分布。对称分布特别是正态分布或近似正态分布。?多数正常生理、生化指标都适宜用均数表达集中趋势。多数正常生理、生化指标都适宜用均数表达集中趋势。nXnXXXXn=+=?21_xiikkkffXffffXffXfXXfX=+=?3213211?有9名健康成人的空腹胆固醇测定值(mmol/L)为 5.61,3.96,3.67,4.99,4.24,5.06
15、,5.20,4.79,5.93,求算术均数。有9名健康成人的空腹胆固醇测定值(mmol/L)为 5.61,3.96,3.67,4.99,4.24,5.06,5.20,4.79,5.93,求算术均数。L)4.83(mmol/95.93)3.96(5.61=+=x例:直接法计算均数例:直接法计算均数例:加权法计算均数:100名18岁女大学生身高均数的计算身高(cm)频数(f)组中值(X)fX154215531015641576281581115917491601316120931622216335861641916531351661516725051689169152117041716841721
16、741173173合 计f=100fX=16382.几何均数(2.几何均数(geometric mean)?几何均数:N个数值的乘积开N次方即为这N个数的几何均数。G几何均数:N个数值的乘积开N次方即为这N个数的几何均数。G?计算方法:直接法加权法计算方法:直接法加权法?适用条件:适用条件:等比资料、对数正态分布(右偏态分布)等比资料、对数正态分布(右偏态分布)抗体滴度、平均效价、卫生事业平均发展速度、人口几何增长等抗体滴度、平均效价、卫生事业平均发展速度、人口几何增长等?注意:观察值不能为0、不能同时有正有负同一资料算得的几何均数小于算术均数注意:观察值不能为0、不能同时有正有负同一资料算得
17、的几何均数小于算术均数=nxxxxGixnnlglg1321可取对数、再取反 对数来简化计算可取对数、再取反 对数来简化计算=ffGixlglg1变量对数值的算术 均数的反对数。变量对数值的算术 均数的反对数。若一组数值变量x为偏态分布,令y=lgx后,新生成的一组 变量y服从正态分布,请问变量x呈何种偏态分布?若一组数值变量x为偏态分布,令y=lgx后,新生成的一组 变量y服从正态分布,请问变量x呈何种偏态分布?变量变量y 服从服从正态分布正态分布变量变量x服从服从正偏态分布正偏态分布抗体滴度抗体滴度人数,人数,f f滴度倒数,滴度倒数,X XlglgX X1:2.51:101:401:16
18、01:640合计合计141822126722.510.040.0160.0640.00.39791.00001.60212.20412.8062102.1032 例2-4 某地5例微丝蚴血症患者治疗七年后用间接荧 光抗体试验测得其抗体滴度例2-4 某地5例微丝蚴血症患者治疗七年后用间接荧 光抗体试验测得其抗体滴度倒数倒数分别为:10,20,40,160,求几何均数。分别为:10,20,40,160,求几何均数。51 02 04 04 01 6 03 4.8G=11lglg10 lg20 lg40 lg40 lg160lg()lg()34.85XGn+=例2-5 69例类风湿关节炎(RA)患者血
19、清EBV-VCA-lgG抗体 滴度的分布见表2-4第(1)、(2)栏,求其平均抗体滴度。例2-5 69例类风湿关节炎(RA)患者血清EBV-VCA-lgG抗体 滴度的分布见表2-4第(1)、(2)栏,求其平均抗体滴度。表 2-5 69 例 RA 患者血清 EBV-VCA-lgG 抗体测定结果 抗体滴度抗体滴度 人数人数f 滴度倒数滴度倒数X lg X lgfX 1:10 1:20 1:40 1:80 1:160 1:320 1:640 1:1280 4 3 10 10 11 15 14 2 10 20 40 80 160 320 640 1280 1.0000 1.3010 1.6021 1.
20、9031 2.2041 2.5051 2.8062 3.1072 4.0000 3.9030 16.0210 19.0310 24.2451 37.5765 39.2868 6.2144 合合 计计 69 150.2778 故本例类风湿关节炎患者血清EBV-VCA-lgG 抗体的平均滴度为1:150.6。故本例类风湿关节炎患者血清EBV-VCA-lgG 抗体的平均滴度为1:150.6。111lg150.2778lg()lg()lg(2.1779)150.669fXGf=3.中位数(3.中位数(median)和百分位数()和百分位数(percentile)?中位数:中位数:将一组观察值从小到大排
21、序后,位置居中的那个变量值(n为奇数)或位置居中的两个变量值的均值(n为偶数)。M将一组观察值从小到大排序后,位置居中的那个变量值(n为奇数)或位置居中的两个变量值的均值(n为偶数)。M?百分位数:百分位数:将一组观察值从小到大排序,分成100等份,各等份含1%的观察值,分割界限上的数值即为第X百分位数,是一个界值。P将一组观察值从小到大排序,分成100等份,各等份含1%的观察值,分割界限上的数值即为第X百分位数,是一个界值。PX X常用的百分位数:P常用的百分位数:P5 5 P P25 25 P P75 75 P P9595?中位数是位次上的平均指标,是百分位数的特殊形式。中位数是位次上的平
22、均指标,是百分位数的特殊形式。适用条件:适用条件:任意类型的资料,特别是偏态 资料,开口资料,分布情况不明的资料。(疾病的潜伏期、发汞、尿铅等)百分位数常用于估计医学参考值范围任意类型的资料,特别是偏态 资料,开口资料,分布情况不明的资料。(疾病的潜伏期、发汞、尿铅等)百分位数常用于估计医学参考值范围计 算:计 算:1.直接计算法:1.直接计算法:n为奇数时n为偶数时21+=nXM2122+=+nnXXM例2-6 7名病人患某病的潜伏期分别为2,3,4,5,6,9,16天,求其中位数。例2-6 7名病人患某病的潜伏期分别为2,3,4,5,6,9,16天,求其中位数。本例n=7,为奇数本例n=7
23、,为奇数7 14()25()MXX+=天例2-7:8名患者食物中毒的潜伏期分别为1,2,2,3,5,8,15,24小时,求其中位数。例2-7:8名患者食物中毒的潜伏期分别为1,2,2,3,5,8,15,24小时,求其中位数。本例n=8,为偶数本例n=8,为偶数8845()(1)221113 54()222MXXXX+=+=+=+=小时2.频数表法:2.频数表法:)f%Xn(fiLPLXXXX+=+=L LX X:第X百分位数所在组段的:第X百分位数所在组段的下限下限i iX:X:第X百分位数所在组段的第X百分位数所在组段的组距组距f fX X:第X百分位数所在组段的:第X百分位数所在组段的频数
24、频数:第X百分位数所在组段:第X百分位数所在组段上一组段累计频数上一组段累计频数Lf例.某传染性疾病的潜伏期中位数和百分位数计算表例.某传染性疾病的潜伏期中位数和百分位数计算表天06.4)26%25110(4824=+=25P天68.6)74%75110(2526=+=75P天83.9)99%95110(628=+=95P潜伏期(天)人数f累计频数累计频率(%)2262623.634487467.2762599908610595.4510310898.181221101005024(11050%26)5.2148=+=天P)f%Xn(fiLPLXXXX+=+=0 2.27 4.55 10.61
25、 28.03 46.21 65.15 80.30 89.39 96.97 累计频数累计频数3 61437618610611812813250%LmnfML if=+=+=132 0.5 614.60 0.204.64251.1.反映了位次居中的观察值的水平优点:不受两端特大值和特小值影响缺点:并非考虑到每个观测值反映了位次居中的观察值的水平优点:不受两端特大值和特小值影响缺点:并非考虑到每个观测值2.2.适用于各种分布类型的资料,适用于各种分布类型的资料,特别适合于:特别适合于:大样本偏态分布资料一端或两端无确切数值(开口)的资料3.对称分布资料,理论上中位数和算术均数是相等的。大样本偏态分布
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计量 资料 统计 描述
限制150内