定量资料的统计描述定量资料的统计描述通过调查或.docx
《定量资料的统计描述定量资料的统计描述通过调查或.docx》由会员分享,可在线阅读,更多相关《定量资料的统计描述定量资料的统计描述通过调查或.docx(22页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第四章 定量资料的统计描述 通过调查或实验收集到资料之后,需要对资料进行统计分析。统计分析包括统计描述和统计推断两个方面的内容。统计描述就是对数据包含的信息加以整理、概括和浓缩,用适当的统计图表和统计指标来表达资料的特征或规律,统计描述也是统计推断的基础。本章介绍定量资料(quantitative data)的统计描述。第一节 频数分布表与频数分布图一、频数分布表从医学实践中收集到的大量资料,如果只是简单地罗列一连串的数据,不容易看出其中蕴涵的信息和规律,所以需要进行分组整理,以便能用简明扼要的形式来全面反映资料的特点。分组整理就是根据研究的目的,将数据按照某种标准(标志)划分成不同的组别,统
2、计不同组别内的观察值个数。不同组别的观察值个数就称为频数(frequence),表示观察值在各组出现的频繁程度。将分组的标志和相应的频数列表,即为频数分布表,简称频数表(frequency table)。不同类型的定量变量可以制作不同分组形式的频数表。(一) 离散型定量变量的频数表 例4.1 某市2005年进行学生体质评价,抽样调查了102名高中男生引体向上完成次数的情况,根据该资料制作频数表。本次调查资料“引体向上完成次数”是离散型定量变量,所以按变量的取值(次数)为单位分组,再列出各组的频数,如表4.1的第(1),(2)栏,就能得到相应的频数表。将各组的频数除以总频数所得的值称为频率,见第
3、(3)栏。某组的累计频数是该组与前面各组频数之和,见第(4)栏。显然,第一组的累计频数等于其频数,最后一组的累计频数等于总例数;累计频数除以总频数所得的值称为累计频率,见第(5)栏。表4.1 2005年某市102名高中男生引体向上完成次数的频数分布完成次数 频数f频率(%)累计频数累计频率(%)(1) (2) (3)(4)(5)232.9432.94376.86109.8041615.692625.4953332.355957.8462423.538381.3771413.739795.10843.9210199.02910.98102 100.00合计102 100.00(二) 连续型定量变
4、量的频数表例4.2 在某市2005年进行的小学生体质评价研究中,测定了120名9岁男孩的肺活量(L),资料如下,根据该资料制作频数表。1.706 1.326 1.632 1.876 2.161 1.684 1.533 1.175 1.867 1.676 2.091 1.847 1.213 1.277 0.989 2.235 1.665 1.289 1.724 1.548 1.608 1.890 1.733 1.796 1.203 1.736 1.450 1.633 1.555 1.352 1.832 1.444 1.737 1.459 1.450 1.782 1.555 1.634 1.508
5、 2.343 1.509 1.745 1.953 1.744 1.695 1.707 1.901 1.825 1.597 2.338 1.708 1.711 1.856 1.644 1.716 1.978 1.534 1.900 1.595 1.646 1.905 1.610 1.614 1.422 2.301 2.127 1.348 1.317 1.062 1.830 1.980 1.570 1.495 1.864 2.170 2.000 1.705 1.863 1.424 2.022 2.068 1.576 1.833 1.659 2.212 1.399 2.128 1.543 1.562
6、 1.382 1.291 1.796 1.647 1.415 1.873 0.996 1.936 1.526 1.424 1.589 1.670 1.056 1.969 1.481 2.406 2.123 1.988 1.512 1.030 1.886 1.930 1.725 1.374 1.654 1.663 1.438 1.645 1.214 1.184 1.735 “肺活量”是连续型定量变量,需要按变量的取值范围划分成几个区间,每个区间称为一个组段,用各组段与对应的频数列表,即得到频数表。编制连续型定量变量频数表的过程为:1. 求全距(range):全距又称为极差,是全部数据中最大值与最
7、小值之差,用符号表示,本例的全距2. 划分组段确定组数:分组的目的是反映数据分布的特征,因此组数应适中。若组数太多,数据的分布过于分散,难以显示出频数分布的规律性,并有可能出现某些组内频数为0的情况;若组数过少,可能丢失重要的细节信息,不能充分体现资料的分布特征。组数的多少与观察值的个数n有关,一般当观察值的个数n 在50以下时可分5到8组,n在50以上时可分9到15组,实际运用时应根据分析的要求,灵活确定组数。本例n为120,拟分11组。确定组距:等距分组时,为便于计算,组距可适当取整。本例,故可取0.130为组距。确定各组段的上下限:确定组数和组距后,要使每一个观察值都有组可归,同时又要使
8、每一个观察值只能归属于某一组,这就要求合理地设置各组段的上下限。每个组段的起点称为该组的下限(lower limit),终点称为该组的上限(upper limit),上限=下限+组距。在确定第一个组段时,其下限可取一个小于最小观察值的数,例如,本例取0.980为第一组下限,加上组距0.130即为第二组下限,依次类推,直到最末一组。为表示各组段均为半开半闭区间(下限为闭区间,上限为开区间),除最末一组外,一般只写出下限。3. 统计各组段频数:采用计算机汇总或用手工划记法,得到各组段内的观察值个数即频数,划记时为避免重复计数,对于刚好等于某一组段上限的观察值要算在下一组段内。将各组段与相应频数列表
9、,如表4.2的第(1)、(2)栏,即得到频数表。 表4.2 2005年某市120名9岁男孩肺活量(L)频数分布组段频数( f )频率(%)累计频数累计频率(%)(1)(2)(3) (4)(5)0.98054.1754.171.11054.17108.331.24075.831714.171.3701411.673125.831.5001915.835041.671.6302924.177965.831.7601512.509478.331.8901210.0010688.332.02065.0011293.332.15043.3311696.67 2.2802.41043.33120100.0
10、0合计120100.00一般采用等距分组,但某些情况下,采用不等距分组更能反映现象的本质和特点。例如,进行人群疾病研究的年龄分组,为客观反映婴儿、幼儿和成年人疾病发生情况的特点,应采用不等距分组,可采取1岁以下按月分组,19岁按岁分组,10岁以后按每5岁或10岁分组等。二、频数分布图用图形的方法能够直观形象地表达频数分布的信息,并可与频数表互为补充。连续型定量变量的频数表可绘制成直方图。一般情况下,绘图时以横轴表示观察变量(组距),以纵轴表示频数。用表4.2资料绘制的直方图如图4.1所示。图4.1 2005年某市120名9岁男孩肺活量频数分布频数分布表和频数分布图的主要用途是:1. 揭示频数分
11、布的特征 从频数分布表和频数分布图可以看出频数分布的两个重要特征:集中趋势(central tendency)和离散趋势(dispersion tendency)。集中趋势是指一组数据向某一个位置聚集或集中的倾向,离散程度则反映的是一组数据的分散性或变异度,即各个数据离开集中位置的程度。如从表4.2和图4.1可见120名9岁男孩的肺活量大多数集中在中央部分,即中等肺活量者居多;从中央部分到两侧的频数分布逐渐减少,即少数人具有较大或较小的肺活量,则表现了肺活量分布的离散趋势。2. 揭示频数分布的类型 根据频数分布的特征可以将资料的分布分成对称型和不对称型两种类型。对称型的分布是指集中位置在中间,
12、左右两侧的频数大致对称的分布,如表4.2和图4.1所示。不对称型的分布是指频数分布不对称,集中位置偏向一侧,有时也称之为偏态分布。若集中位置偏向数值小的一侧(左侧),称为正偏态(positive skew),如图4.2所示;若集中位置偏向数值大的一侧(右侧),称为负偏态(negative skew),如图4.3所示。用频数分布表和频数分布图揭示频数分布的类型和特征,便于选用适当的统计方法。图4.2 2004年我国麻疹患者的年龄分布频数 评分图4.3 某市219名乳腺癌患者术后康复期生存质量评分的分布第二节 集中位置的描述利用频数分布表和频数分布图,可以使我们对数据的分布有一个直观的认识,为了进
13、一步掌握数据分布的规律,还需要用统计指标从数量上准确地反映数据分布的特征。平均数(average)是描述定量变量集中为使的特征值,用来说明数据的平均水平,它反映了一组资料的“一般”、“大多数”、“平常”等情况。平均数是一类统计指标的统称,在医学领域中常用的平均数有均数、几何均数和中位数。一、均数均数(mean)是算术均数(arithmetic mean)的简称,用于描述一组同质定量资料的平均水平。统计学中常用希腊字母表示总体均数,用表示样本均数。(一) 样本均数的计算1. 直接法 将所有的原始观察值直接相加后,再除以观察值的个数n,即 (4.1)式中,为求和符号。例4.3 利用例4.2的120
14、名9岁男孩的肺活量资料,用直接法计算平均肺活量。2. 加权法(weight method) 当资料中相同观察值较多时,将各相同观察值的个数(即频数f )与该观察值X的乘积相加,以代替原始观察值相加,再除以观察值的总个数,即 (4.2)在式(4.2)中,如果某个观察值的频数愈大,则该观察值对的影响愈大,因此频数又称为权数,计算出来的均数又称加权均数。如果只有频数表资料,因为不知道组段内的每个实际观察值,可以用组中值作为该组段观察值的代表值,再用加权法求均数,。例如,对2005年某市120名9岁男孩的肺活量资料,利用表4.2求均数为:结果与直接法计算结果很接近。频数表资料使用组中值代替实际观察值的
15、条件是假定各组数据在组内是均匀取值的,如不符合此条件,其误差会较大。(二) 均数的特性1. 各观察值与均数之差(离均差)的总和等于零。即。2. 各观察值的离均差平方和最小。即 。以上两个特性表明均数是一组单峰对称分布观察值最理想的代表值,这些特性在以后将多次用到。(三) 均数的应用1. 均数反映一组同质观察值的平均水平,并可作为样本的代表值与其他样本资料进行比较。2. 均数适用于单峰对称分布资料,特别是正态分布或近似正态分布的资料,但由于均数易受到极端值的影响,故不适用于描述偏态分布资料的集中位置,这时需要采用几何均数或中位数。3. 均数在描述正态分布的特征方面有重要意义(见本章第四节)。二、
16、几何均数医学研究中的某些资料如血清抗体滴度、细菌计数、体内某些微量元素含量等,其特点是原始观察值呈正偏态分布,但经过对数变换后呈正态或近似正态分布,或者其观察值数值相差极大甚至达到不同数量级,此时若计算均数则不能正确描述其集中位置,宜采用几何均数(geometric mean)。(一) 几何均数的计算样本几何均数用表示,其计算方法也有直接法和加权法。1. 直接法 用n个观察值的连乘积开n次方,即 (4.3) 这个公式在观察值较多时使用不便,利用对数运算的性质,可表达为原始观察值对数值的算术均数,再取反对数,即 (4.4)例4.4 2006年某市卫生监督所对33家商场空气中的细菌密度(个/m3)
17、进行了监测,资料如下,试求其平均密度。1090 5128 2645 1197 22028 527 2162 2874 13769 45962564 4830 1388 11063 267 24016 4539 737 15510 7108 7801565 4598 2677 1325 741 3313 11222 6664 35412492 2629 488 本资料的大多数观察值集中在较小的数值一端,呈正偏态分布,不宜计算均数。对这些细菌密度观察值进行对数变换整理成频数分布表或频数分布图后,可发现其对数值近似单峰对称分布(读者可自行验证),故采用几何均数描述其集中趋势。按式(4.4)计算几何均
18、数:2. 加权法 当相同观察值较多时,如频数表资料,可用下式计算: (4.5)例4.5 某医院预防保健科用流脑疫苗为75名儿童进行免疫接种,1个月后测定其抗体滴度如表4.3所示,试求其平均滴度。表4.3 75名儿童的平均抗体滴度计算表抗体滴度滴度倒数XlgX频数ff lgX1:440.602142.40841:880.903198.12791:16161.20412125.28611:32321.50512030.10201:64641.80621221.67441:1281282.1072510.53601:2562562.408249.6328合计75107.7676按式(4.5)计算几何
19、均数:75名儿童进行流脑疫苗免疫接种1个月后,平均抗体滴度为1:27.35。(二) 几何均数的应用1. 几何均数常用于变量值间呈倍数关系的偏态分布资料,特别是变量经过对数变换后呈正态分布或近似正态分布的资料。2. 因为0不能取对数,所以数据中若有0则不宜直接使用几何均数,此时可将所有观察值加上一个常数k,使,计算出结果后再还原,即。3. 观察值若同时有正、负值,可将所有观察值加上一个常数k,使,计算出结果后再还原,即。观察值若全是负值,计算时可先将负号去掉,得出结果后再加上负号。三、中位数中位数(median)是一个位置指标,它是将一组观察值按大小顺序排列后位次居中的数值,因此,在全部观察值中
20、,大于和小于中位数的观察值个数相等。样本中位数用表示。(一) 中位数的计算1直接法 , (4.6) , (4.7)式中,、为有序数列中相应位次上的观察值。例4.6 为研究燃煤型砷中毒患者体内砷负荷状况,某医学院对17名燃煤型砷中毒患者进行了发砷含量测定,结果为:1.61、1.91、2.24、2.24、2.30、2.60、2.84、3.15、3.33、3.75、3.75、3.75、3.81、4.42、6.42、6.42、14.76,试求其平均含量。为避免数据中极端值的影响,应计算中位数。本例n为奇数,按式(4.6):例4.7 在前述17名燃煤型砷中毒患者发砷含量的基础上,又测得1名燃煤型砷中毒患
21、者的发砷含量为15.39,求这18名燃煤型砷中毒患者发砷含量的中位数。本例n为偶数,按式(4.7):2. 频数表法 (4.8)式中,为中位数所在组段下限;为组距;为中位数所在组段的频数;为中位数所在组段前一组的累计频数。由于中位数的位次居中,故累计频率刚好大于50%的组即为中位数所在组。例4.8 为研究乳腺癌患者术后康复期生存质量的状况,某医院对219名术后康复期乳腺癌患者进行了生存质量测定,结果如表4.4,求平均评分。由表4.4可见资料呈负偏态分布,不宜使用均数,可用中位数求其平均评分。表4.4 219名乳腺癌患者康复期生存质量评分评分频数累计频数累计频率(%) 0220.9130241.8
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 定量 资料 统计 描述 通过 调查
限制150内