计量资料的统计描述讲义.pptx
《计量资料的统计描述讲义.pptx》由会员分享,可在线阅读,更多相关《计量资料的统计描述讲义.pptx(101页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、学 无 止 境11名词解释2总体随机抽样小概率事件变量2简答题1)试述统计工作的四大步骤。2)试述统计中资料的分型原则及资料类型的特点。复习21总体与样本总体样本根据研究目的确定的同质的研究对象所有观察单位的某种变量值的集合叫总体。从总体中随机抽取随机抽取的一部分观察单位,是总体有代表性的一部分3变量变量类型类型数值变量数值变量(定量变量)(定量变量)分类变量分类变量(定性变量)(定性变量)无序分类无序分类有序分类有序分类二项分类二项分类多项分类多项分类变量变量(指标或因素):指观察单位的特征。4统计资料的分型原则:根据变量的类型统计统计资料资料计量资料:计数资料:等级资料对每个观察单位用定量
2、方法测定某项指标的大小,所得的资料叫计量资料,有度量衡单位,变量为数值变量。将观察单位按某一属性来分类计数所得的资料。变量为分类变量中的无序分类。将观察单位按某一属性的不同程度来分类计数的资料。变量为分类变量中的有序分类。5统计工作的步骤:统计设计搜集搜集资料资料整理整理资料资料分析分析资料资料统计描述统计推断6统统 计计 分分 析析资料计量资料计数资料等级资料统计描述统计描述统计推断统计推断7第二章8910对一个随机事件进行重复观察,其中某变量值出现的次数被称作频数(frequency)。频数分布表(frequency distribution table),简称频数表(frequency
3、table),是用于反应各变量值及其相应频数之间的关系。在观察值个数(即样本含量n)较多时,为了解一组同质观察值的分布规律和便于指标的计算,可编制频数分布表。第一节数值变量资料的频数表11一、频数表的编制一、频数表的编制 l以例2.1说明其编制方法。2定组段和组距:定组段和组距:1求全距求全距(range)3列出频数表列出频数表二二 频数表的特征频数表的特征三、频数表的用途三、频数表的用途12l例2.1某地1998年抽样调查了100名18岁男大学生的身高(cm)资料如下,试编制频数表。某地1998年100名18岁男大学生的身高(cm)13l1求全距(求全距(range):找出观察值中的最大值与
4、最小值,其差值即为全距(或极差),用R表示。本例最大值为183.5cm,最小值为162.9cm,则R=183.5-162.9=20.6(cm)l2定组段和组距:定组段和组距:根据样本含量的多少确定“组段”数,一般设一般设8-13个组段个组段。l常用全距的1/10取整做组距:R/10l各组段的起点和终点分别称为下限下限和上限上限,某组段的组中组中值值为该组段的(下限+上限)/2。l相邻两组段的下限之差称为组距组距,以便于汇总和计算。14注意:第一组段应包括全部观察值中的最小值,最末组段应包括全部观察值中的最大值,并且同时写出其下限与上限。15l本例全距20.6的1/10为2.06,取整为2.0c
5、m即组距=2.0cm;第一组段的下限为162cm,第二组段的下限为164cm,依次类推,最末组段为182cm-184cm,如表2.1的第(1)栏。16l3列出各个组列出各个组段的频数表:段的频数表:把上述的组段序列制成表的形式,采用计算机或用划记法将原始数据汇总,得出各组段的观察例数,即频数,如表2.1的第(2)栏。将各组段(或各观察值)及其相应的频数列表即为频数表,如表2.1的第(1)、(2)栏。表2.1某地100名18岁男大学生身高(cm)均数的频数表17Range(Valuemax-Valuemin)Raw dataClasses(groups)Class interval(Range/
6、10)TabulationMaking thefrequency tableFlow Chart of making a Frequency Table18l二、频数分布的特征二、频数分布的特征l由频数表可看出频数分布的两个重要特征:集集中中趋趋势势(central tendency)和离离散散程程度度(dispersion)。例如本例,身高有高有矮,但中等身高居多,此为集中趋势;由中等身高到较矮或较高的频数分布逐渐减少,反映了离散程度。l对于数值变量资料,可从集中趋势和离离散散程程度度两个侧面去分析其规律性。19l频数分布有对称分布对称分布和偏态分布偏态分布之分之分。对称分布是指集中位置在中
7、央,左右两侧频数分布大致对称,如表2.1的(1)、(2)栏所示,若绘制成直方图(见下图)则更为直观清楚。20l偏态分布是指频数分布不对称,集中位置偏向一侧,若集中位置偏向数值小的一侧,称为正偏态分布;集中位置偏向数值大的一侧,称为负偏态分布。不同的分布类型应选用不同的统计分析方法。l现将频数分布图示如下:21频数分布类型频数分布类型对称对称分布分布频数频数分布分布偏态偏态分布分布正偏正偏负偏负偏频数分布高峰位于中部,左右两恻的频数大体对称。高峰偏于右侧,长尾向左侧延伸,则为负偏态负偏态。高峰偏于左侧,长尾向右侧延伸,则为正偏态正偏态22Symmetric DistributionSymmetr
8、ic DistributionSymmetric DistributionSymmetric DistributionAsymmetricAsymmetric distribution distribution Skewed to the LeftAsymmetric HistogramsSkewed to the Right23l三、频数表的用途三、频数表的用途可揭示频数分布类型,以便选取适当的统计方法揭示频数分布两个重要特征便于发现某些可疑值(特大值或特小值)便于进一步计算统计指标24第二节 数值变量资料的描述性指标计量资料的统计描述集中趋势的描述离散趋势的描述算术平均数几何均数中位数所选
9、用指标所选用指标极差四分位间距方差和标准差变异系数25一、集中趋势的统计描述指标一、集中趋势的统计描述指标l描述一组同质观察值的平均水平或中心位置的指标常称平均数平均数(average)。平平均均数数反反映映同同类类现现象象的的一一般般水水平平,是是总总体体内内各各单单位位参参差差不不齐齐的的标标志志值值的的代代表表值值,也也是是对对变变量分布集中趋势的测定。量分布集中趋势的测定。l常用的平均数有均数、几何均数、中均数、几何均数、中位数、众数位数、众数等。26(一)均数(一)均数(mean,average)l算术平均数算术平均数(arithmetic mean),或称为算术均数,简称为均数,是
10、最重要的平均数。l适用于对称分布资料,尤其是正态分布适用于对称分布资料,尤其是正态分布资料。资料。l总体均数用表示,样本均数用X表示。l根据资料情况,计算方法有直接法和加权法。27l1.直接法:直接法:由观察值直接计算,用于样本含量较少时,其公式为:l式中,希腊字母(读作sigma)表示求和;X1,X2,Xn为各观察值;n为样本含量,即观察值的个数。28l例2.2某地10名18岁健康男大学生身高(cm)分别为168.7,178.4,170.0,170.4,172.1,167.6,172.4,170.7,177.3,169.7求平均身高。29l2加权法加权法(weighting method):
11、当资料中出现相同观察值时,可将相同观察值的个数(即频数)与该观察值X 的乘积代替相同观察值逐个相加,即lX1 ,X2 ,Xkl f1 ,f2 ,fkl其平均数的计算公式可用下式表示:30l对于已编制成频数表的资料,可用每组段的组中值(下限上限)/2代替该组段观察值的实际取值,用上式计算均数。l其中X1,X2,Xk或X 分别表示各组段的组中值,f1,f2,fk或f 表示相应组段的频数l频数 f 为相应X的权(weight),故称加权法31例2.3 计算表2.1资料的平均身高。该100名18岁健康男大学生身高的均数为172.70cm。32 均数的应用范围及条件:均数的应用范围及条件:1.只能在同质
12、的基础上,对同质的事物求均数才有意义,才能反映事物的特征和其平均水平。2.均数适用于对称分布,尤其是正态分布资料,这时均数位于分布的中央,能反映观察值的集中趋势,即其平均水平。3.对于偏态分布资料,均数不能很好地反映其集中趋势,这时应改用其它指标如:几何均数或中位数来描述其集中趋势。33l(二)几何均数(二)几何均数(geometric mean)l用G表示l适用于数据经过对数变换后呈正态分布的资料,也可用于观察值之间呈倍数或近似倍数变化(等比关系)的资料。l如医学实验中的抗体滴度、平均效价、某些疾病的潜伏期等。l其计算方法有:34l1.直接法:直接法:由原始变量值直接计算几何均数。设变量值为
13、X1,X2Xn,几何均数G为:35l例2.4有6份血清的抗体效价为1:10,1:20,1:40,1:80,1:80,1:160,求其平均效价?l用抗体效价的倒数代入上式,求平均效价的倒数。l该6份血清抗体效价的平均效价为1:45。36l2.加权法:加权法:当资料中出现相同观察值的个数较多时,或资料为频数表资料,则用加权法计算几何均数。l变量及频数如下,符合几何均数的适用条件:lX1,X2,Xklf1,f2,fkl则几何平均数G为:37l例2.5某地面50名麻疹易感儿童接种麻疹疫苗一个月后,测其血凝抑制抗体滴,如表2.2中(1)、(2)栏,求平均抗体滴度。38l表2.250名麻疹易感儿童平均抗体
14、滴度计算表其血凝抗体滴度的平均滴度为1:57。39几何均数的应用范围及条件几何均数的应用范围及条件1.几何均数常用于等比级资料或对数正态分布资料。如卫生事业平均发展速度、人口的几何增长、抗体的平均效价等。2.资料中观察值不能有0。因为零和负数不能取对数,不能与任何数成倍数关系。3.资料中观察值不能同时有正值和负值。若全为负值,计算时先把负值去掉,得出结论后再加上负号。40l(三)中位数和百分位数:(三)中位数和百分位数:l中位数(中位数(median):把n个变量值从小到大排列,位于中间位置的变量值称为中位数,用 M 表示。在全部观察中,小于和大于中位数的观察值个数相等。l百分位数(百分位数(
15、percentile):把 n 个变量值从小到大排列,第 X 百分位数对应的变量值称为第 X百分位数,用 Px 表表示。l一个百分位数Px将一组观察值分为两部分,理论上有X%的观察值比它小,有(100-X)%的观察值比它大。l中位数是一个特定的百分位数,即M=P5041l1.计算方法:计算方法:l(1)直接法:直接法:将观察值由小到大排列,按下式计算。ln为奇数ln为偶数l式中,下标、为有序数列的位次。、为相应位次的观察值。42l例2.6某病患者9名,其发病的潜伏期(天)为:2,3,3,3,4,5,6,9,16,求中位数。l本例n=9,为奇数,按式(2.6)得:l(天)l若在例2.6基础上再继
16、续观察,在第20天又发现1例患者,则n=10,为偶数,按式(2.7)得:l(X5+X6)/2=(4+5)/2=4.5(天)43l(2)频数表法)频数表法l用于频数表资料。计算步骤是:l按所分组段由小到大计算累计频数和累计频率,如表2.3第(3)、(4)栏;确定Px所在组段;l按下式求中位数M或其它百分位数Px。44Px所在组段的组距Px所在组段的下限Px所在组段的频数fL为小于 L的各组段累计频数计算中位数时,X=50,即M=P50。45例2.7由表2.3中(1)、(2)栏数据计算中位数M,P25,P75,P2.5,P97.5表2.3199名食物中毒患者潜伏期的M和PX的计算l本例n=199,
17、根据表2.3第(2)栏数据,自上而下计算累计频数及累计频率,见第(3)、(4)栏。由第(4)栏知50%在15.1%与50.8%之间,故M在“12”组段内,将相应的L、i、f50、代入(2.8),求得M。46lM=P50=12+12/71(19950%-30)=23.75(小时)l同理,P25=12+12/71(19925%-30)=15.34(小时)P75=24+12/49(19975%-101)=35.82(小时)P2.5=0+12/30(1992.5%-0)=1.99(小时)P97.5=60+12/6(19997.5%-192)=64.05(小时)47l2.应用:应用:l(1)中位数的应用
18、范围及条件)中位数的应用范围及条件l中位数可用于描述任何分布,特别是偏态分布资料以及频数分布的一端或两端无确切数据资料的中心位置。因为中位数不是由全部观察值综合计算出来的,它不受特大值或特小值的影响,故可用中位数描述此种类型资料的集中趋势。l在对称分布的总体中,中位数和均数在理论上是相同的。l在对数正态分布的总体中,中位数和几何均数在理论上是相同的。l由于中位数只受居中变量值的影响,故它不够敏感。48l(2)百分位数的应用范围及条件百分位数的应用范围及条件l百分位数常用于描述偏态分布资料在某百分位置上的水平和分布特征。l多个百分位数结合起来使用,可以全面描述总体或样本的分布特征,包括位置大小和
19、变异度。l百分位数常用于确定医学参考值范围。l一般说来,分布中部的百分位数比较稳定,具有较好的代表性。4950二、离散程度的统计描述指标二、离散程度的统计描述指标 l前已提及,频数分布有集中趋势和离散程度两个重要特征,只有把两者结合起来才能全面反映一组数值变量资料的分布特征。上述的集中趋势指标只反映一组同质观察值的平均水平或中心位置,但是生物界中普遍存在变异(即同质基础上的个体差异),还需用离散程度指标反映一组同质观察值的变异度。51l例如,设有三组同年龄、同性别儿童体重(kg)数据如下:l甲组:2628303234l乙组:2427303336l丙组:2629303134l从该上述资料中三组数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计量 资料 统计 描述 讲义
限制150内