最新医学统计学及其软件包精品课件.ppt
第一节第一节 概述概述 描述性统计指标包括: (1)集中位置的指标,用以描述观察值的平均水平。 如算术均数、几何均数、中位数、众数、百分位数等。 (2)资料变异的指标,用以描述观察值间参差不齐的程度,即离散度或称变异度。 如全距、标准差、方差、变异系数、四分位数间距等。二、几何均数二、几何均数(Geometric Mean) 例例3.3 6例钩端螺旋体病人的潜伏期分别为7, 10, 12, 14, 18, 20天, 求其平均潜伏期。 解:解: 或者lgG=(lg7+lg10+lg20)/6=1.1045 查反对数得G=12.7(天) 7 .12201814121076G71220181412107.6G二、几何均数二、几何均数(Geometric Mean) 当为滴度资料时,如5名学龄儿童的麻疹血凝抑制抗体滴度为1:25, 1:50, 1:50, 1:100, 1:100, 可先取其倒数,25, 50, 50, 100, 100,再求取几何均数为57.43, 则平均抗体滴度为1:57。 三中位数三中位数(Median) 中位数用M表示,它将总体或样本的全部观察 值分成两部分,每部分各有50%个观察值。 计算方法为:先将原始观察值按由小到大顺序排列后,位次处于中间的那个观察值为中位数。观察值数为奇数时,处于中间的那个数为中位数。偶数时处于中间的两个数的均数为中位数。 三中位数三中位数(Median) 如求数列7, 10, 12, 14, 18, 20的中位数。n=6,为偶数,取中间两个数的平均数,则 M=(12+14)/2=13(天) 如求数列7, 10, 12, 14, 15,18, 20的中位数。n=7, 为奇数,取中间那个数为中位数。则 M=14(天)三中位数三中位数(Median) 适用于表示任何分布资料的平均水平。但常用于非正态分布资料。由于中位数不受个别特大,特小数值的影响, 因此它比均数稳健,常用于资料分布不明,或明显偏态,或分布的一端无确定值的情况。四众数四众数(Mode) 频数最大的变量值称为众数。列成频数表的资料,频数最大的组段的组中值为众数。 五百分位数五百分位数(Percentile) 第X百分位数以Px表示,它将总体或样本的全部观察值分成二个部分,其中有x%个观察值小于Px, (100-x)%个观察值大于Px。 用途:1.描述一组资料在各个百分位置上的水平,用一组百分位数如P5,P25, P50, P75, P95,可以描述总体或样本的分布特征,如集中位置、变异度等。五百分位数五百分位数(Percentile) 2.确定医学正常值范围。 P25称为第1四分位数;记为Q1。 P50称为第2四分位数;记为Q2,就是中位数M P75称为第3四分位数;记为Q3。 计算百分位数时,特别是靠近两端的百分位数时,要求例数足够大,大于100例。 五百分位数五百分位数(Percentile)例:例:用直接法计算例3.2资料共120例的第5百分位数, 用频数表法计算第95百分位数, 解解:将原始观察值由小到大排列,得3.980, 4.065, 4.070, 4.070, 4.2150, 4.250, 4.260, 4.290, 5.850, 5.875 先确定第x百分位数在第几位。用公式:(n+1)x%五百分位数五百分位数(Percentile)本例(120+1)5%=6.05,第5百分位数在第6.05位,即第6到第7位之间。简单的算法是取第6和第7位数的平均值,P5=(4.250+4.260)/2=4.255 (1012/L)。计算精确点可用内插法。 第6位 第6.05位 第7位 4.250 P5 4.260 (7-6):(4.260-4.250)=(6.05-6):(P5-4.250) 解得:P5=4.2505 (1012/L)五百分位数五百分位数(Percentile) 频数分布表计算百分位数: 组限 频数f 累计频数 3.9 4 4 4.1 5 9 4.3 8 17 4.5 12 29 4.7 19 48 4.9 21 69 5.1 31 100 5.3 8 108 5.5 9 117 5.75.9 3 120 五百分位数五百分位数(Percentile) 计算P951.列出频数分布表,计算累计频数。2.计算nx%,12095%=1143.对照累计频数栏与nx%确定PX应落在哪一个组段中。114将在组限为5.5的组中,该组段下限为L,组距为i,频数为f,上一组累积频数为f l 。PX=L+ i(nx%-f l)/f , P95=5.5+0.2(114-108)/9=5.633 (1012/L)第三节第三节 离散程度的指标离散程度的指标1.全距全距(Range)是最大与最小观察值之差。全距计算方便,但仅利用最大与最小二个数据来代表全部数据的离散程度,信息利用差。全距受特大与特小值影响大,不稳定。 2.四分位数间距四分位数间距(Interquartile Range) 第三节第三节 离散程度的指标离散程度的指标四分位数间距是第3四分位数与第1四分位数之差,即P75-P25。四分位数间距受特大值或特小值影响小,较稳定。中位数和四分位数间距相结合常用于表示非正态分布资料的平均水平和离散程度。第三节第三节 离散程度的指标离散程度的指标3.标准差与方差标准差与方差(Standard Deviation and Variance) 总体的标准差,方差符号为,2,样本的标准差,方差符号为S,S2。 1)(2nxxSnxxxx/)()(222第三节第三节 离散程度的指标离散程度的指标当为频数表资料时,公式如下:1)(2fxxfS 方差S2是标准差S的平方值。标准差(或方差)越大,表示观察值的分布越分散,反之,标准差(或方差)越小,表示观察值的分布越集中。实际应用时常以均数标准差的写法综合观察值的集中和离散特征。 第三节第三节 离散程度的指标离散程度的指标4.变异系数变异系数(Coefficient of Variation)简记为CV,它是标准差与均数之比,用百分数表达。100/xSCV由于CV无量度单位,而且消除了原始资料的平均水平的影响,因此常用于比较量度单位不相同的指标或者平均水平相差悬殊的指标的变异程度。 第三节第三节 离散程度的指标离散程度的指标表3.3 160名20岁男青年身高(cm)、 体重(Kg)的均数与标准差 均数 标准差 变异系数 身高 166.06 4.95 2.98% 体重 53.72 4.46 8.30% 算得变异系数后,可以认为体重的变异程度比身高大。 偏态系数偏态系数(skewness):评价正态分布对称性的指标。 对称:skewness=0; 正偏态:skewness0;个别数据特别大。 负偏态:skewness0;个别数据特别小。 峰态系数(峰态系数(kurtosis):评价正态分布正态峰的指标。 正态峰:kurtosis=0; 尖峭峰:kurtosis0; 平阔峰:kurtosis0;第四节第四节 计量资料描述性统计的计量资料描述性统计的SASSAS程序程序 进入SAS系统实际操作30 结束语结束语