《平均水平集中趋势的统计描述.ppt》由会员分享,可在线阅读,更多相关《平均水平集中趋势的统计描述.ppt(37页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、平均水平集中趋势的统计描述1现在学习的是第1页,共37页第一节第一节频频数数分分布布一、频数表(一、频数表(frequencytable)一种格式的统计表,同时列出观察指标的可能取值一种格式的统计表,同时列出观察指标的可能取值区间及其在各区间的出现的频数。区间及其在各区间的出现的频数。2现在学习的是第2页,共37页4.765.265.615.954.464.574.315.184.924.274.774.885.004.734.475.344.704.814.935.044.405.274.635.505.244.974.714.444.945.054.784.524.635.515.244.
2、984.334.834.565.444.794.914.264.384.874.995.604.464.955.074.805.304.654.774.505.375.495.224.585.074.814.543.824.014.894.625.124.854.595.084.824.935.054.404.145.014.375.244.604.714.824.945.054.794.524.644.374.874.604.724.835.334.684.804.154.654.764.884.613.974.084.584.314.054.165.045.154.504.624.734.
3、474.584.704.814.554.284.784.514.634.364.484.595.095.205.325.054.414.524.644.754.494.224.715.214.944.685.174.915.024.76例例2.1某地用随机抽样方法检查了某地用随机抽样方法检查了140名成年男子的红细胞数名成年男子的红细胞数现在学习的是第3页,共37页频数表的编制步骤:频数表的编制步骤:1、确定组数:、确定组数:组数一般为 8 15组。2、确定组距:、确定组距:用i表示,i=全距/组数,一般取整数。全距用R表示,观察值中的最大值和最小值之差。R=最大值-最小值R=5.95-3.8
4、2=2.13i=R/10=2.13/100.214现在学习的是第4页,共37页3、确定组段:、确定组段:确定组段的上、下限。要求第一组包括最小的观察值,最后一组包括最大的观察值。值得注意的是各组段不能重叠,每一组段均为半开半闭区间。如112,114)或表示“112”第一组“3.8”、第二组“4.0”4、列表划记:、列表划记:用划记法得到每组的频数。5现在学习的是第5页,共37页红细胞数(红细胞数(1012/L)划记划记组中值组中值频数频数频率频率(%)3.8 3.9021.44.00 正正4.1064.34.20 正正正正4.30117.94.40 正正正正正正正正正正4.502517.94.
5、60 正正正正正正正正正正正正4.703222.94.80 正正正正正正正正正正4.902719.35.00 正正正正正正5.101712.15.20 正正正正5.30139.35.40 5.5042.95.60 5.7021.45.8 6.005.9010.7表表2-2某地某地140名正常男子红细胞数的频数表名正常男子红细胞数的频数表现在学习的是第6页,共37页二、直方图二、直方图纵轴表示各组的频数(频率),横轴表示观察变量,以直方的面积大小表示频数的多少,以直方面积占总面积的比例表示频率的大小。7现在学习的是第7页,共37页三、频数分布表的用途三、频数分布表的用途1、代替繁杂的原始数据,便
6、于进一步分析。、代替繁杂的原始数据,便于进一步分析。2、便于观察数据的分布类型。、便于观察数据的分布类型。正态分布(正态分布(normaldistribution):其特征是中间组段的频数其特征是中间组段的频数最多,两侧的频数分布对称,并按一定规律下降。最多,两侧的频数分布对称,并按一定规律下降。偏态分布的基本特征是,频数分布不对称。偏态分布的基本特征是,频数分布不对称。正偏态分布:正偏态分布:频数分布的高峰向左偏移,长尾向右侧延伸。频数分布的高峰向左偏移,长尾向右侧延伸。负偏态分布:负偏态分布:频数分布的高峰向右偏移,长尾向左侧延伸。频数分布的高峰向右偏移,长尾向左侧延伸。8现在学习的是第8
7、页,共37页现在学习的是第9页,共37页表表2-2115名正常成年女子血清转氨酶名正常成年女子血清转氨酶(mmol/L)含量分布)含量分布 10现在学习的是第10页,共37页现在学习的是第11页,共37页表表2-3101名正常人的血清肌红蛋白含量分布名正常人的血清肌红蛋白含量分布12现在学习的是第12页,共37页现在学习的是第13页,共37页3、便于发现资料中某些远离群体的特大或特小的可疑值。、便于发现资料中某些远离群体的特大或特小的可疑值。4、当样本含量比较大时,可用各组段的频率作为概率的估计、当样本含量比较大时,可用各组段的频率作为概率的估计值。值。现在学习的是第14页,共37页集中趋势集
8、中趋势(central tendency):变量值集中位置变量值集中位置.平均水平指标平均水平指标离散趋势离散趋势(tendency of dispersion):变量值围绕集中变量值围绕集中位置的分布情况。离位置的分布情况。离“中心中心”位置越远,频数越小;且位置越远,频数越小;且围绕围绕“中心中心”左右对称左右对称.变异水平指标变异水平指标 频数表的分布特征频数表的分布特征15现在学习的是第15页,共37页第二节第二节平均数平均数平均数平均数(average)常用于描述一组变量值的集中趋势,是反常用于描述一组变量值的集中趋势,是反映同质资料的平均水平或集中位置的特征值。映同质资料的平均水平
9、或集中位置的特征值。平均数有多种,常用的有平均数有多种,常用的有算术均数算术均数、几何均数几何均数和和中位数中位数。16现在学习的是第16页,共37页一、算术均数(一、算术均数(meanmean)(一)计算方法有:直接法和加权法。(一)计算方法有:直接法和加权法。1.直接法直接法将所有的观察值将所有的观察值X1,X2,Xn直接相加再除以观察例数。直接相加再除以观察例数。17现在学习的是第17页,共37页如对例如对例2.1的数据用上面公式计算,可算得的数据用上面公式计算,可算得140名正常成名正常成年男子红细胞数的均值为:年男子红细胞数的均值为:18现在学习的是第18页,共37页k:频数表的组段
10、数,:频数表的组段数,f:频数,:频数,X:组中值。:组中值。2.加权法加权法适用于频数表资料。适用于频数表资料。19现在学习的是第19页,共37页将表将表2-2的数据带入公式,有:的数据带入公式,有:直接法与加权法计算的均数非常接近,加直接法与加权法计算的均数非常接近,加权法计算的均数是近似值。权法计算的均数是近似值。20现在学习的是第20页,共37页(二)均数的应用(二)均数的应用 主要适用于对称分布或偏度不大的资料,尤其适合正主要适用于对称分布或偏度不大的资料,尤其适合正态分布资料。态分布资料。例如大多数正常人的生理、生化指标(身例如大多数正常人的生理、生化指标(身高、体重、腰围、臀围、
11、血红蛋白、白细胞数等)都适高、体重、腰围、臀围、血红蛋白、白细胞数等)都适宜用均数表达其集中趋势。宜用均数表达其集中趋势。21现在学习的是第21页,共37页二、几何均数(二、几何均数(geometric meangeometric mean)用用G表示,是将表示,是将n个观察值个观察值x的乘积再开的乘积再开n次方所得的根。次方所得的根。特点:数值按大小顺序排列后,各观察值呈倍数或近似特点:数值按大小顺序排列后,各观察值呈倍数或近似倍数关系。倍数关系。(一)计算方法(一)计算方法:直接法和加权法直接法和加权法22现在学习的是第22页,共37页1.直接法:直接法:23现在学习的是第23页,共37页
12、2.加权法:加权法:对于频数表资料,可用下式计算:对于频数表资料,可用下式计算:24现在学习的是第24页,共37页例例2.2测得测得10个人的血清滴度的倒数分别为个人的血清滴度的倒数分别为2,2,4,4,8,8,8,8,32,32,求平均滴度。,求平均滴度。该组数据的均数,该组数据的均数,为为10.825现在学习的是第25页,共37页例例2.3某医师使用胎盘侵液钩端螺旋体菌苗对某医师使用胎盘侵液钩端螺旋体菌苗对326名农民名农民接种接种2个月后测得血清个月后测得血清IgG抗体滴度如下表,试计算平均抗体滴度如下表,试计算平均抗体滴度。抗体滴度。IgG滴度倒数滴度倒数例数例数20164057807
13、6160753205464025128023即胎盘侵液钩端螺旋体菌苗接种即胎盘侵液钩端螺旋体菌苗接种2个月后血清个月后血清IgG抗体的平均滴度为抗体的平均滴度为1:139。现在学习的是第26页,共37页(二)应用:(二)应用:观察值呈倍数或近似倍数变化,观察值呈倍数或近似倍数变化,对数正态分布资料,对数正态分布资料,原始数据呈正偏态分布。原始数据呈正偏态分布。几何均数在医学研究领域多用于几何均数在医学研究领域多用于血清学和微生物学中。如抗体滴度、效价等。血清学和微生物学中。如抗体滴度、效价等。27现在学习的是第27页,共37页三、中位数和百分位数三、中位数和百分位数(一)中位数(一)中位数(m
14、edian)一般用一般用M表示。表示。将一组观察值从小到大按顺序排列将一组观察值从小到大按顺序排列X1X2Xn,居中心,居中心位置的数值即为中位数。位置的数值即为中位数。中位数是一个位置指标,以中位数为界,将变量分为左中位数是一个位置指标,以中位数为界,将变量分为左右两半。右两半。1.计算方法有直接法和频数表法。计算方法有直接法和频数表法。28现在学习的是第28页,共37页(1)直接法:)直接法:当当n为奇数时:为奇数时:当当n为偶数时:为偶数时:29现在学习的是第29页,共37页现测得极低密度脂蛋白(现测得极低密度脂蛋白(VLDL)中的载脂)中的载脂B蛋白的含蛋白的含量(量(mg/dl)测测
15、5个人的值:个人的值:0.84、2.85、5.46、8.58、9.60中位数为中位数为5.46测测4个人的值:个人的值:0.84、2.85、5.46、8.58中位数为(中位数为(2.85+5.46)/2=4.1630现在学习的是第30页,共37页(2)频数表法:)频数表法:31现在学习的是第31页,共37页例例2.4对某地对某地630名名50-60岁的正常女性检查了血清甘油三酯含量的频岁的正常女性检查了血清甘油三酯含量的频数表数表甘油三酯甘油三酯频数频数累积频数累积频数累积频率累积频率 0.1027274.3 0.40 16919631.1 0.7016736357.61.00 9445772
16、.51.30 8153895.41.60 4258092.11.90 2860896.52.20 1462298.72.50 462699.42.80 362999.83.10 1630100.0合计630表表2-4某地某地630名名50-60名正常女性血清甘油三脂含量的频数表名正常女性血清甘油三脂含量的频数表现在学习的是第32页,共37页2.中位数的应用中位数的应用资料分布呈明显偏态(正或负偏态分布);频数分布资料分布呈明显偏态(正或负偏态分布);频数分布两端无确定数值时;资料的分布情况不明。两端无确定数值时;资料的分布情况不明。例如,某些传例如,某些传染病或食物中毒的潜伏期、人体的某些测定
17、指标(如发汞、染病或食物中毒的潜伏期、人体的某些测定指标(如发汞、尿铅),其平均水平可用中位数来表示。尿铅),其平均水平可用中位数来表示。33现在学习的是第33页,共37页(二)百分位数(二)百分位数(percentile)是指在一组数据中找到这样一个值,全部观察值的是指在一组数据中找到这样一个值,全部观察值的X%小于小于Px,而其余(,而其余(100-X)%大于大于Px。PxX%(100-X)%34现在学习的是第34页,共37页频数表法频数表法 35现在学习的是第35页,共37页例例2.5计算例计算例2.4的百分位数的百分位数P25,P75,P90。36现在学习的是第36页,共37页小小结:结:计量资料的统计资料分析,通常首先将原始数计量资料的统计资料分析,通常首先将原始数据以频数表或直方图的形式表示,根据资料的分布据以频数表或直方图的形式表示,根据资料的分布类型选择不同的描述指标。每个具体的指标都有一类型选择不同的描述指标。每个具体的指标都有一定的适用范围,定的适用范围,正态或近似正态分布资料正态或近似正态分布资料一般选一般选用算术均数来描述,用算术均数来描述,对数正态分布或等比资料对数正态分布或等比资料一一般选用几何均数,般选用几何均数,偏态分布资料偏态分布资料一般选用中位数来一般选用中位数来描述。描述。现在学习的是第37页,共37页
限制150内