《卫生统计学之定量资料的统计描述.pptx》由会员分享,可在线阅读,更多相关《卫生统计学之定量资料的统计描述.pptx(96页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、定量资料的统计描述定量资料的统计描述 第二章第二章Page11261定量资料的定量资料的 统计描述统计描述 统计图统计图: :频数分布图频数分布图统计表:频数分布表统计表:频数分布表 统计指标:统计指标:集中趋势指标集中趋势指标 离散趋势指标离散趋势指标利用统计表对数据进行概括利用统计表对数据进行概括; ;用统计图对分布形态及分布间的关系做直观的表达用统计图对分布形态及分布间的关系做直观的表达; ;用于描述定量资料的统计指标的意义与计算。用于描述定量资料的统计指标的意义与计算。2第一节第一节 频率分布表与频率分布图频率分布表与频率分布图 频数分布频数分布:n n个变量值在各变量值个变量值在各变
2、量值区间内的个数(区间内的个数(f f ) )分配分配 频率分布频率分布:n n个变量值在各变量值个变量值在各变量值区间内所占的比例分配区间内所占的比例分配 3表表2-1 1998年某地年某地96名孕妇产前检查次数频率分布名孕妇产前检查次数频率分布检查次数检查次数频数频数频率(频率(%) 累计人数累计人数 累计频率(累计频率(%)(1)(2)(3)(4)(5)044.244.2177.31111.521111.52222.931313.53536.542627.16163.552324.08487.5 51212.596100.0合计合计96100.045 (一一)频率分布表频率分布表 例例2
3、-1 1998年某山区年某山区96名孕妇产名孕妇产前检查次数资料如下:前检查次数资料如下:0,3,2,0,1,5,6,3,2,4,1,0,6,5,1,3, 3, 4,7。整理成表。整理成表2-1得频率分得频率分布表。布表。一、离散型定量变量的频率分布一、离散型定量变量的频率分布6表表2-1 1998年某地年某地96名孕妇产前检查次数频率分布名孕妇产前检查次数频率分布检查次数检查次数频数频数频率(频率(%) 累计人数累计人数 累计频率(累计频率(%)(1)(2)(3)(4)(5)044.244.2177.31111.521111.52222.931313.53536.542627.16163.5
4、52324.08487.5 51212.596100.0合计合计96100.07 频率:频率:各组的频数除以总例数各组的频数除以总例数 n n 所得的比值。所得的比值。频率描述了各组频数在全体中所占的比重,各组频率描述了各组频数在全体中所占的比重,各组频率之和等于频率之和等于100%100%。 累计频数:累计频数:本组段的频数与以前各组段的频数本组段的频数与以前各组段的频数相加;相加; 累计频率:累计频率:每组段的累计频数除以总例数。每组段的累计频数除以总例数。8( (二二) )频率分布图频率分布图直条图直条图 横坐标:变量,即产前检查次数;横坐标:变量,即产前检查次数; 纵坐标:频率,即产前
5、检查纵坐标:频率,即产前检查K K次的妇女在被次的妇女在被 统计妇女中所占的比例统计妇女中所占的比例% %。 等宽直条的高度:表示各组频率等宽直条的高度:表示各组频率 9 图图2-1 某地某地96名孕妇产前检查次数频率分布名孕妇产前检查次数频率分布频率频率(%)产前检查次数产前检查次数10(一)频率分布表(一)频率分布表例例2-2 :抽样调查某地抽样调查某地120120名名1818岁岁3535岁健岁健康男性居民血清铁含量康男性居民血清铁含量(mol/L)(mol/L)见见P P1212,试编制频率分布表。试编制频率分布表。二、连续型定量变量的频率分布二、连续型定量变量的频率分布11数据数据7.
6、428.6523.0221.6121.3121.469.9722.7314.9420.1821.6223.0720.388.4017.3229.6419.6921.6923.9017.4519.0820.5224.1423.7718.3623.0424.2224.1321.5311.0918.8918.2623.2917.6715.3818.6114.2717.4022.5517.5516.1017.9820.1321.0014.5619.8919.8217.4814.8918.3719.5017.0818.1226.0211.3413.8110.2515.9415.8318.5424.521
7、9.2626.1316.9918.8918.4620.8717.5113.1211.7517.4021.3617.1413.7712.5020.4020.3019.3823.1112.6723.0224.3625.6119.5314.7714.3724.7512.7317.2519.0916.7917.1919.3219.5919.1215.3121.7519.4715.5110.8627.8121.6516.3220.7522.1113.1717.5519.2612.6518.4819.8323.1219.2219.2216.7227.9011.7424.6614.1816.5212 组段组
8、段(1) f (2) 6 18 310 612 814 1216 2018 2720 182224 26 28 12 8 4 1合计合计 120表表2 120名正常成年男子血清铁含量的频数分布表名正常成年男子血清铁含量的频数分布表13 1 1、求全距(极差)、求全距(极差) 极差(极差(rangerange): : 极差也称全距,极差也称全距,即最大值和最小值之差,记作即最大值和最小值之差,记作R R。本例。本例 )/( 9 .2242. 764.29LumolR频数表的编制步骤频数表的编制步骤14 根据极差选定适当根据极差选定适当“组段组段”数。数。 组段数组段数通常取通常取 815 组。组
9、。2、确定组段数、组距、确定组段数、组距15)/(2222. 210/22.22Lmoli 组距组距等组距频数表:常见等组距频数表:常见不等组距频数表:少见不等组距频数表:少见2、确定组段数、组距、确定组段数、组距16组段下限(组段下限(L L):每个组段的起点):每个组段的起点组段上限(组段上限(U U):每个组段的终点):每个组段的终点UXL 3、确定各组段的上、下限、确定各组段的上、下限两端的组段应分别包含最小值或最大值;两端的组段应分别包含最小值或最大值; 尽量取较整齐的数值作为组段的端点,便于对尽量取较整齐的数值作为组段的端点,便于对数据进行表述;数据进行表述; 最后一个组段应同时写
10、出上限和下限来最后一个组段应同时写出上限和下限来17 6 8 10 12 14 16 18 20 22 24 26 2830 合计合计 一 上 正一 正上 正正丅 正正正正 正正正正正丅 正正正上 正正丅 正上 止 一 1 3 6 8 12 20 27 18 12 8 4 1 组段组段划记划记频数频数120 4 4、列表整理、统计各组段的频数、频率、列表整理、统计各组段的频数、频率 18数据数据7.428.6523.0221.6121.3121.469.9722.7314.9420.1821.6223.0720.388.4017.3229.6419.6921.6923.9017.4519.08
11、20.5224.1423.7718.3623.0424.2224.1321.5311.0918.8918.2623.2917.6715.3818.6114.2717.4022.5517.5516.1017.9820.1321.0014.5619.8919.8217.4814.8918.3719.5017.0818.1226.0211.3413.8110.2515.9415.8318.5424.5219.2626.1316.9918.8918.4620.8717.5113.1211.7517.4021.3617.1413.7712.5020.4020.3019.3823.1112.6723.02
12、24.3625.6119.5314.7714.3724.7512.7317.2519.0916.7917.1919.3219.5919.1215.3121.7519.4715.5110.8627.8121.6516.3220.7522.1113.1717.5519.2612.6518.4819.8323.1219.2219.2216.7227.9011.7424.6614.1816.521920同一组资料,不同的人编制的频数表,结果同一组资料,不同的人编制的频数表,结果不尽相同,允许几个合理的结果并存。不尽相同,允许几个合理的结果并存。 21横坐标横坐标指标(变量)指标(变量)纵坐标纵坐标频率
13、密度即频数频率密度即频数/ /组距组距 或频数(等组距频数表)或频数(等组距频数表)各矩形(宽度为组距)的面积各矩形(宽度为组距)的面积代表各组代表各组段的频率段的频率(二)频率分布图(二)频率分布图直方图直方图22 图中横轴为血清铁含量,纵轴为频率密度,直条面图中横轴为血清铁含量,纵轴为频率密度,直条面积等于相应组段的频率。积等于相应组段的频率。231 1、作为陈述资料的形式:、作为陈述资料的形式: 简单明了或直观形象,便于进简单明了或直观形象,便于进一步计算指标和统计分析。一步计算指标和统计分析。三、频率分布表(图)的用途三、频率分布表(图)的用途24(1)对称分布)对称分布 :若各组段频
14、数的分布以若各组段频数的分布以频数最多的组段为中心左右两侧频数最多的组段为中心左右两侧大体大体对称对称(总体则完全对称),就认为该(总体则完全对称),就认为该资料是对称分布资料是对称分布 (2)偏态(峰)分布)偏态(峰)分布 :正偏峰分布正偏峰分布 负偏峰分布负偏峰分布2、揭示资料的、揭示资料的分布类型分布类型25 含药含药量(量(mg) (1) 频数频数 f (2)37 340 643 1546 1849 3052 1455 1158 2 6164 1合计合计 100表表 某药某药100100片的含药量的频数表片的含药量的频数表26频频 数数图图 100 100片药片含药量的直方图片药片含药
15、量的直方图37 40 43 46 49 52 55 58 61 64含药量(含药量(mgmg)27 正偏态(峰)分布正偏态(峰)分布115115名正常成年女子血清转氨酶(名正常成年女子血清转氨酶(mmol/Lmmol/L)含量分布)含量分布 转氨酶含量转氨酶含量人数人数12 215 91814212324192714301133 936 739 4 4245 32829101101名正常人的血清肌红蛋白名正常人的血清肌红蛋白( )( )含量分布含量分布g/mL 负偏态(峰)分布负偏态(峰)分布3031 频数分布频数分布对称分布型对称分布型:指集中位置在正中,左右指集中位置在正中,左右 两侧频数
16、分布大体对称两侧频数分布大体对称。偏态分布型偏态分布型:指集中位置偏向一侧,频数指集中位置偏向一侧,频数 分布不对称。分布不对称。偏态分布型偏态分布型正偏态分布:正偏态分布:集中位置偏向数值小的一侧。集中位置偏向数值小的一侧。负偏态分布:负偏态分布:集中位置偏向数值大的一侧集中位置偏向数值大的一侧。 32集中集中趋势趋势:血清铁含量向中央部分集中,即中:血清铁含量向中央部分集中,即中等含量者居多,集中在等含量者居多,集中在1818 这个组段,这种现这个组段,这种现象为集中趋势象为集中趋势离离散趋势散趋势:从中央部分到两侧的频数分布逐渐:从中央部分到两侧的频数分布逐渐减少,而且血清铁含量的值参差
17、不齐,最低的减少,而且血清铁含量的值参差不齐,最低的接近接近6 6 最高的接近最高的接近3030,这种现象称为离散趋势,这种现象称为离散趋势3、描述资料的分布特征、描述资料的分布特征33集中趋势集中趋势:观察值的平均水平或集观察值的平均水平或集 中位置,用中位置,用平均数平均数反映反映离散趋势离散趋势:观察值的变异程度或离观察值的变异程度或离 散程度,用散程度,用变异指标变异指标反映反映3、描述资料的、描述资料的集中趋势与离散趋势集中趋势与离散趋势344. 便于发现某些特大和特小的便于发现某些特大和特小的可疑值可疑值组组 段段 频频数数 f (1) (2) 2.30 1 2.60 0 2.90
18、 0 3.20 0 3.50 17 3.80 20 4.10 17 4.40 12 4.70 9 5.00 0 5.30 0 5.605.90 8 合合 计计 84 可疑值可疑值可疑值可疑值35计量资料(定量资料、数值变量资料)计量资料(定量资料、数值变量资料)总体:总体:有限或无限个(定量)变量值有限或无限个(定量)变量值样本:样本:从总体随机抽取的从总体随机抽取的 n 个变量值:个变量值: X1, X2, X3, , Xn n 为样本例数(样本大小、样本含量)为样本例数(样本大小、样本含量)第二节第二节 描述集中趋势的统计指标描述集中趋势的统计指标36一、一、 描述集中趋势的统计指标描述集
19、中趋势的统计指标M平均数平均数(averageaverage):):描述描述一组变量一组变量值的值的集中位置或平均水平集中位置或平均水平的指标。的指标。M常用的平均数有常用的平均数有( (算术平算术平) )均数均数、几何几何(平)(平)均数、中位数均数、中位数M不同的分布使用不同的平均数不同的分布使用不同的平均数 371、算术均数(、算术均数(mean)意义:意义:用于反映一组呈对称性分布的变量用于反映一组呈对称性分布的变量值在数量上的平均水平或者说是集中位置值在数量上的平均水平或者说是集中位置的特征值。的特征值。应用:应用:对称性分布,尤其是正态分布对称性分布,尤其是正态分布 X总体 , 样
20、本符号:符号:38(1 1)直接计算法)直接计算法12nXXXXXnn39 例例2-3 2-3 测得测得8 8只正常大白鼠总酸性磷酸酶含量(只正常大白鼠总酸性磷酸酶含量(U/LU/L)为为4.204.20,6.436.43,2.082.08,3.453.45,2.262.26,4.044.04,5.425.42,3.383.38。试求其算术均数。试求其算术均数。 L/U9075. 38/38. 3.08. 243. 62 . 4n/Xn/X.XXXn21 40 (2)加权法)加权法(频数表法,大样本资料)(频数表法,大样本资料)112233123kkkfXf Xf Xf Xf XXfffffX
21、 本组下限+下组下限2f :各组段的频数各组段的频数k k:频数表的组段个数:频数表的组段个数( (组中值组中值) )nfxffxX00 41120名成年男子血清铁含量均数、标准差计算表(加权法)名成年男子血清铁含量均数、标准差计算表(加权法) 组段组段 频数(频数(f) 组中值(组中值(X0) fX 0 (1) (2) (3) (4)=(2)(3) (5)=(3)(4) 6 8 10 12 14 16 18 20 22 24 26 2830合计合计1 3 6 8 12 20 27 12 10 8 4 1 120(f)7 27 66 104 180 340 513 378 276 200 10
22、8 29 2228(fX0)7 9 11 13 15 17 19 21 23 25 27 29 49 243 726 1352 2700 5780 9747 7938 6348 5000 2916 841 43640( )20fXLmolffxX/57.181202228020fX42均数的几何意义均数的几何意义o均数代表每组观察值的平衡点,也就是均数代表每组观察值的平衡点,也就是重心。如重心。如:(1:(1,4 4,7 7,8)8)则均数为则均数为5 5。则。则图示如下:图示如下:o均数的重要特性:离均差(各观察值与均数的重要特性:离均差(各观察值与均数之差)总和等于零均数之差)总和等于零
23、123456780X43 均数的应用均数的应用 它最适用于对称分布资料,尤其是它最适用于对称分布资料,尤其是 。因为这时均数位于分布的中心,最能反映资料。因为这时均数位于分布的中心,最能反映资料的集中趋势。的集中趋势。442、几何均数(、几何均数(geometric mean)意义:意义:可用于反映一组经对数转换后呈对可用于反映一组经对数转换后呈对称分布的变量值在数量上的平均水平。称分布的变量值在数量上的平均水平。应用:应用:倍数关系或对数转换后呈对称分布,倍数关系或对数转换后呈对称分布, 尤其是对数正态分布尤其是对数正态分布符号:符号: (样本)(样本) G45 (1)直接计算)直接计算 法
24、法12nnGX XX)lg(lg)lglglg(lg1211nXnXXXGn 46 例:某公司五名职员的薪水分别是:例:某公司五名职员的薪水分别是: 10 10,100100,10001000,1000010000,100000100000。510 100 1000 10000 100000 1000G1000)515(lg)100000lg100lg10lg(lg11 nG22222510000010000100010010 X47 例例2-5 72-5 7名慢性迁延性肝炎患者的名慢性迁延性肝炎患者的HBsAgHBsAg滴度滴度资料为资料为1:161:16,1:321:32,1:321:32
25、,1:641:64,1:641:64,1:1281:128,1:5121:512。求其平均效价。求其平均效价。7512lg.32lg32lg16lglglglg11nXG648062. 1lg17 7份份HBsAgHBsAg的平均滴度为的平均滴度为1 1:646448 (2)加权法)加权法1lglg()fXGf适用于相同观察值较多或频数表资料适用于相同观察值较多或频数表资料。49 例例2-6 2-6 52 52例慢性迁延性肝炎患者的例慢性迁延性肝炎患者的HBsAgHBsAg滴度数滴度数据据见表见表2-42-4,求其平均滴度求其平均滴度。 74705.1197017.2lg52/06977.10
26、8lg527027.27.50515.1720412.12lgG11 5252例慢性肝炎患者的例慢性肝炎患者的HBsAgHBsAg滴度的几何均数为滴度的几何均数为1:119.747051:119.7470550 几何均数应用的注意事项:几何均数应用的注意事项: 1 1)几何均数常用于等比级数资料或对数)几何均数常用于等比级数资料或对数正态分布资料。正态分布资料。 2 2)观察值中不能有)观察值中不能有0 0。 3 3)观察值中不能同时有正值和负值。)观察值中不能同时有正值和负值。51意义:意义:是将是将n n个变量值从小到大排列,位置个变量值从小到大排列,位置居于中间的那个变量值。居于中间的那
27、个变量值。用途:用途:偏态分布资料;一端或两端无确切数偏态分布资料;一端或两端无确切数 值的资料(开口资料);分布不明的资料。值的资料(开口资料);分布不明的资料。符号:符号:M M(样本(样本) 3、中位数(、中位数( median)52 1,3,7,55,86,100,中位数为多少中位数为多少? ? 1,3,7,55,100,中位数为多少中位数为多少? ?53(1)直接计算法)直接计算法 (小样本时)小样本时)n n为奇数时为奇数时 n n为偶数时为偶数时 1()2nMX()(1)2212nnMXX54(2)频数表法)频数表法 (大样本时)大样本时))2( LMMMfnfiLM LM ,i
28、M ,fM分别为分别为M 所在组段的下限、所在组段的下限、组距和频数,组距和频数, fL为为M M 所在组段之前各组所在组段之前各组段的累积频数。段的累积频数。 55下限值下限值L L上限值上限值U Ui; fm中位数中位数M M)%50(LfnmmLmfifnLM%50)2( LMMMfnfiLM56发汞值(发汞值( g/g) (1)频数频数 累积频数累积频数 累积频率累积频率 (2) (3) (4)0.30.71.11.51.92.32.73.13.53.9 12 12 10.08 35 47 39.50 32 79 66.39 25 104 87.40 7 111 93.28 4 115
29、 96.64 3 118 99.16 0 118 99.16 0 118 99.16 1 119 100.00 例例 某地某地119119名正常女性发汞值资料如名正常女性发汞值资料如下表所示,试计算其中位数。下表所示,试计算其中位数。 M0.41191.1471.26(/ )322Mg g 即该地即该地119名正常女性平均发汞值为名正常女性平均发汞值为1.26( g/g)57 指把数据从小到大排列后位于第指把数据从小到大排列后位于第X%X%位置位置的数值。的数值。它是一种位置指标,用它是一种位置指标,用 来表来表示。示。一个百分位数一个百分位数 是将全部变量值分为两部分,在是将全部变量值分为两
30、部分,在不包含不包含 的全部变量值中有的全部变量值中有 的变量值比它的变量值比它小,有小,有 变量值比它大。变量值比它大。 (100)%X%XXPXPXP 4、百分位数(、百分位数( percentile )58o百分位数图示百分位数图示oX%X% P PX X (100-X)%(100-X)%o5050分位数就是中位数分位数就是中位数 59%X(100)%XXP 百分位数示意图百分位数示意图60 (1 1)百分位数的计算)百分位数的计算 (%)XXXLXiPLnXff LX ,iX ,fX分别为分别为PX 所在组段的下所在组段的下限、组距和频数,限、组距和频数, fL为为PX 所在组段之前所
31、在组段之前各组段的累积频数。各组段的累积频数。 61发汞值(发汞值( g/g) (1)频数频数 累积频数累积频数 累积频率累积频率% (2) (3) (4)0.30.71.11.51.92.32.73.13.53.9 12 12 10.08 35 47 39.50 32 79 66.39 25 104 87.40 7 111 93.28 4 115 96.64 3 118 99.16 0 118 99.16 0 118 99.16 1 119 100.00P25250.40.711925%120.9035P(g/g) 例例 某地某地119名正常女性发汞值资料如下表名正常女性发汞值资料如下表所示
32、,试计算其所示,试计算其P25,P75,P90。 62发汞值(发汞值( g/g) (1)频数频数 累积频数累积频数 累积频率累积频率 (2) (3) (4)0.30.71.11.51.92.32.73.13.53.9 12 12 10.08 35 47 39.50 32 79 66.39 25 104 87.40 7 111 93.28 4 115 96.64 3 118 99.16 0 118 99.16 0 118 99.16 1 119 100.00P75750.41.511975%791.6635P (g/g) 例例 某地某地119名正常女性发汞值资料如下表名正常女性发汞值资料如下表所
33、示,试计算其所示,试计算其P25,P75,P90。 63发汞值(发汞值( g/g) (1)频数频数 累积频数累积频数 累积频率累积频率 (2) (3) (4)0.30.71.11.51.92.32.73.13.53.9 12 12 10.08 35 47 39.50 32 79 66.39 25 104 87.40 7 111 93.28 4 115 96.64 3 118 99.16 0 118 99.16 0 118 99.16 1 119 100.00P90900.41.911990%1042.087P (g/g) 例例 某地某地119名正常女性发汞值资料如下表名正常女性发汞值资料如下表
34、所示,试计算其所示,试计算其P25,P75,P90。 64(2)百分位数的应用)百分位数的应用用于描述样本或总体观察值序列某百用于描述样本或总体观察值序列某百 分位置的水平。分位置的水平。用于确定偏态分布资料的参考值范围。用于确定偏态分布资料的参考值范围。用于描述偏态资料的变异程度。用于描述偏态资料的变异程度。655 5、众数、众数o众数:指总体中出现机会最高的数值。样本众数:指总体中出现机会最高的数值。样本众数则是在样本中出现次数最多的数值众数则是在样本中出现次数最多的数值66正态分布时:正态分布时: 均数中位数众数均数中位数众数正偏态分布时:正偏态分布时:均数均数 中位数中位数 众数众数负
35、偏态分布时:负偏态分布时:均数均数 中位数中位数 众数众数67M变异指标变异指标:描述一组变量值的描述一组变量值的变异程变异程度或离散趋势度或离散趋势的指标的指标. .M常用的变异指标有常用的变异指标有 极差极差、四分位数四分位数间距间距、方差或、方差或标准差标准差、变异系数变异系数M不同的分布使用不同的变异指标不同的分布使用不同的变异指标第三节第三节 描述离散趋势的特征数描述离散趋势的特征数68例例 三组同龄男孩的身高值三组同龄男孩的身高值(cm) 甲组:90 95 100 105 110 100cmX 甲 乙组:96 98 100 102 104 100cmX 乙 丙组:96 99 100
36、 101 104 100cmX 丙 69例例2-11 2-11 试观察试观察3 3组数据的离散情况。组数据的离散情况。 A A组组 26 28 30 32 34 26 28 30 32 34 B B组组 24 27 30 33 36 24 27 30 33 36 C C组组 26 29 30 31 34 26 29 30 31 3470 设有甲、乙、丙三名医生,分别对相同的设有甲、乙、丙三名医生,分别对相同的5 5份血样进行份血样进行红细胞计数(万红细胞计数(万/mm3/mm3),), 甲得出了甲得出了560560、540540、500500、460460、440440, 乙得出了乙得出了52
37、0520、510510、500500、490490、480480, 丙得出了丙得出了510510、505505、500500、495495、490490,见下图见下图2 2,三名医生的计数结果得到的均数均为,三名医生的计数结果得到的均数均为500500,5 5个个数值之和均为数值之和均为25002500。71甲医生得出的甲医生得出的5 5个个观察值间的差异观察值间的差异离散程度)较大,离散程度)较大,而丙医生得出的而丙医生得出的5 5个观察值间的差个观察值间的差异(离散程度)异(离散程度)较小。较小。72 1、极差、极差1109020cm104968cm104968cmRRR甲乙丙适用范围:适
38、用范围:任何计量资料,是参考变异指标任何计量资料,是参考变异指标极差极差(R)(R):即一组变量值最大值与最小值之差。:即一组变量值最大值与最小值之差。 73四分位数间距,用四分位数间距,用Q Q 表示:表示: 适用范围:适用范围:适用于各种类型的连续型变量,特别适用于各种类型的连续型变量,特别是偏态分布的资料是偏态分布的资料257513PPQQQ 2、四分位数间距、四分位数间距74 )/(76. 090. 066. 12575ggPPQ 说明有说明有50%女性的发汞值在女性的发汞值在0.90和和1.66之间,其四分位数间距为之间,其四分位数间距为0.76( g/g),中位数为,中位数为1.2
39、6( g/g)。 上例上例 计算四分位数间距计算四分位数间距 75 方差(方差(variance)也称均方差,与标)也称均方差,与标准差准差(standard deviation)都是都是反映一组数反映一组数据的平均离散水平据的平均离散水平的指标。的指标。 适用范围:适用范围:与均数配套用与均数配套用22SS 3、方差与标准差、方差与标准差总体方差、标准差用总体方差、标准差用 、 表示;表示;样本方差、标准差用样本方差、标准差用 、 表示表示. .76 方差的计算公式方差的计算公式NX 22)( ( (通常未知通常未知 ) )1)(22 nXXs( (将原有的单位平方将原有的单位平方) )77
40、样本方差为什么要除以(样本方差为什么要除以(n n1 1) 与自由度(与自由度(degrees of freedomdegrees of freedom)有关。)有关。 自由度是数学名词,在统计学中,自由度是数学名词,在统计学中,n n个数据如不受任何个数据如不受任何条件的限制,则条件的限制,则n n个数据可取任意值,称为有个数据可取任意值,称为有n n个自由度。个自由度。若受到若受到k k个条件的限制,就只有(个条件的限制,就只有(n nk k)个自由度了。计)个自由度了。计算标准差时,算标准差时, n n个变量值本身有个变量值本身有n n个自由度。但受到样本个自由度。但受到样本均数的限制,
41、任何一个均数的限制,任何一个“离均差离均差”均可以用另外的(均可以用另外的(n n1 1)个)个“离均差离均差”表示,所以只有(表示,所以只有(n n1 1)个独立的)个独立的“离均离均差差”。因此只有(。因此只有(n n1 1)个自由度。)个自由度。 11)(2222nnXXnXXS样本方差78 标准差的计算公式标准差的计算公式2()XN2()1XXSn( (通常未知通常未知 ) ) ( (应用非常广泛应用非常广泛 ) ) 79 直接法(小样本):直接法(小样本):22()1XXnSn22()1fXfXfSf频数表法:频数表法:2()1XXSn 标准差的计算标准差的计算或或80例例 用直接法
42、用直接法计算计算甲组甲组儿童身高的标准差儿童身高的标准差5,90 95 100 105 110 500nX222222909510010511050250X 2(500)5025057.91(cm)51S)(91. 715)100110()100105()100100()10095()10090(22222cmS 公式(公式( 3-6 )81同理得:乙组:3.16(cm)S,丙组:2.92(cm)S。 可见:甲组可见:甲组5名儿童的身高的变异名儿童的身高的变异程度最大,丙组最小。程度最大,丙组最小。82120120名成年男子血清铁含量均数、标准差计算表(加权法)名成年男子血清铁含量均数、标准差
43、计算表(加权法) 组段 频数(f) 组中值(X0) fX 0 fX02 (1) (2) (3) (4)=(2)(3) (5)=(3)(4) 6 8 10 12 14 16 18 20 22 24 26 2830 合计 120(f) 2228(fX0) 43640(fX02)1 3 6 8 12 20 27 12 10 8 4 1 7 27 66 104 180 340 513 378 276 200 108 29 7 9 11 13 15 17 19 21 23 25 27 29 49 243 726 1352 2700 5780 9747 7938 6348 5000 2916 841 Lm
44、olfffXfXS/37. 41120120/2228436401/2202083o标准差的基本内容是标准差的基本内容是 “ “离均差离均差”,它显,它显示一组变量值与其均数的间距,故标准示一组变量值与其均数的间距,故标准差差直接、平均、总结直接、平均、总结描述了变量值的离描述了变量值的离散程度。散程度。 84表示数据表示数据分布的离散程度,分布的离散程度,与与均数配套均数配套 使用,常用于对称分布资料。使用,常用于对称分布资料。常用常用 作为计量资料数字特征的描作为计量资料数字特征的描 述。述。结合均数结合均数描述正态分布描述正态分布的特征,并确定的特征,并确定 医学参考值范围。医学参考值范
45、围。可用来计算可用来计算均数的标准误均数的标准误。SX 标准差的应用标准差的应用85100%SCVXM变异系数变异系数CV ,其计算公式为其计算公式为M可用于可用于观察指标单位不同时观察指标单位不同时,如身高与体,如身高与体 重的变异程度的比较。重的变异程度的比较。M或用于或用于均数相差较大时均数相差较大时,如儿童身高与成,如儿童身高与成 人身高变异程度的比较。人身高变异程度的比较。4、变异系数、变异系数(coefficient of variation)86例一:例一: 某地某地120名名7岁男孩身高的均数岁男孩身高的均数为为123.10cm,标准差为,标准差为4.71cm;体重均;体重均数
46、为数为22.29kg,标准差为,标准差为2.26kg,比较其比较其变异度。变异度。87年龄组年龄组人数人数均数均数标准差标准差 变异系数变异系数(%) 33.5 100 96.1 3.1 3.2 3035 100170.2 5.0 2.93例二例二 : 某某地不同年龄组男子身高地不同年龄组男子身高(cm)的变异程度。的变异程度。88变异系数的两个特点变异系数的两个特点o 没有单位没有单位: :反映标准差占均数的百分比或标准差是均反映标准差占均数的百分比或标准差是均数的几倍数的几倍o 不受平均水平的影响不受平均水平的影响反映的是以均数为基数的相对变异的大小反映的是以均数为基数的相对变异的大小89
47、o绝对变异受平均水平的影响绝对变异受平均水平的影响o相对变异排除了平均水平的影响相对变异排除了平均水平的影响90 小小 结结1 1、平均数与变异度的关系平均数与变异度的关系 (1 1)平均数表示的)平均数表示的集中性集中性与变异度表示的与变异度表示的离散离散性性,是从两个不同的角度阐明计量资料的特征,是从两个不同的角度阐明计量资料的特征 变异度越小,平均数对各变量值的代表性越好变异度越小,平均数对各变量值的代表性越好 变异度越大,平均数对各变量值的代表性越差变异度越大,平均数对各变量值的代表性越差 91(2 2)通常,平均数与变异指标一起描述资料的)通常,平均数与变异指标一起描述资料的分布特征
48、。分布特征。用均数和标准差描述正态分布资料的特征;用均数和标准差描述正态分布资料的特征;用中位数和四分位数间距描述偏态分布资料用中位数和四分位数间距描述偏态分布资料的特征。的特征。 922、资料的指标描述、资料的指标描述o是统计描述的一个重要的组成部分是统计描述的一个重要的组成部分o定量资料的统计指标定量资料的统计指标n平均水平指标:算术均数、几何均数、中平均水平指标:算术均数、几何均数、中位数位数 n离散程度指标:全距、四分位数间距、方离散程度指标:全距、四分位数间距、方差、标准差、变异系数。差、标准差、变异系数。9394第四节第四节 描述描述分布形态特征数分布形态特征数 描述分布形态的统计
49、量:描述分布形态的统计量:偏度系数与峰度系数偏度系数与峰度系数。偏度系数偏度系数(coefficient of skewness(coefficient of skewness,SKEWSKEW) ) :理论上总体偏度系数为理论上总体偏度系数为0 0时,分布是对称的;时,分布是对称的;取正值时,分布为负偏峰;取负值时分布为取正值时,分布为负偏峰;取负值时分布为正偏峰。正偏峰。 样本偏度系数计算公式:样本偏度系数计算公式: niisxxnnnSKEW13)()2)(1(95峰度系数峰度系数(coefficient of kurtosis(coefficient of kurtosis,KURTKURT) ) 理论上理论上, , 正态分布的总体峰度系数为正态分布的总体峰度系数为0 0;取负值时,其分布较正态分布的峰平阔;取取负值时,其分布较正态分布的峰平阔;取正值时,其分布较正态分布的峰尖峭。正值时,其分布较正态分布的峰尖峭。 样本峰度系数样本峰度系数 ) 3)(2() 1( 3)() 3)(2)(1() 1(214nnnsxxnnnnnKURTnii96
限制150内