数值变量资料的统计描述.pptx
《数值变量资料的统计描述.pptx》由会员分享,可在线阅读,更多相关《数值变量资料的统计描述.pptx(137页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第九章 数值变量资料的统计分析第1页/共137页统计学描述:选用恰当统计量结合恰当统计图、表,描述资料的分布规律或数理特征。统计学推断:样本总体,统计量参数。分析数据:第2页/共137页第一节 数值变量资料的统计描述n数值变量资料的统计描述,描述什么?n描述的对象:数值变量资料,群体第3页/共137页群群体体特特征征的的描描述述:一一般般先先有有一一个个变变量量,然然后后会会有有一系列的变量值,这些变量值就是一个一系列的变量值,这些变量值就是一个群体群体。针针对对这这样样一一个个群群体体,你你想想知知道道什什么么?(共共性性与与特特性,有群体就有变异)性,有群体就有变异)同同样样是是计计量量资
2、资料料,但但其其特特点点又又各各不不相相同同(分分布布问问题:正态与非正态,计算均数时也不同)题:正态与非正态,计算均数时也不同)第4页/共137页 对对数数值值变变量量资资料料进进行行统统计计分分析析的的一一般般步步骤骤,是是先先对对观观察察测测量量得得到到的的变变量量值值(即即观观察察值值)进进行行统统计计描描述述,再再在在此此基基础础上上进进行行深深入入的的统统计计推推断断。统统计计描描述述的的工工作作主主要要是是在在编编制制频频数数表表的的基基础上描述资料的础上描述资料的集中位置集中位置和和离散程度离散程度。第5页/共137页主要内容频数表频数表集中趋势集中趋势离散趋势离散趋势正态分布
3、正态分布正常值范围估计正常值范围估计第6页/共137页一、数值变量资料的频数分布 数值变量资料进行统计描述需要根据资料的分布类型选择合适的统计指标,因此首先要通过频数分布表或分布图了解资料的分布特征。(一)编制频数分布表和绘制频数分布图 第7页/共137页 频数:当汇总大量的原始数据时,把数据按类型分组,其中每个组的数据个数,称为该组的频数。频数表(频数分布):表示各组及它们对应的组频数的表,为频数表或频数分布。第8页/共137页例9.1 某地用随机抽样的方法对140名健康成年男性血清尿素氮(BUN)浓度进行检测,所得数据如下,请编制频数表和观察频数分布情况。6.005.283.905.304
4、.203.905.605.664.104.004.503.774.344.304.225.305.133.794.805.204.702.945.904.502.105.605.902.854.905.633.214.663.005.963.454.223.504.233.903.884.244.882.483.403.263.213.604.532.734.154.604.354.965.615.875.014.335.744.873.963.003.933.155.003.443.502.854.874.603.404.793.026.234.982.895.826.305.205.403
5、.002.804.434.505.526.404.865.904.703.474.664.785.702.264.103.705.403.704.374.206.104.805.105.552.975.113.263.046.014.022.692.525.216.554.284.455.154.455.373.803.734.492.442.763.333.016.433.552.63第9页/共137页组距分组的几个概念组距分组的几个概念1.下 限:一个组的最小值2.上 限:一个组的最大值3.组 距:上限与下限之差4.组中值:下限与上限之间的中点值下限值+上限值2组中值第10页/共137页频
6、数表的编制步骤频数表的编制步骤:(1)求极差(range):即最大值与最小值之差,又称为全距。R=X最大-X最小6.552.10=4.45(mmol/l)(2)决定组数、组段和组距:根据研究目的和样本含量n 确定分组组数。相邻两组段下限值之差称组距,组距=极差/组数。为方便计,组距为极差的十分之一,再略加调整。本例拟分12组。4.45/12 =0.37 0.4(mmol/l)制定频数表的目的是为了简化资料,显示出数据的分布规律,故组段数不易过多,但也不能过少,否则会掩盖数据的分布规律。第11页/共137页(3)列出组段 每个组段的起点为该组下限,终点为上限,上限下限组距,第一组段包含最小值,最
7、后组段包含最大值。各组段不能重叠,即同一个数据不能出现在两个组段内,所以每一个组段都应该是半开半闭区间:下限,上限)第一个组段:2.00,第二个组段:2.40第十二个组段:6.406.80或6.40,6.80*:最后一个组段应该同时标明上限和下限第12页/共137页(4)列表划记:采用划记法分别将原始资料中各变量值在频数表中列出来,并且统计各组段变量值的个数,即频数。14014084.29 84.29 13.57 13.57 15.71 15.71 9.29 9.29 22221313正正正正2.802.80-100.00 100.00-合计合计100.00 100.00 2.14 2.14
8、1401403 36.406.406.806.8097.86 97.86 4.28 4.28 1371376 6正正6.006.0093.57 93.57 9.29 9.29 1311311313正正正正5.605.6010.00 10.00 1181181414正正正正5.205.2074.29 74.29 11.43 11.43 1041041616正正正正4.804.8062.86 62.86 12.86 12.86 88881818正正正正正正4.404.4050.00 50.00 70701919正正正正正正4.004.0036.43 36.43 10.71 10.71 515115
9、15正正正正正正3.603.6025.71 25.71 10.00 10.00 36361414正正正正3.203.206.43 6.43 5.00 5.00 9 97 7正正2.402.401.43 1.43 1.43 1.43 2 22 22.002.00累计频率(累计频率(%)%)频率(频率(%)累计频数累计频数频数频数划计划计尿素氮浓度尿素氮浓度第13页/共137页频数分布图第14页/共137页(二)、频数表和频数分布图用途(二)、频数表和频数分布图用途1 1描述频数分布的类型描述频数分布的类型(对称分布(对称分布、偏态分布)、偏态分布)2 2描述频数分布的特征描述频数分布的特征(集中
10、趋势集中趋势 离散趋势)离散趋势)3 3便于发现一些特大或特小的可疑值便于发现一些特大或特小的可疑值4 4便于便于进一步做统计分析进一步做统计分析和处理(加权)和处理(加权)第15页/共137页(1 1)对称分布)对称分布 :若各组段的频数以中心位置左右两侧大体对称,若各组段的频数以中心位置左右两侧大体对称,就认为该资料是对称分布就认为该资料是对称分布1描述频数分布的类型(对称分布、偏态分布)对称分布对称分布对称分布第16页/共137页(2 2)偏态分布)偏态分布 :1 1)右偏态分布(正偏态分布):右侧的组)右偏态分布(正偏态分布):右侧的组段数多于左侧的组段数,频数向右侧拖尾。段数多于左侧
11、的组段数,频数向右侧拖尾。2 2)左偏态分布(负偏态分布)左偏态分布(负偏态分布):左侧的组段左侧的组段数多于右侧的组段数,频数向左侧拖尾。数多于右侧的组段数,频数向左侧拖尾。第17页/共137页正偏态分布正偏态分布正偏态分布正偏态(右偏态)正偏态分布第18页/共137页负偏态(左偏态)负偏态分布负偏态分布负偏态分布负偏态分布第19页/共137页频数分布的类型对称分布对称分布对称分布正偏态分布正偏态分布正偏态分布负偏态分布负偏态分布负偏态分布返回第20页/共137页2 2描述频数分布的特征描述频数分布的特征图图9-19-1(P P288288)数据的频数分布特征:)数据的频数分布特征:数据数据
12、变异(离散)变异(离散)的范围在的范围在 2.002.006.80(mmol/L6.80(mmol/L )数据数据集中(平均)集中(平均)的组段的组段在在 2.802.806.00(mmol/L6.00(mmol/L )之间,尤以组段的人数之间,尤以组段的人数 3.603.605.205.20 (mmol/L(mmol/L )最多最多,且上下组段的频数且上下组段的频数分布基本对称。分布基本对称。返回第21页/共137页3 3便于发现一些特大或特小的可疑便于发现一些特大或特小的可疑值值返回第22页/共137页二、集中趋势的描述 (:掌握描述集中趋势指标的概念、计算和应用条件掌握描述集中趋势指标的
13、概念、计算和应用条件)统统计计上上使使用用平平均均数数这这一一指指标标体体系系来来描描述述一一组组变变量量值值的集中趋势或平均水平。的集中趋势或平均水平。平平均均值值是是一一组组(群群)数数据据典典型型或或有有代代表表性性的的值值。这这个个值值趋趋向向于于落落在在根根据据数数据据大大小排列的数据的中心小排列的数据的中心。第23页/共137页常用的平均数有常用的平均数有:算术均数(均数)(mean)几何均数(geometric mean)中位数(median)百分位数(percentile)第24页/共137页(一)、算术均数算术均数:简称均数(算术均数:简称均数(mean)定义:是一组变量值之
14、和除以变量值个数所得的商。意义:一组呈对称分布的观察值在数量上的平均水平。应用:正态分布(或近似正态或对称分布)资料。总体均数:样本均数:第25页/共137页1、计算方法(1 1)直接计算法)直接计算法 公式:例例9-2 9-2 某某班班级级中中1010名名女女孩孩身身高高(cmcm)的的测测量量值值分分别别为为:132.4132.4,151.3151.3,126.8126.8,138.1138.1,146.6146.6,139.5139.5,154.2154.2,147.5147.5,148.1148.1,137.6137.6,求算术平均数。,求算术平均数。=(132.4+151.3+126
15、.8+138.1+146.6+139.5+154.2+147.5+148.1+=(132.4+151.3+126.8+138.1+146.6+139.5+154.2+147.5+148.1+137.6)/10=142.2(cm)137.6)/10=142.2(cm)第26页/共137页(2)加权法(利用频数表)公式:k:频数表的组段数 f:频数 :组中值,其中i=1,2,k。第27页/共137页组段组段组段组段频数频数频数频数f fi i组中值组中值组中值组中值x xi if fi ix xi if fi ix xi i2 22.002.002.002.002 2 2 22.202.204.4
16、04.409.689.682.402.402.402.407 7 7 72.602.6018.2018.2047.3247.322.802.802.802.80131313133.003.0039.0039.00117.00117.003.203.203.203.20141414143.403.4047.6047.60161.84161.843.603.603.603.60151515153.803.8057.0057.00216.60216.604.004.004.004.00191919194.204.2079.8079.80335.16335.164.404.404.404.401818
17、18184.604.6082.8082.80380.88380.884.804.804.804.80161616165.005.0080.0080.00400.00400.005.205.205.205.20141414145.405.4075.6075.60408.24408.245.605.605.605.60131313135.805.8075.4075.40437.32437.326.006.006.006.006 6 6 66.206.2037.2037.20230.64230.646.406.406.406.406.806.806.806.803 3 3 36.606.6019.8
18、019.80130.68130.68合计合计合计合计140 140 140 140(f fi i)616.80(616.80(f fi ix xi i)2875.362875.36表9-3 140名成年男子血清BUN浓度(mmol/L)均数与标准差计算用表第28页/共137页(二二)、几何均数(几何均数(geometric mean)u定义:用G 表示,是将n个观察值x的乘积再开n次方的方根(或各观察值x对数值均值的反对数)。u其适用条件是:当一组观察值为非对称分布且其差距较大时,用均数表示其平均水平会受少数特大或特小值影响;数值按大小顺序排列后,各观察值呈倍数关系或近似倍数关系。第29页/共
19、137页几何均数计算公式:几何均数:变量对数值的算术均数的反对数。n计算几何均数的观察值应大于零 1.直接法(当观察例数少(当观察例数少 n50 n100 中位数为多少?第39页/共137页(2 2).频数表计算中位数和百分位频数表计算中位数和百分位数数下限值L上限值Ui;fm中位数M第40页/共137页例例 频数表中位数的计算频数表中位数的计算血糖血糖(mol/L)(mol/L)组段组段组中值组中值()频数频数(f)(f)累计频数(累计频数(ff)频率频率(%)(%)累计频率累计频率(%)(%)3.603.603.70 3.70 3 3 3 32.27 2.27 2.27 2.27 3.80
20、3.803.90 3.90 3 3 6 6 2.27 2.27 4.55 4.55 4.004.004.10 4.10 8 8 14 14 6.06 6.06 10.61 10.61 4.204.204.30 4.30 23 23 37 37 17.42 17.42 28.03 28.03 4.404.404.50 4.50 24 24 61 61 18.18 18.18 46.21 46.21 4.604.604.70 4.70 25 25 86 86 18.94 18.94 65.15 65.15 4.804.804.90 4.90 20 20 106 106 15.15 15.15 80
21、.30 80.30 5.005.005.10 5.10 12 12 118 118 9.09 9.09 89.39 89.39 5.205.205.30 5.30 10 10 128 128 7.58 7.58 96.97 96.97 5.405.405.605.605.50 5.50 4 4 132 132 3.03 3.03 100.00 100.00 合计合计132(fi)132(fi)100.00 100.00 n n4.60+(0.20/25)*132/2-61=4.64第41页/共137页 百分位数示意图(二)百分位数(percentile)n n把一组数据从小到把一组数据从小到大
22、排列,分成大排列,分成100100等份,各等份含等份,各等份含1%1%的观察值,分割界的观察值,分割界限上的数值就是百限上的数值就是百分位数。分位数。n中位数是第50百分位数,用P50表示。第42页/共137页第43页/共137页公式:公式:第44页/共137页 当 时,公式(9-7)即为中位数的计算公式:第45页/共137页血铅(血铅(umol/l)频数频数f累计频数累计频数fi累计频数(累计频数(%)022226.470.25365817.060.50238123.820.754212336.181.004116448.241.255521964.411.5036255751.752828
23、383.242.001529887.652.252432294.712.50632896.472.75933799.123.003.253340100例 9.7 为了解本地儿童体内铅负荷的现状,某市儿保所2006年以随机抽样的方法调查了该市340名7岁以下儿童的血铅含量,试计算该资料的中位数和P25、P75、P95第46页/共137页第47页/共137页三种平均数的特点v算术均数:算术均数:通常被认为是最佳集中趋势的度量值。如通常被认为是最佳集中趋势的度量值。如果资料观察值含有少数极端数值(相对的说特大或特果资料观察值含有少数极端数值(相对的说特大或特小值)或资料呈偏态分布,算术均数就变得不稳
24、定而小值)或资料呈偏态分布,算术均数就变得不稳定而失去代表性。失去代表性。正态分布正态分布v几何均数几何均数一般只适宜于一般只适宜于等比级数等比级数资料。对于这类资料,资料。对于这类资料,用几何均数反映集中趋势比算术均数或中位数更合适。用几何均数反映集中趋势比算术均数或中位数更合适。v中位数中位数不受其前后其他数值(特别是极端值)的影响。不受其前后其他数值(特别是极端值)的影响。但如果数据呈明显不同且差异很大,这时中位数可能但如果数据呈明显不同且差异很大,这时中位数可能不适宜作为集中趋势的度量值了。不适宜作为集中趋势的度量值了。偏态分布偏态分布第48页/共137页反反映映集集中中趋趋势势的的指
25、指标标(平平均均数数),表表示示一一组组观观察察值值的的平平均均水水及及集集中中特特性性,并并可可作作为为总总体体的的一一个个代代表表值值加加以以应应用用。但是它没有表达其所代表的但是它没有表达其所代表的总体中各个个体之间的差异总体中各个个体之间的差异。统统计计学学中中把把个个体体间间的的差差异异称称为为变变异异性性(variationvariation)。所所谓谓变变异异性性是是指指在在同同质质条条件件下下的的观观察察单单位位,其其同同一一标标志志的数据间的差异性。的数据间的差异性。用用以以描描述述一一组组数数值值变变量量资资料料观观察察值值之之间间参参差差不不齐齐的的程程度度,即离散程度或
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数值 变量 资料 统计 描述
限制150内