数值变量资料的统计描述1.pptx
《数值变量资料的统计描述1.pptx》由会员分享,可在线阅读,更多相关《数值变量资料的统计描述1.pptx(111页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、2023/3/241第一节 数值变量资料频数分布 数值变量资料进行统计描述需要根据资料的数值变量资料进行统计描述需要根据资料的分布类型选择合适的统计指标,因此首先要通分布类型选择合适的统计指标,因此首先要通过频数分布表或分布图了解资料的分布特征。过频数分布表或分布图了解资料的分布特征。一、频数分布表及其制作一、频数分布表及其制作 第1页/共111页2023/3/242例8.1 某地区2002年5558岁健康成人的空腹血糖(mmol/L)测定值如下,试编制频数表和观察频数分布情况。5.175.564.864.874.745.245.514.464.964.824.905.305.225.584.
2、484.804.64.025.165.364.344.244.644.274.254.444.464.624.874.344.905.254.774.855.074.164.664.704.203.954.094.644.335.214.614.985.244.604.254.785.003.603.604.114.614.084.784.264.444.384.44.794.764.924.604.785.034.354.184.684.654.574.274.994.214.894.714.724.414.384.064.794.964.834.454.514.274.504.315.05
3、5.595.595.085.163.744.365.364.645.094.574.464.564.395.244.614.214.964.344.454.864.504.904.454.494.424.684.565.384.344.464.164.984.294.834.273.683.853.864.564.564.555.165.155.16第2页/共111页2023/3/243编制频数分布表的步骤计计算算极极差差编制频数分布表的步骤确确定定组组数数组组距距计计算算频频数数编编制制表表格格第3页/共111页2023/3/244频数表的编制步骤频数表的编制步骤:(1 1)求极差求极差(r
4、angerange):即最大值与最小值之差,又称):即最大值与最小值之差,又称为全距。为全距。R R5.595.593.60=1.99(mol/L)3.60=1.99(mol/L)(2 2)决定组数、组段和组距:决定组数、组段和组距:根据研究目的和样本含量根据研究目的和样本含量n n确定分组组数。相邻两组段下限值之差称组距,组距确定分组组数。相邻两组段下限值之差称组距,组距=极极差差/组数,为方便计,组距为极差的十分之一组数,为方便计,组距为极差的十分之一,再略加调再略加调整。整。1.99/10 =0.199 0.2(mol/L)1.99/10 =0.199 0.2(mol/L)(3 3)列出
5、组段列出组段:第一组段的下限必须包含最小值,最:第一组段的下限必须包含最小值,最后一个组段上限必须大于或等于最大值。后一个组段上限必须大于或等于最大值。3.63.6 3.8 3.8 5.2 5.2 5.4 5.4 5.6 5.6(4 4)划记计数划记计数:用划记法将所有数据归纳到各组段,:用划记法将所有数据归纳到各组段,得到各组段的频数。得到各组段的频数。第4页/共111页2023/3/245第5页/共111页2023/3/246表8-1 某地区2002年5558岁健康成人的空腹血糖(mmol/L)测定值的频数分布表血糖(mol/L)组段组中值(xi)频数(f)累计频数(f)频率(%)累计频率
6、(%)3.603.70 3 32.27 2.27 3.803.90 3 6 2.27 4.55 4.004.10 8 14 6.06 10.61 4.204.30 23 37 17.42 28.03 4.404.50 24 61 18.18 46.21 4.604.70 25 86 18.94 65.15 4.804.90 20 106 15.15 80.30 5.005.10 12 118 9.09 89.39 5.205.30 10 128 7.58 96.97 5.405.605.50 4 132 3.03 100.00 合计132100.00 第6页/共111页2023/3/247血糖
7、血糖(mol/L)人人数数图8-1某地区2002年5558岁健康成人的空腹血糖(mmol/L)测定值的频数分布图 二、频数分布图二、频数分布图第7页/共111页2023/3/248 同一组资料,不同的人编制的频数表,结果不尽相同,允许几个合理的结果并存。第8页/共111页2023/3/249三、频数表和频数分布图用途三、频数表和频数分布图用途1描述频数分布的类型(对称分布、偏态分布)(对称分布、偏态分布)2描述频数分布的特征(集中趋势集中趋势 离散趋势)离散趋势)3便于发现一些特大或特小的可疑值4便于进一步做统计分析和处理(加权)第9页/共111页2023/3/2410(1 1)对称分布 :若
8、各组段的频数以中心位置左右两侧大体对若各组段的频数以中心位置左右两侧大体对称,就认为该资料是对称分布称,就认为该资料是对称分布1描述频数分布的类型(对称分布、偏态分布)描述频数分布的类型(对称分布、偏态分布)第10页/共111页2023/3/2411(2)偏态分布:1)右偏态分布(正偏态分布):右侧的组段数多于左侧的组段数,频数向右侧拖尾。2)左偏态分布(负偏态分布):左侧的组段数多于右侧的组段数,频数向左侧拖尾。第11页/共111页2023/3/2412正偏态(右偏态)正偏态(右偏态)负偏态(左偏态)负偏态(左偏态)返回第12页/共111页2023/3/2413频数分布的类型对称分布对称分布
9、对称分布正偏态分布正偏态分布正偏态分布负偏态分布负偏态分布负偏态分布第13页/共111页2023/3/24142 2描述频数分布的特征描述频数分布的特征图8-1(P154)数据的频数分布特征:数据变异(离散)的范围在3.605.60(mol/L)数据集中(平均)的组段在4.205.00(mol/L)之间,尤以组段的人数4.604.80(mol/L)最多。且上下组段的频数分布基本对称。返回第14页/共111页2023/3/24153便于发现一些特大或特小的可疑值返回第15页/共111页2023/3/2416第二节 集中趋势指标统计上使用统计上使用平均数(平均数(averageaverage)这一
10、指标体系来这一指标体系来描述一组变量值的集中趋势或平均水平。描述一组变量值的集中趋势或平均水平。常用的平均数有常用的平均数有:算术均数(均数)(算术均数(均数)(meanmean)几何均数(几何均数(geometric meangeometric mean)中位数中位数 (medianmedian)百分位数(百分位数(percentilepercentile)第16页/共111页2023/3/2417一、算术均数算术均数:简称均数(算术均数:简称均数(meanmean)定义:是一组变量值之和除以变量值个数所得的商。均数适用于资料呈正态分布(或近似正态或对称分布)资料。总体均数:样本均数:x第1
11、7页/共111页2023/3/24181、计算方法(1)直接计算法 公式公式:例例8.28.2有有9 9名健康成人的空腹胆固醇测定值名健康成人的空腹胆固醇测定值(mol/L)(mol/L)为为:5.61:5.61,3.963.96,3.673.67,4.994.99,4.244.24,5.065.06,5.205.20,4.794.79,5.935.93求算术平均数。求算术平均数。x=(5.61+3.96+3.67+4.99+4.24+5.06+5.20+4.79)/9x=(5.61+3.96+3.67+4.99+4.24+5.06+5.20+4.79)/9 =4.83(mol/L)=4.83
12、(mol/L)第18页/共111页2023/3/2419例8.1 某地区2002年5558岁健康成人的空腹血糖(mmol/L)测定值如下,试编制频数表和观察频数分布情况。5.175.175.565.564.864.864.874.874.744.745.245.245.515.514.464.464.964.964.824.824.904.905.305.305.225.225.585.584.484.484.804.804.64.64.024.025.165.165.365.364.344.344.244.244.644.644.274.274.254.254.444.444.464.464
13、.624.624.874.874.344.344.904.905.255.254.774.774.854.855.075.074.164.164.664.664.704.704.24.23.953.954.094.094.644.644.334.335.215.214.614.614.984.985.245.244.604.604.254.254.784.785.005.003.603.604.114.114.614.614.084.084.784.784.264.264.444.444.384.384.44.44.794.794.764.764.924.924.604.604.784.785
14、.035.034.354.354.184.184.684.684.654.654.574.574.274.274.994.994.214.214.894.894.714.714.724.724.414.414.384.384.064.064.794.794.964.964.834.834.454.454.514.514.274.274.504.504.314.315.055.055.595.595.085.085.165.163.743.744.364.365.365.364.644.645.095.094.574.574.464.464.564.564.394.395.245.244.614
15、.614.214.214.964.964.344.344.454.454.864.864.504.504.904.904.454.454.494.494.424.424.684.684.564.565.385.384.344.344.464.464.164.164.984.984.294.294.834.834.274.273.683.683.853.853.863.864.564.564.564.564.554.555.165.165.155.155.165.16x=(5.17+5.56+x=(5.17+5.56+5.15+5.16)/132=4.648(mol/L)+5.15+5.16)/
16、132=4.648(mol/L)第19页/共111页2023/3/2420(2)加权法(利用频数表)公式:k:频数表的组段数 f:频数 :组中值,其中i=1,2,k。第20页/共111页2023/3/2421表8-1 某地区2002年5558岁健康成人的空腹血糖(mmol/L)测定值的频数分布表血糖(mol/L)组段频数()组中值()3.603 3.70 11.10 41.07 3.803 3.90 11.70 45.63 4.008 4.10 32.80 134.48 4.2023 4.30 98.90 425.27 4.4024 4.50 108.00 486.00 4.6025 4.70
17、 117.50 552.25 4.8020 4.90 98.00 480.20 5.0012 5.10 61.20 312.12 5.2010 5.30 53.00 280.90 5.405.604 5.50 22.00 121.00 合计132614.202878.92 x=614.2/132=4.653(mol/L)x=614.2/132=4.653(mol/L)第21页/共111页2023/3/2422二、几何均数(geometric mean)定义:用G表示,是将n个观察值x的乘积再开n次方的方根(或各观察值x对数值均值的反对数)。其适用条件是:当一组观察值为非对称分布且其差距较大时,
18、用均数表示其平均水平会受少数特大或特小值影响;数值按大小顺序排列后,各观察值呈倍数关系或近似倍数关系。第22页/共111页2023/3/2423几何均数计算公式:几何均数:几何均数:变量对数值的变量对数值的算术均数的反对数。算术均数的反对数。n n计算几何均数的观察值应大于零 第23页/共111页2023/3/2424例8.3 有有7 7份血清的抗体效价份血清的抗体效价分别为分别为1:2,1:4,1:8,1:16,1:2,1:4,1:8,1:16,1:32,1:64,1:128,1:32,1:64,1:128,求平均抗体效求平均抗体效价。价。第24页/共111页2023/3/2425(2)加权
19、法(当观察例数多时采用)公式:第25页/共111页2023/3/2426例8.4 有有6060人的血清抗体效价,分别为人的血清抗体效价,分别为:7:7人人1:51:5,1111人人1:101:10,2222人人1:201:20,1212人人1:401:40,8 8人人1:801:80,求平均抗体效价。,求平均抗体效价。n n50人的血清平均抗体效价为1:20.705。第26页/共111页2023/3/2427例例8.4 8.4 有有6060人的血清抗体效价,求其平均抗体效价人的血清抗体效价,求其平均抗体效价第27页/共111页2023/3/2428计算几何均数应该注意的事项v变量值中不能有0或
20、负数,因为0和负数不能取对数。v不能同时有正有负。若全部是负值,计算时可先把负号去掉,得出结果后,再加上负号。第28页/共111页2023/3/2429三、三、中位数与百分位数中位数与百分位数(一)中位数(median)q定义:用符号定义:用符号M M表示,中位数是把一组观察值,表示,中位数是把一组观察值,按大小按大小顺序排列顺序排列,位置居中的数值(位置居中的数值(n n为奇数)或位置居中的两为奇数)或位置居中的两个数值的均值(个数值的均值(n n为偶数)。为偶数)。q其适用情况有:其适用情况有:当资料呈明显的偏态分布;当资料呈明显的偏态分布;资料一端或两端无确定数值(如大于或小于某数值);
21、资料一端或两端无确定数值(如大于或小于某数值);资料的分布情况不清楚资料的分布情况不清楚。MMe e50%50%第29页/共111页2023/3/2430计算公式:n为奇数时为奇数时n为偶数时为偶数时第30页/共111页2023/3/2431例8.5 7 7名正常人的血压名正常人的血压(舒张压舒张压)测测定值定值(mmHg)为为:72,75,76,77,81,82,86,求求中位数中位数。n n从小到大排列:72,75,76,77,81,82,86n n若又观察了一个人的血压,为87(mmHg),此时(77+81)/2=79(mmHg)第31页/共111页2023/3/2432 例:1,3,7
22、,5,100 中位数为多少?第32页/共111页2023/3/2433频数表资料的中位数频数表资料的中位数(P157公式8.5)下限值下限值L L上限值上限值U Ui;fm中位数中位数M M第33页/共111页2023/3/2434例例8.18.1频数表中位数的计算频数表中位数的计算血糖(mol/L)组段组中值()频数(f)累计频数(f)频率(%)累计频率(%)3.603.70 3 32.27 2.27 3.803.90 3 6 2.27 4.55 4.004.10 8 14 6.06 10.61 4.204.30 23 37 17.42 28.03 4.404.50 24 61 18.18
23、46.21 4.604.604.70 4.70 25 25 86 86 18.94 18.94 65.15 65.15 4.804.90 20 106 15.15 80.30 5.005.10 12 118 9.09 89.39 5.205.30 10 128 7.58 96.97 5.405.605.50 4 132 3.03 100.00 合计132(fi)100.00 n n4.60+(0.20/25)*132/2-61=4.64第34页/共111页2023/3/2435 百分位数示意图百分位数示意图(二)百分位数(二)百分位数(percentile)n n把一组数据从小到大排列,分成1
24、00等份,各等份含1%的观察值,分割界限上的数值就是百分位数。n n中位数是第50百分位数,用P5050表示。第35页/共111页2023/3/2436第36页/共111页2023/3/2437Trunc()取整函数 设有设有X个原始数据从小到大排列,第个原始数据从小到大排列,第X百分位数的计算公式为:百分位数的计算公式为:1 1直接计算法直接计算法当当为带有小数位时:为带有小数位时:当当为为整数时:整数时:第37页/共111页2023/3/2438例例 对某医院细菌性痢疾治愈者的住院天数统计,对某医院细菌性痢疾治愈者的住院天数统计,120名患者的住院天数从小到大排列如下,试求第名患者的住院天
25、数从小到大排列如下,试求第5百分位数和第百分位数和第99百分位数。百分位数。,为整数:患者编号患者编号:住院天数住院天数:(1)n=120,第38页/共111页2023/3/2439带有小数 (2)故取整故取整trunc(118.8)=118第39页/共111页2023/3/24402 2频数表法频数表法 公式:第40页/共111页2023/3/2441 当 时,公式(8.5)即为中位数的计算公式:第41页/共111页2023/3/2442 例8.1 试分别求例8.1频数表的第25、第75百分位数。P P25254.20+0.204.20+0.20(132(13225%25%14)/2314)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数值 变量 资料 统计 描述
限制150内