定量资料的统计描述(精品).ppt
《定量资料的统计描述(精品).ppt》由会员分享,可在线阅读,更多相关《定量资料的统计描述(精品).ppt(55页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、定量资料的统计描述定量资料的统计描述北京协和医学院基础学院统计学教研室 徐涛医学统计学课程信箱nbasicstat_n密码:密码:65296408主要内容主要内容n频数分布表的编制和用途n频数分布的特征和类型n集中趋势指标n均数、几何均数、中位数n离散趋势指标n极差、四分位数间距、方差、标准差、变异系数n百分位数定量资料定量资料n定量资料是指每个观察单位某个变量用测量或其他定量方法观察结果,一般有计量单位。n定量资料、数值资料、计量资料(measurement data,quantitative data)n定量资料的各个观察值之间有量的区别,没有性质的不同。连续型资料和离散型资料n连续型资料
2、(continuous data)n理论上在任何两个连续型数据之间都还有无穷多个数据;n只要测量仪器足够精确,连续型数据可以精确到小数点后第无限位,比如体重,在60.1和60.2kg之间理论上存在着无限多个数据。n离散型资料(discrete data)n往往是一种计数,这种计数只能是0和正整数,不会是负数,也没有小数点;n比如心率、脉搏、儿童龋齿个数、血小板数、某年某地交通事故死亡人数等,随机变量和研究资料的类型随机变量和研究资料的类型频数分布表频数分布表 n为了了解资料的分布特征,当观察值很多时,直接从原始数据很难得出概括的印象。这时可以通过资料的整理,编制频数分布表(简称频数表),来显示
3、数据分布的范围、数据最集中的区间和分布的形态。某地儿研所测得该地某地儿研所测得该地150名名12岁健康男童体重岁健康男童体重(kg)原始数据如下,试编制频数表。原始数据如下,试编制频数表。n25.2 34.9 34.3 38.1 41.3 27.8 33.8 37.7 28.4 33.5 47.3 34.8 n30.5 36.2 51.0 38.0 43.8 40.9 37.5 36.6 33.4 47.4 36.4 41.4 n36.5 42.5 33.7 29.3 39.6 37.5 39.6 33.2 32.1 29.9 43.7 33.8 n35.1 37.8 32.4 38.5 28
4、.2 36.5 23.4 35.8 34.1 27.6 42.6 23.1 n37.1 44.0 35.6 44.5 46.5 35.0 31.8 36.4 36.2 47.9 38.7 20.5 n37.1 29.2 38.2 41.1 36.2 43.5 32.8 36.3 31.8 30.6 38.5 39.6 n28.7 33.7 35.1 42.9 20.1 35.4 26.5 42.0 39.6 38.7 35.4 51.2n31.4 34.1 25.3 29.6 38.2 43.7 33.8 24.5 29.2 45.9 32.5 23.5n36.8 27.2 34.0 34.7
5、 44.4 41.2 35.3 42.6 34.1 30.0 31.4 40.8n27.3 48.6 35.8 29.7 45.6 41.8 33.0 28.3 33.3 35.1 40.6 38.2n37.6 25.5 37.3 37.5 41.5 38.4 44.2 43.2 31.5 40.2 34.5 37.4n37.8 33.4 32.2 33.4 32.4 32.8 36.8 45.7 41.2 40.9 36.5 47.9n35.7 39.3 42.2 35.3 30.1 27.2 找出最大值和最小值,计算极差。找出最大值和最小值,计算极差。n极差(R)也叫全距,它是一组变量值中
6、最大值与最小值之差。n最大值为51.2kg,n最小值为20.1kg,n极差R=51.2-20.1=31.1kg。按极差大小决定组段数、组段和组距按极差大小决定组段数、组段和组距n斯梯阶公式:n经验划分:组段数的多少一般根据观察单位的多少来确定,过多或过少均不能更好地反映资料的分布特征,以能够反映频数分布的特点为宜,一般分为815组。n本例初步确定为10个组。按极差大小决定组段数、组段和组距按极差大小决定组段数、组段和组距 n相邻组段下限值之差称为组距,一般分组时取组距相等。n组距=极差/组数,常取整数作组距,取整只是为了方便资料的整理汇总。n本例组距=31.1/10=3.113。按极差大小决定
7、组段数、组段和组距按极差大小决定组段数、组段和组距n每个组段的起点称“下限”,终点称“上限”;n第一组段必须包括最小值,一般取略小于最小值的整数作为第一组的下限,但是第一组的下限值不能等于最小值;n各组段即不重叠,也不能留空隙;n 组段中的横线不能省略,它表示连续型资料;n 最后一个组段应该包括最大值,并且封口,但最后一个组段的上限不能等于最大值。频数表的编制n本例最小值为20.1,故取20为第一组的下限。n第二组下限即20+3=23,余类推。n最后一个组段为5053,包括最大值51.2。n列表划记,统计各组段频数。n计算频率与累计频率。150名名12岁男童体重(岁男童体重(kg)频数分布表)
8、频数分布表 组段组段频数频数f频率(频率(%)累计频数累计频数累计频率(累计频率(%)2021.321.32374.796.026106.71912.7291510.03422.7322516.75939.3353523.39462.7382315.311778.0411812.013590.04485.314395.34753.314898.7505321.3150100.0合计合计150100.0某地某地150名名12岁男童体重频数分布图岁男童体重频数分布图 频数分布的两个特征频数分布的两个特征n如图,体重虽有轻有重,但都向35组段集中,数据大多数集中在3238组段,共83人,占总人数的5
9、5%,这种趋势称为集中趋势集中趋势。n另一方面,随体重逐渐变大或变小,仍有小部分变量值存在,称这种特征为离离散散趋趋势势,其变异程度是可以测定得。n集中趋势和离散趋势是频数分布的两个重要特征,测定其集中趋势和离散趋势就可较全面地分析所研究的事物。频数分布的类型频数分布的类型 n频数分布分为对称分布和偏态分布两种。n对称分布是指集中位置在正中,左右两侧频数分布大体对称,如上图。n某地150名12岁男童体重频数分布图n实际应用中,频数分布的形态很重要,分布不同,计算的统计指标及方法也不同。偏态分布偏态分布n集中位置偏向一侧,频数分布不对称。n正正、右右偏偏态态(峰峰)分分布布:集中位置偏于左侧,频
10、数尾部向右侧延伸,如一些以儿童为主的传染病的年龄分布。n链球菌感染咽炎患者潜伏期分布图(正偏峰分布)n负负、左左偏偏态态(峰峰)分分布布:集中位置偏向右侧,频数尾部向左侧延伸,如一些慢性病患者的年龄分布。n207例某恶性肿瘤患者年龄分布(负偏峰分布)链球菌感染咽炎患者潜伏期分布图链球菌感染咽炎患者潜伏期分布图(正偏峰分布)(正偏峰分布)207例某恶性肿瘤患者年龄分布例某恶性肿瘤患者年龄分布(负偏峰分布)(负偏峰分布)频数表的用途频数表的用途 n作为统计资料描述的一种表达方式,可以揭示资料分布类型与特征。n便于发现资料中远离群体的某些特大或特小的可疑值,必要时经检验后舍去。n作为正态性判断的图示
11、法。n便于计算统计指标和进一步分析处理。集中趋势指标集中趋势指标 n平均数(average)用来描述一组变量的集中趋势、中心位置或平均水平,常作为一组资料的代表值,使资料产生简明概括的印象,又便于组间的比较。n平均数的计算和应用必须具备同质基础。n常用的平均数有均数、几何均数和中位数。均数(均数(mean)n均数是算术均数的简称,它反映了一组观察值在数量上的平均水平。总体均数用希腊字母表示,样本均数用 表示。n均数的计算 均数的计算方法有直接法和加权法,计算机运算中多采用直接法。均数的计算n直接法是将所有性质相同的观察值x1,x2,x3xn,直接相加再除以观察值的个数n。例:10名12岁健康男
12、童体重(kg)分别为39.6,33.2,32.1,29.9,43.7,33.8,35.1,37.8,32.4,38.5,求平均体重。均数的计算n加权法 当资料中相同观察值较多时,可将相同观察值的个数,即频数f乘以该观察值x,以代替相同观察值逐个相加。对于频数表资料,可用各组段的频数为f,以相应的组中值组中值为x,代入公式计算均数。n组组中中值值:该组段下限和上限的均值,或该组段下限和下一个组段下限的均值。组中值组中值组段组段组中值组中值频数频数f频率(频率(%)2021.521.32324.574.72627.5106.72930.51510.03233.52516.73536.53523.3
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 定量 资料 统计 描述 精品
限制150内