计量资料的统计描述.ppt.ppt
《计量资料的统计描述.ppt.ppt》由会员分享,可在线阅读,更多相关《计量资料的统计描述.ppt.ppt(114页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、医学统计学医学统计学计量资料的统计描述计量资料的统计描述大理学院大理学院巫秀美2012年10月18日Refreshu如何学好医学统计学学习目标:工具课,学以致用。掌握基本概念统计方法的适用的条件、基本思想能够进行计算分析如何进行科学的判断?u直观的看,近几年全球的地震活动似乎越来越活跃。地震的强度和次数仿佛有增加的趋势u科学的判断:收集数据:每年发生很多次地震 整理数据:分布,指标 分析数据:各年对比,趋势分析 解释数据:得出结论,结论的可靠性u统计学:从数据到结论(到决策)统计学:从数据到结论(到决策)统计研究的过程收集数据收集数据(取得数据取得数据取得数据取得数据)整理数据整理数据(处理数
2、据处理数据处理数据处理数据)解释数据(结果说明结果说明)分析数据分析数据(研究数据研究数据)实际问题实际问题统计设计统计学基本概念u随机事件(random event)v.s.必然事件u变异(variation)v.s.同质(homogeneity)u总体(population)v.s.样本(sample)u抽样研究与抽样误差(sampling error)u参数(parameter)v.s.统计量(statistics)随机事件的概念u随机现象:在基本条件相同基本条件相同的情况下,却可能出现不同的结果不同的结果,究竟出现哪一种结果,随“机遇”而定,带有偶然性。内在的规律性?如何研究它们?u研
3、究随机现象:进行观察或实验,这些观察和实验统称为随机试验随机试验(Experiment),把基本条件每实现一次称为进行一次试验试验,试验的结果中所发生的现象叫做事件事件。例如:掷一次硬币,是一次随机试验。随机事件的概念 ()导体通电时,发热 ()抛一石块,下落 ()在常温下,焊锡融化 ()在标准大气压下且温度 参数为未知总 体 与 样 本u统计主要问题在于如何透过样本的统计量来推估或检证总体的参数。u样本统计量(Sample statistics)是用来描述样本特性的数量。uSample mean x、sample variance S2,and the sample proportion p
4、uSample statistics为观察到的样本之函数,样本的统计量随着取样的不同,会有不同的变化。因此,样本统计量本身可以被视为是一随机变量。描述统计学描述统计学与与推断统计学推断统计学u描述统计学(descriptive statistics):计算各种指标来反应数据的构成分布,以及用一定的表格和图形把结果显示出来是统计的基本方法但是受数据采集的局限(局部样本)u推断统计学(inferential statistics):在概率论的基础上,由随机样本的数量特征来推断总体的数量特征,并作出可靠程度的估计或检验样本的数量特征的概率分布与总体数量特征之间存在客观联系是现代统计学的主流描述统计学
5、描述统计学与与推断统计学推断统计学u描述统计学描述统计学与与推断统计学推断统计学的关系的关系二者是统计学发展的不同阶段:大致以二者是统计学发展的不同阶段:大致以2020世纪世纪2020年代年代小样本分布理论的出现为界小样本分布理论的出现为界之前集中在数据的采集和指标的计算上;之前集中在数据的采集和指标的计算上;之后推断统计学蓬勃发展,称为主流。之后推断统计学蓬勃发展,称为主流。推断统计学推断统计学不能代替不能代替描述统计学:描述统计学:纵有难易之别,绝无(层次)高低之分纵有难易之别,绝无(层次)高低之分描述统计是基本的统计方法,是推断统计的基础描述统计是基本的统计方法,是推断统计的基础描述统计
6、学有助于培养对数据的描述统计学有助于培养对数据的“感觉感觉”(统计(统计观念)观念)描述统计与推断统计的关系描述统计与推断统计的关系反映客观现反映客观现象的数据象的数据总体内在的总体内在的数量规律性数量规律性推断统计推断统计(利用样本信息和概率(利用样本信息和概率论对总体的数量特征进论对总体的数量特征进行估计和检验等)行估计和检验等)概率论概率论(包括分布理论、大数定律(包括分布理论、大数定律和中心极限定理等)和中心极限定理等)描述统计描述统计(统计数据的搜集、整(统计数据的搜集、整理、显示和分析等)理、显示和分析等)总体数据总体数据样本数据样本数据统计指标和指标体系u统计指标统计指标(指标指
7、标):说明总体的综合数量特):说明总体的综合数量特征的概念和数值。征的概念和数值。u一个一个完整的完整的统计指标包括统计指标包括指标名称指标名称和和指标数指标数值值两部分。两部分。指标名称指标名称是指标本质的抽象概括,对总体数量特是指标本质的抽象概括,对总体数量特征的规定性,它一般反映一定的社会经济范畴;征的规定性,它一般反映一定的社会经济范畴;有时也被当作统计指标有时也被当作统计指标;指标数值指标数值是指标量的规定,它是根据指标的内容是指标量的规定,它是根据指标的内容所计算出来的具体数值。应该包括所计算出来的具体数值。应该包括总体范围、时总体范围、时间、地点、数值及单位间、地点、数值及单位等
8、。等。u数据(统计指标)的四种计量尺度:统计指标和指标体系统计指标和指标体系数据的计量尺度与类型数据的计量尺度与类型定类尺度定类尺度定序尺度定序尺度定距尺度定距尺度定比尺度定比尺度精精确确程程度度良好良好19801980134134公斤公斤中国中国国籍:国籍:健康状况:健康状况:出生年份出生年份:体重:体重:(1)定定类类尺度尺度(NominalScale)u也称分类尺度也称分类尺度u例如:例如:性别、民族、职业性别、民族、职业u数据表现为数据表现为“类别类别”u各类之间各类之间无等级次序无等级次序 u各类别可以用数字代码表示各类别可以用数字代码表示u根据定类尺度得到的数据为根据定类尺度得到的
9、数据为分类数据。分类数据。(2)定序尺度定序尺度(OrdinalScale)也称顺序尺度也称顺序尺度例如例如健康状况、质量等级健康状况、质量等级可对等级、大小等排序可对等级、大小等排序未测量出类别之间的准确差值未测量出类别之间的准确差值根据定序尺度得到的数据为顺序数据。根据定序尺度得到的数据为顺序数据。(3)定距尺度定距尺度(IntervalScale)u也称间隔尺度也称间隔尺度u例如例如年份、摄氏温度年份、摄氏温度u数据表现为数据表现为“数值数值”u可以进行加减运算可以进行加减运算u“0”0”是只是尺度上的一个点,不代表是只是尺度上的一个点,不代表“不存在不存在”u根据定距尺度得到的数据为间
10、距数据。根据定距尺度得到的数据为间距数据。(4)定比尺度定比尺度(RatioScale)u也称比率尺度也称比率尺度u例如例如体重、身高体重、身高u数据表现为数据表现为“数值数值”u可以进行加减、乘除运算可以进行加减、乘除运算u“0”0”表示表示“没有没有”或或“不存在不存在”u根据定比尺度得到的数据为比根据定比尺度得到的数据为比率数据。率数据。四种计量尺度的比较四种计量尺度的比较四种计量尺度的比较四种计量尺度的比较定类尺度定类尺度 定序尺度定序尺度 定距尺度定距尺度 定比尺度定比尺度 分分类类(=,)排序排序()间间距距(+,-)比比值值(,)计量尺度计量尺度数学特性数学特性四种计量尺度的比较
11、四种计量尺度的比较u四种尺度所包含的信息量是依次四种尺度所包含的信息量是依次递递增的,增的,级别级别由低到高。由低到高。u根据根据较较高高层层次的次的计计量尺度可以量尺度可以获获得得较较低低层层次的次的计计量尺度。量尺度。u不同的尺度数据不同的尺度数据对应对应着不同数据着不同数据显显示方示方法和分析方法。法和分析方法。统计数据是采用某种计量尺度对事物进行计量的结果。统计数据是采用某种计量尺度对事物进行计量的结果。采用不同的计量尺度采用不同的计量尺度 不同类型的统计数据:不同类型的统计数据:数据的类型数据的类型定性数据(品质数据)(定性数据(品质数据)(Qualitativedata):说明的是
12、事物的品质特征,不能用数值表示。(由定类尺度或定序尺度计量形成)定量数据(数量数据)定量数据(数量数据)(Quantitativedata):说明的是事物的数量特征,能够用数值表示。(定距尺度或定比尺度计量形成)定性数据定性数据定量数据定量数据 对不同类型的数据,采用的统计方法可能有所不同。选择统计学方法资料类型统计方法计量资料t检验,u检验,方差分析,直线相关与回归计数资料卡方检验,u检验等级资料秩合检验定量资料变量的分类定量资料变量的分类离散型离散型离散型:离散型:随机变量所取的可能值是有限多个或随机变量所取的可能值是有限多个或可列无限个可列无限个,叫做离散型随机变量叫做离散型随机变量。连
13、续型:连续型:随机变量所取的可能值可以连续地充随机变量所取的可能值可以连续地充满某个区间,叫做连续型随机变量。满某个区间,叫做连续型随机变量。随机变量随机变量连续型连续型计量资料的统计描述计量资料的统计描述Descriptions of Measurement Data 主要内容主要内容1.1.频数表频数表2.2.集中趋势集中趋势3.3.离散趋势离散趋势4.4.正态分布正态分布5.5.医学参考值的制定医学参考值的制定频数分布频数分布u频数表的编制频数表的编制 编制步骤:1.1.求极差(即全距)求极差(即全距)R R;2.2.确定组数确定组数n n、组距组距i i,并写出组段;并写出组段;3.3
14、.列表划记。列表划记。某市1995年110名7岁男童的身高资料(cm)114.4119.2124.7125.0115.0112.8120.2110.2110.2120.9120.1125.5120.3122.3118.2116.7121.7116.8121.6115.2122.0121.7118.8121.8124.5121.7122.7116.3124.0119.0124.5121.8124.9130.0123.5128.1119.7126.1131.3123.8114.7122.2122.8128.6122.0132.5122.0123.5116.3126.1119.2126.4118.4
15、121.0119.1116.9131.1120.4115.2118.0122.4114.3116.9126.4114.2127.2118.3127.8123.0117.4123.2119.9122.1120.4124.8122.1114.4120.5115.0122.8116.8125.8120.1124.8122.7119.4128.2124.1127.2120.0122.7118.3127.1122.5116.3125.1124.4112.3121.3127.0113.5118.8127.6125.2121.5122.5129.1122.6134.5134.5118.3132.8u本例资料
16、,最大值为本例资料,最大值为134.5cm134.5cm,最小值为最小值为110.2cm110.2cm,故极差故极差 R=134.5-110.2=24.3cmR=134.5-110.2=24.3cmu组数不宜太多,也不宜太少。一般根据样本量的多组数不宜太多,也不宜太少。一般根据样本量的多少分成少分成8-158-15组。组。本例假设分成本例假设分成1010组。组。理论上组距等于极差除以组数。但不拘泥于计算理论上组距等于极差除以组数。但不拘泥于计算结果,而常常取一个比较好处理的数。组距可以相结果,而常常取一个比较好处理的数。组距可以相等,也可以不等。等,也可以不等。本例,组距本例,组距=24.3/
17、10=2.43=24.3/10=2.43,我们取为,我们取为 2 cm2 cm。组段:上限、下限组段:上限、下限u列表划记列表划记某市1995年110名7岁男童身高的频数分布身高组段频数频率(%)累计频数累计频率(%)110 1 0.91 1 0.91112 3 2.73 4 3.64114 9 8.18 13 11.82116 9 8.18 22 20.00118 15 13.64 37 33.64120 18 16.36 55 50.00122 21 19.09 76 69.09124 14 12.73 90 81.82126 10 9.09100 90.91128 4 3.64104 9
18、4.55130 3 2.73107 97.27132 2 1.82109 99.09134136 1 0.91110100.00合计110100.00u频数表的用途频数表的用途根据频数表,进而可以绘制频数图。根据频数表,进而可以绘制频数图。揭示资料的分布特征和分布类型:资料的分揭示资料的分布特征和分布类型:资料的分布范围、峰(单峰或多峰)和离散情况。布范围、峰(单峰或多峰)和离散情况。对于单峰分布资料,对于单峰分布资料,对称分布,其中一种特殊的分布叫做正态分布;对称分布,其中一种特殊的分布叫做正态分布;非对称分布,又称偏态分布。非对称分布,又称偏态分布。便于发现可疑值;便于发现可疑值;便于进一
19、步计算指标和统计分析处理。便于进一步计算指标和统计分析处理。BREAK!u集中趋势:集中趋势:u一、众数一、众数u二、中位数二、中位数u三、均值三、均值u四、众数、中位数和均值的比较四、众数、中位数和均值的比较统计数据的描述 众数(mode)定义:众数是指总体中最普遍出现的标志值。一组数据中出现次数最多的变量值适合于数据量较多时使用不受极端值的影响一组数据可能没有众数或有几个众数主要用于分类数据,也可用于顺序数据和数值型数据 众数(不惟一性)u无众数无众数原始数据:10 5 9 12 6 8一个众数一个众数原始数据:6 5 9 8 5 5多于一个众数多于一个众数原始数据:25 28 28 36
20、 42 42中位数 u定义:中位数是将总体各个单位按其标志值的大小顺序排列,处于数列中点的那个单位的标志值,在总体中,标志值小于中位数的单位占一半;标志值大于中位数的单位也占一半。中位数(median)MMe e50%50%1.排序后处于中间位置上的值排序后处于中间位置上的值2.不受极端值的影响不受极端值的影响3.主要用于顺序数据,也可用数值型数据,但不主要用于顺序数据,也可用数值型数据,但不能用于分类数据能用于分类数据4.各变量值与中位数的离差绝对值之和最小,即各变量值与中位数的离差绝对值之和最小,即u一、算术平均数一、算术平均数u二、调和平均数二、调和平均数u三、几何平均数三、几何平均数
21、均值均值(mean)1.1.集中趋势的最常用测度值集中趋势的最常用测度值2.2.一组数据的均衡点所在一组数据的均衡点所在3.3.体现了数据的必然性特征体现了数据的必然性特征4.4.易受极端值的影响易受极端值的影响5.5.用于数值型数据,不能用于分类数据和用于数值型数据,不能用于分类数据和顺序数据顺序数据算术平均数(arithmetic mean)u算术平均数的基本公式u计算平均数的要求:总体标志总量必须是总体各单位标志值的总和,标志值和单位之间一一对应。调和平均数(harmonic mean)u1.简单调和平均数:标志值的倒数的算术平均数的倒数。几何平均数(geometric mean)n 个
22、变量值乘积的 n 次方根适用于对比率数据的平均主要用于计算平均增长率计算公式为可看作是均值的一种变形可看作是均值的一种变形众数、中位数和均值的比较众数、中位数和均值的比较左偏分布左偏分布左偏分布左偏分布左偏分布左偏分布负偏态负偏态负偏态负偏态负偏态负偏态均值均值均值均值均值均值 中位数中位数中位数中位数中位数中位数 众数众数众数众数众数众数对称分布对称分布对称分布对称分布对称分布对称分布 均值均值均值均值均值均值=中位数中位数中位数中位数中位数中位数=众数众数众数众数众数众数右偏分布右偏分布右偏分布右偏分布右偏分布右偏分布正偏态正偏态正偏态正偏态正偏态正偏态众数众数众数众数众数众数 中位数中位
23、数中位数中位数中位数中位数均值均值均值均值均值均值众数、中位数、均值的特点和应用众数、中位数、均值的特点和应用1.众数不受极端值影响具有不惟一性数据分布偏斜程度较大时应用2.中位数不受极端值影响数据分布偏斜程度较大时应用3.均值易受极端值影响数学性质优良数据对称分布或接近对称分布时应用u离散趋势离散趋势极差极差方差和标准差方差和标准差变异系数变异系数四分位数间距四分位数间距计量资料的统计描述极差(range)一组数据的最大值与最小值之差离散程度的最简单测度值易受极端值影响未考虑数据的分布 R=max(xi)-min(xi)计算公式为计算公式为四分位数(quartile)u百分位数(percen
24、tile):P1、P2、P3、P100u四分位数:P25、P50、P75下四分位数(lower quartile):P25 QL上四分位数(upper quartile):P75 QU中位数M P50u百分位数间距(inter-percentile range):最常用的为P75P25,即四分位间距Q极差与四分位数间距u描述计量资料的离散程度,比较粗略u四分位数间距比极差稳定u二者主要用于描述偏态分布资料 方差和标准差1.离散程度的测度值之一2.最常用的测度值3.反映了数据的分布4.反映了各变量值与均值的平均差异5.根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标
25、准差方差和标准差1.Variance 和standard deviation用于描述正态分布资料的离散程度2.同质的两组资料,均数相近,标准差大的说明该组各观测值较分散。离散系数 1.标准差与其相应的均值之比2.对数据相对离散程度的测度3.消除了数据水平高低和计量单位的影响4.用于对不同组别数据离散程度的比较5.计算公式为变异系数(coefficient of variation)u无度量衡单位u相对离散程度:用于对不同组别数据离散程度的比较用于单位不同,或虽单位相同,但均数相差较大的资料间变异程度的比较To Be Continuedu集中趋势:集中趋势:u众数众数(mode)中位数中位数(m
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计量 资料 统计 描述 ppt
限制150内