最新四章节数据特征与统计描述幻灯片.ppt
《最新四章节数据特征与统计描述幻灯片.ppt》由会员分享,可在线阅读,更多相关《最新四章节数据特征与统计描述幻灯片.ppt(106页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、s第一节第一节 频数分布表与频数分布图频数分布表与频数分布图s第二节第二节 计量资料的常用统计指标计量资料的常用统计指标s第三节第三节 计数资料的计数资料的常用统计指标常用统计指标s第四节第四节 统计图表统计图表三、频数分布图P47二、频数表和频数分布图用途 1描述频数分布的类型*(1)对称分布 :若各组段频数的分布以频数最多的组段为中心左右两侧大体对称(总体则完全对称),就认为该资料是对称分布 (图4-2)(2)偏态分布 :右偏态分布(正偏态分布):频数最多组段右侧的组段数多于左侧的组段数,高峰向左偏移,频数向右侧拖尾。 转氨酶含量 人 数 12 2 15 9 18 14 21 23 24
2、19 27 14 30 11 33 9 36 7 39 4 4245 3 表4- 115名正常成年女子血清转氨酶(mmol/L)含量分布左偏态分布(负偏态分布): 左侧的组段数多于右侧的组段数,频数向左侧拖尾。肌红蛋白含量 人 数 0 2 5 3 10 7 15 9 20 10 25 22 30 23 35 14 40 9 4550 2 表4- 101名正常人的血清肌红蛋白( )含量分布g/m L 血 清 肌 红 蛋 白(g / m L)05101520252.512.522.532.542.552.5图 2-3 101 名 正 常 人 血 清 肌 红 蛋 白 的 频 数 分 布人 数2. 描
3、述计量资料分布的描述计量资料分布的 集中趋势和离散趋势集中趋势和离散趋势集中趋势集中趋势(central tendency):变量值集中变量值集中位置。本例在组段位置。本例在组段“4.7”。平均水平指标平均水平指标离散趋势离散趋势(tendency of dispersion):变量变量值围绕集中位置的分布情况。离值围绕集中位置的分布情况。离“中心中心”位位置越远,频数越小;且围绕置越远,频数越小;且围绕“中心中心”左右对左右对称。称。变异水平指标变异水平指标 3便于发现一些特大或特小的可疑值*组 段 频数 f (1) (2) 2.30 1 2.60 0 2.90 0 3.20 0 3.50
4、17 3.80 20 4.10 17 4.40 12 4.70 9 5.00 0 5.30 0 5.605.90 8 合 计 101 4便于进一步做统计分析和处理第二节第二节 计量资料的常用统计指标计量资料的常用统计指标s描述集中趋势的特征数描述集中趋势的特征数s描述离散趋势的特征数描述离散趋势的特征数计量资料(定量资料、数值变量资料)计量资料(定量资料、数值变量资料)总体:总体:有限或无限个(定量)变量值 样本:样本:从总体随机抽取的n个变量值: X1,X2,X3,Xn n为样本例数(样本大小、样本含量)一、一、描述集中趋势的特征数描述集中趋势的特征数(平均指标平均指标)总称为总称为平均数平
5、均数(average)反映了资料的集)反映了资料的集中趋势(中趋势( central tendency )。常用的)。常用的有:有:1. 算术均数算术均数(arithmetic mean),简称,简称均数均数 (mean)2. 几何均数几何均数(geometric mean)3. 中位数中位数 (median)均数(均数(meanmean)nXnXXXXn21112233123kkikif Xf Xf Xf XfXXfffff为求和符号,读成sigma,k, X , f 意义例4-2“权数” 例4-3X符号:总体 样本适用条件:资料呈对称分布,尤其是正态或近似正态。计算:(1)直接法(2)频数
6、表法p49,例,例4-3:均数:均数719.8/1504.82. 2. 几何均数(几何均数(geometric meangeometric mean)nXXnXXXXnXXXXXGnGnnGlglglg)lglg(lg1lg12121为正值,为底的反对数表示以为底的对数;表示以010lg10lg1X几何均数几何均数:变量变量对数值的对数值的算术均算术均数数的反对数的反对数。 几何均数的适用条件与实例几何均数的适用条件与实例适用条件适用条件:呈倍数关系的等比资料或对数正态分:呈倍数关系的等比资料或对数正态分布(正偏态)资料;如抗体滴度资料布(正偏态)资料;如抗体滴度资料 例例 血清的抗体效价滴度
7、的倒数倒数分别为:10、100、1000、10000、100000,求几何均数。1000510lg10lg10lg10lg10lglg543211G此例的算术均数为此例的算术均数为22222,显然不能代表滴度的,显然不能代表滴度的平均水平。同一资料,平均水平。同一资料,几何均数几何均数中位数中位数负偏态分布时:均数均数中位数中位数小结: 集中趋势的描述平均数 平均数:描述一组变量值的集中位置或平均水平的指标体系。 不同的分布使用不同的指标 (算术)均数:正态或近似正态或观察值相差不大的小样本资料 几何均数:对数正态分布或等比级数资料 中位数 :一般偏态分布(传染病发病的潜伏期)二、二、 描述离
8、散趋势的特征数描述离散趋势的特征数(变异(变异(variationvariation)指标)指标) 反映数据的离散度(反映数据的离散度( Dispersion )。即)。即个体观察值的变异程度。常用的指标有:个体观察值的变异程度。常用的指标有: 1. 极差极差(Range) (全距全距) 2. 百分位数与四分位数间距百分位数与四分位数间距 Percentile and Quartile range 3. 方差方差 Variance 4. 标准差标准差Standard Deviation 5. 变异系数变异系数 Coefficient of Variation 盘编号盘编号 甲甲乙乙丙丙1 14
9、404804902 24604904953 35005005004 45405105055 5560520510合计合计250025002500250025002500均数均数500500500500500500 例:设甲、乙、丙三人,采每人的耳垂血,然后红细例:设甲、乙、丙三人,采每人的耳垂血,然后红细胞计数,每人数胞计数,每人数5个计数盘,得结果如下(万个计数盘,得结果如下(万/mm3)甲乙丙1.1.极差极差(Range(Range) ( (全距全距) )minmaxXXR 1204020符号:R意义:反映全部变量值的变动范围。 优点:简便,如说明传染病、食物中毒的最长、最短潜伏期等。 缺
10、点:1. 只利用了两个 极端值 2.n大,R也会大 3.不稳定适用范围:任何计量资料;是参考变异指标2.2.百分位数与四分位数间距百分位数与四分位数间距 Percentile and quartile rangePercentile and quartile range百分位数百分位数 :数据从:数据从小到大小到大 排列排列;在百分在百分尺度下,所占百分比尺度下,所占百分比对应的值。记为对应的值。记为Px。 四分位间距四分位间距: (定义定义:P53) QP75 P25 四分位半间距四分位半间距quartile deviation:QDQR/2P100(max)P75P50(中位数中位数)P2
11、5P0(min)Px频数表资料的百分位数频数表资料的百分位数mLxxffxniLPxnP)%()%(值间的频数所在组段下限值至上限至该下限值的累计频数组距所在组段下限值下限值下限值L上限值上限值Ui; fm百分位数百分位数Px)%(LfxnP256+6x(145x25%17)/468.51(h)P7518+6x(145x75%101)/3219.45(h)Q19.45-8.5110.94(h) 潜伏期潜伏期/h (1) 频数,频数,f(2) 累计频数累计频数 f(3)0171764663123810118321332461393001393641434248 合计合计2145145百分位数的应
12、用百分位数的应用确定医学确定医学参考值范围参考值范围 (reference range):): 如如95参考值范围参考值范围P97.5P2.5; 表示有表示有95正常正常个体个体的测量值在此范围。的测量值在此范围。中位数中位数Md与与四分位半间距四分位半间距QD一起使用,描一起使用,描述偏态分布资料的特征述偏态分布资料的特征3.3.方差方差 方差方差 (variance)也称)也称均方差均方差(mean square deviation),样本观察值的离均差平方),样本观察值的离均差平方和的均值。表示一组数据的平均离散情况。和的均值。表示一组数据的平均离散情况。NXXlSSXxx222)-()
13、-()square of sum(0)-(总体方差离均差平方和离均差和11)(2222nnXXnXXS样本方差样本方差为什么要除以(样本方差为什么要除以(n n1 1)22()XN 总 体 方 差数理统计证明,n代替N后,计算出的样本方差对总体方差的估计偏小。对于样本资料,对离均差平方和取平均时分母用n-1代替n。分母为n-1,称为自由度(能自由取值的变量的个数)。2222()11XXnXXSnn 样本方差4.4.标准差标准差222()11XXnXXSnn样本标准差 标准差标准差 (standard deviation)即方差的正平)即方差的正平方根;其单位与原变量方根;其单位与原变量X的单位
14、相同。的单位相同。(p54)122fffXfXS频数表样本标准差2()XXN总体标准差标准差的计算标准差的计算盘编号盘编号 甲甲乙乙丙丙甲甲2 2乙乙2 2丙丙2 21 14404804901936002304002401002 24604904952116002401002450253 35005005002500002500002500004 45405105052916002601002550255 5560520510313600270400260100合计合计25002500 25002500 25002500 1260400 1251000 1250250标准差标准差50.9915
15、.817.9199.50155/250012604001222甲的标准差nnXXS方差(3476.48719.82/150)/(150-1) 0.1503标准差0.39(1012/L)( (例例4-12)4-12) 组段组段 (1) 频数,频数,f(2) 组中值,组中值,X(3) fX(4)= (2)(3)3.713.83.83.944.016.04.1114.246.24.3174.474.84.5264.6119.64.7324.8153.64.9265.0130.05.1185.293.65.3105.454.05.545.622.45.75.9 合计合计15.85.8150719.85
16、.变异系数变异系数(coefficient of variation)%100XSCV符号符号:CV适用条件适用条件:观察指标单位不同,如身高、体重观察指标单位不同,如身高、体重 同单位资料,但均数相差悬殊同单位资料,但均数相差悬殊均数均数 标准差标准差变异系数变异系数青年男子青年男子 身高身高170 cm6 cm3.5体重体重60 kg7 kg11.7 意义:意义:挑选指标时变异系数越小,指标越好。 P56 例4-13变异指标小结变异指标小结1极差较粗,适合于任何分布极差较粗,适合于任何分布2标准差标准差与均数的单位相同,最常用,适合于近似正态分布与均数的单位相同,最常用,适合于近似正态分布
17、3变异系数主要用于单位不同或均数相差悬殊资料变异系数主要用于单位不同或均数相差悬殊资料4平均指标和变异指标分别反映资料的不同特征,平均指标和变异指标分别反映资料的不同特征, 常配套使用常配套使用 如如 正态分布正态分布:均数、标准差;:均数、标准差; 偏态分布偏态分布:中位数、四分位半间距:中位数、四分位半间距练习题练习题p67第第1题。题。p68第第3题。题。第三节第三节 计数资料的计数资料的常用统计指标常用统计指标一、计数资料的数据整理一、计数资料的数据整理二、二、常用相对数指标常用相对数指标三、三、应用注意事项应用注意事项 计数资料(分类资料):计数资料(分类资料):总体:总体:有限或无
18、限个定性(分类)变量值有限或无限个定性(分类)变量值样本:样本:从总体中抽取的从总体中抽取的n n个定性(分类)变量值个定性(分类)变量值整理为:整理为:分类个体数,即:计数资料频数表分类个体数,即:计数资料频数表 绝对数绝对数一、计数资料的数据整理一、计数资料的数据整理 计数资料:计数资料:按某种属性分类,然后清点每类按某种属性分类,然后清点每类的数据(以下是:孕妇分娩资料)的数据(以下是:孕妇分娩资料)住院号住院号年龄年龄职业职业文化程度文化程度分娩方式分娩方式妊娠结局妊娠结局202565527无无中学中学顺产顺产足月足月202565322无无小学小学助产助产足月足月202583025管理
19、人员管理人员大学大学顺产顺产足月足月202567724知识分子知识分子中学中学顺产顺产早产早产202564730管理人员管理人员大学大学顺产顺产足月足月202584832无无小学小学剖宫产剖宫产足月足月201991527无无中学中学顺产顺产死产死产202586129无无大学大学剖宫产剖宫产足月足月202460125农民农民中学中学顺产顺产足月足月200038626无无小学小学顺产顺产足月足月按年龄(按年龄(2岁一组)与职业整理岁一组)与职业整理年龄年龄工人工人管理人员管理人员农民农民商业服务商业服务无无知识分子知识分子总计总计1818 2 2 0 0 0 0 0 0 3 3 0 0 5 520
20、20 9 9 2 2 6 61010 18 18 0 0 45 4522222828 7 710102424 70 70111115015024245050343428285252153153444436136126265050434325254545133133707036636628283434353510103434 78 78575724824830301111141411112222 39 39171711411432321414 2 2 3 31414 24 24 3 3 60 603434 4 4 2 2 5 5 3 3 12 12 2 2 28 283636 2 2 1 1 1
21、 1 4 4 5 5 1 1 14 143838 3 3 1 1 1 1 0 0 2 2 1 1 8 84040 0 0 0 0 2 2 0 0 0 0 0 0 2 2合计合计 207 207 141 14110210220820853753720620614011401二、常用相对数二、常用相对数v 绝对数:通过调查或实验得到的原始数据。如某病的出院人数、治绝对数:通过调查或实验得到的原始数据。如某病的出院人数、治愈人数、死亡人数等。愈人数、死亡人数等。 但绝对数通常不具有可比性:但绝对数通常不具有可比性: 1. 如甲、乙两个医院某病出院人数不同时,比较两医院该病的死亡如甲、乙两个医院某病出
22、院人数不同时,比较两医院该病的死亡人数没有意义人数没有意义 2. 如如2002级附二院五年制一、二大班学生人数不同时,比较两班医级附二院五年制一、二大班学生人数不同时,比较两班医学统计学的及格人数没有意义学统计学的及格人数没有意义,因此需要在绝对数的基础上计算相对因此需要在绝对数的基础上计算相对数。数。v 相对数:两个有联系的指标之比相对数:两个有联系的指标之比,常用的相对数有:常用的相对数有: 一、比一、比 二、比率二、比率 三、速率三、速率v相对比简称比相对比简称比,是两个有关指标之比,说明是两个有关指标之比,说明两指标间的比例关系。两指标间的比例关系。v计算公式为计算公式为v式中两指标可
23、以是绝对数、相对数或平均数式中两指标可以是绝对数、相对数或平均数。(一)比(一)比(ratio)ARB指标指标 (一一)两个绝对数之比:两个绝对数之比: 如某年某医院出生婴儿中,男性婴儿为如某年某医院出生婴儿中,男性婴儿为370人人,女性婴儿为,女性婴儿为358人,则出生婴儿性别比例为人,则出生婴儿性别比例为370/358100 = 103,说明该医院该年每出生,说明该医院该年每出生100名女婴儿,就有名女婴儿,就有103名男性婴儿出生,它反映了男名男性婴儿出生,它反映了男性婴儿与女性婴儿出生的对比水平。性婴儿与女性婴儿出生的对比水平。 ARB类发生例数类发生例数 (二二)两个率之比:两个率之
24、比:如相对危险度(如相对危险度(RR)。)。 例例 如某地某年龄组男性吸烟和非吸烟的冠心病如某地某年龄组男性吸烟和非吸烟的冠心病 死亡资料如表死亡资料如表7-2,试分析其相对危害度。,试分析其相对危害度。12pRp240.52.139112.4R 说明男性吸烟组的冠心病死亡率是非吸烟组的说明男性吸烟组的冠心病死亡率是非吸烟组的2.139倍。倍。 吸 烟 组 非 吸 烟 组 死 亡 数 104 12 观 察 人 年 数 43248 10673 死 亡 率 ( 1/10 万 人 年 ) 240.5 112.4 表表7-2 某地某年龄组男性吸烟和非吸烟的冠心病死亡资料某地某年龄组男性吸烟和非吸烟的冠
25、心病死亡资料 (三三)两个相对比之比:两个相对比之比:如流行病学常用的比数比(如流行病学常用的比数比(OR)。)。 例例 服用反应停与肢体缺陷关系病例对照研究资料如表所示:服用反应停与肢体缺陷关系病例对照研究资料如表所示: 服 用 反 应 停 畸 形 儿 组 对 照 组 合 计 有 34(a) 2(b) 36 无 16(c) 88(d) 104 合 计 50 90 140 /348893.5()/2 16a cORb d疾病组的暴露比数倍对照组的暴露比数比率比率(P57): 分子分母都是绝对数,且分子必须是分母的一部分。无量纲,0,1 。1.1.率率(raterate)(强度相对数)(强度相对
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 最新 章节 数据 特征 统计 描述 幻灯片
限制150内