四章节数据特征与统计描述.ppt
《四章节数据特征与统计描述.ppt》由会员分享,可在线阅读,更多相关《四章节数据特征与统计描述.ppt(105页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、四章节数据特征与统计描述 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望s第一节第一节 频数分布表与频数分布图频数分布表与频数分布图s第二节第二节 计量资料的常用统计指标计量资料的常用统计指标s第三节第三节 计数资料的计数资料的常用统计指标常用统计指标s第四节第四节 统计图表统计图表本章结构本章结构 第一节第一节 频数分布表与频数分布图频数分布表与频数分布图 一、频数分布表一、频数分布表(frequency table)用途:用途:用于描述资料的分布特征用于描述资
2、料的分布特征频数:在一批样本中,相同情形出现的次数称为频数:在一批样本中,相同情形出现的次数称为该情形的频数。该情形的频数。资料类型资料类型组段组段频数频数计数和等级计数和等级观察结果的所有观察结果的所有分类分类相同类别出现的相同类别出现的次数次数计量计量根据观察结果重根据观察结果重新划分新划分分组统计分组统计P44 表4-1,4-2,4-3表表4-3 某地某地150名正常成年男子红名正常成年男子红细胞数(细胞数(1012/L)编号编号红细胞数红细胞数编号编号红细胞数红细胞数1 13.983.982 24.544.541431434.674.673 34.744.741441445.405.4
3、04 45.135.131451455.295.295 54.434.431461464.774.776 64.814.811471475.385.387 74.984.981481485.155.158 83.793.791491494.644.641501505.195.191.频数表的编制步骤频数表的编制步骤(1)求)求极差极差(range):即最大值与最小值之差,):即最大值与最小值之差,又称为全距。又称为全距。本例极差:本例极差:R=5.883.79=2.09 (1012/L)(2)决定决定组数组数、组段组段和和组距组距:根据研究目的和:根据研究目的和样本含量样本含量n确定。组距确定
4、。组距=极差极差/组数,通常分组数,通常分10-15个组,为方便计,组距参考极差的十分之一个组,为方便计,组距参考极差的十分之一,再再略加调整。略加调整。本例本例i=R/10=2.09/10=0.2090.2。(3)列出组段:第一组段的列出组段:第一组段的下限略下限略小于最小值小于最小值,最后一个组段,最后一个组段上限必须上限必须包含最大值包含最大值,其它组段上限值忽略。,其它组段上限值忽略。(4)划记计数划记计数:用划记法将所有数:用划记法将所有数据归纳到各组段,得到各组段的频数。据归纳到各组段,得到各组段的频数。组段组段 (1)频数,频数,f(2)组中值,组中值,X(3)fX(4)=(2)
5、(3)3.713.83.83.944.016.04.1114.246.24.3174.474.84.5264.6119.64.7324.8153.64.9265.0130.05.1185.293.65.3105.454.05.545.622.45.75.9 合合计计15.85.8150719.8三、频数分布图P47二、频数表和频数分布图用途 1描述频数分布的类型*(1)对称分布:若各组段频数的分布以频数最多的组段为中心左右两侧大体对称(总体则完全对称),就认为该资料是对称分布(图4-2)(2)偏态分布:右偏态分布(正偏态分布):频数最多组段右侧的组段数多于左侧的组段数,高峰向左偏移,频数向右侧
6、拖尾。表4-115名正常成年女子血清转氨酶(mmol/L)含量分布左偏态分布(负偏态分布):左侧的组段数多于右侧的组段数,频数向左侧拖尾。表4-101名正常人的血清肌红蛋白()含量分布2.描述计量资料分布的描述计量资料分布的 集中趋势和离散趋势集中趋势和离散趋势集中趋势集中趋势(central tendency):变量值集中变量值集中位置。本例在组段位置。本例在组段“4.7”。平均水平指标平均水平指标离散趋势离散趋势(tendency of dispersion):变量变量值围绕集中位置的分布情况。离值围绕集中位置的分布情况。离“中心中心”位位置越远,频数越小;且围绕置越远,频数越小;且围绕“
7、中心中心”左右对左右对称。称。变异水平指标变异水平指标 3便于发现一些特大或特小的可疑值*4便于进一步做统计分析和处理第二节第二节 计量资料的常用统计指标计量资料的常用统计指标s描述集中趋势的特征数描述集中趋势的特征数s描述离散趋势的特征数描述离散趋势的特征数计量资料(定量资料、数值变量资料)计量资料(定量资料、数值变量资料)总体:总体:有限或无限个(定量)变量值 样本:样本:从总体随机抽取的n个变量值:X1,X2,X3,Xn n为样本例数(样本大小、样本含量)一、一、描述集中趋势的特征数描述集中趋势的特征数(平均指标平均指标)总称为总称为平均数平均数(average)反映了资料的集)反映了资
8、料的集中趋势(中趋势(central tendency)。常用的)。常用的有:有:1.算术均数算术均数(arithmetic mean),简称,简称均数均数(mean)2.几何均数几何均数(geometric mean)3.中位数中位数(median)1.1.均数(均数(meanmean)为求和符号,读成sigma,k,X,f 意义例4-2“权数”例4-3符号:总体 样本适用条件:资料呈对称分布,尤其是正态或近似正态。计算:(1)直接法(2)频数表法p49,例,例4-3:均数:均数719.8/1504.82.2.几何均数(几何均数(geometric meangeometric mean)几何
9、均数几何均数:变量变量对数值的对数值的算术均算术均数数的反对数的反对数。几何均数的适用条件与实例几何均数的适用条件与实例适用条件适用条件:呈倍数关系的等比资料或对数正态分:呈倍数关系的等比资料或对数正态分布(正偏态)资料;如抗体滴度资料布(正偏态)资料;如抗体滴度资料 例例 血清的抗体效价滴度的倒数倒数分别为:10、100、1000、10000、100000,求几何均数。此例的算术均数为此例的算术均数为22222,显然不能代表滴度的,显然不能代表滴度的平均水平。同一资料,平均水平。同一资料,几何均数几何均数中位数中位数负偏态分布时:均数均数中位数中位数小结:集中趋势的描述平均数 平均数:描述一
10、组变量值的集中位置或平均水平的指标体系。不同的分布使用不同的指标 (算术)均数:正态或近似正态或观察值相差不大的小样本资料 几何均数:对数正态分布或等比级数资料 中位数:一般偏态分布(传染病发病的潜伏期)二、二、描述离散趋势的特征数描述离散趋势的特征数(变异(变异(variationvariation)指标)指标)反映数据的离散度(反映数据的离散度(Dispersion)。即)。即个体观察值的变异程度。常用的指标有:个体观察值的变异程度。常用的指标有:1.极差极差(Range)(全距全距)2.百分位数与四分位数间距百分位数与四分位数间距 Percentile and Quartile rang
11、e 3.方差方差 Variance 4.标准差标准差Standard Deviation 5.变异系数变异系数 Coefficient of Variation 盘编号盘编号 甲甲乙乙丙丙1 14404804902 24604904953 35005005004 45405105055 5560520510合计合计250025002500250025002500均数均数500500500500500500 例例:设设甲甲、乙乙、丙丙三三人人,采采每每人人的的耳耳垂垂血血,然然后后红红细细胞胞计数,每人数计数,每人数5个计数盘,得结果如下(万个计数盘,得结果如下(万/mm3)甲乙丙1.1.极差极
12、差(Range(Range)(全距全距)1204020符号:R意义:反映全部变量值的变动范围。优点:简便,如说明传染病、食物中毒的最长、最短潜伏期等。缺点:1.只利用了两个 极端值 2.n大,R也会大 3.不稳定适用范围:任何计量资料;是参考变异指标2.2.百分位数与四分位数间距百分位数与四分位数间距 Percentile and quartile range Percentile and quartile range百分位数百分位数:数据从:数据从小到大小到大 排列排列;在百分在百分尺度下,所占百分比尺度下,所占百分比对应的值。记为对应的值。记为Px。四分位间距四分位间距:(定义定义:P53
13、)QP75 P25 四分位半间距四分位半间距quartile deviation:QDQR/2P100(max)P75P50(中位数中位数)P25P0(min)Px频数表资料的百分位数频数表资料的百分位数下限值下限值L上限值上限值Ui;fm百分位数百分位数PxP256+6x(145x25%17)/468.51(h)P7518+6x(145x75%101)/3219.45(h)Q19.45-8.5110.94(h)潜伏期潜伏期/h (1)频数,频数,f(2)累计频数累计频数S Sf(3)0171764663123810118321332461393001393641434248 合合计计2145
14、145百分位数的应用百分位数的应用确定医学确定医学参考值范围参考值范围(reference range):):如如95参考值范围参考值范围P97.5P2.5;表示有表示有95正常正常个体个体的测量值在此范围。的测量值在此范围。中位数中位数Md与与四分位半间距四分位半间距QD一起使用,描一起使用,描述偏态分布资料的特征述偏态分布资料的特征3.3.方差方差 方差方差(variance)也称)也称均方差均方差(mean square deviation),样本观察值的离均差平方),样本观察值的离均差平方和的均值。表示一组数据的平均离散情况。和的均值。表示一组数据的平均离散情况。样本方差为什么要除以(
15、样本方差为什么要除以(n n1 1)数理统计证明,n代替N后,计算出的样本方差对总体方差的估计偏小。对于样本资料,对离均差平方和取平均时分母用n-1代替n。分母为n-1,称为自由度(能自由取值的变量的个数)。4.4.标准差标准差 标准差标准差(standard deviation)即方差的正平)即方差的正平方根;其单位与原变量方根;其单位与原变量X的单位相同。的单位相同。(p54)标准差的计算标准差的计算盘编号盘编号 甲甲乙乙丙丙甲甲2 2乙乙2 2丙丙2 21 14404804901936002304002401002 24604904952116002401002450253 350050
16、05002500002500002500004 45405105052916002601002550255 5560520510313600270400260100合计合计25002500 25002500 25002500 1260400 1251000 1250250标准差标准差50.9915.817.91方差(3476.48719.82/150)/(150-1)0.1503标准差0.39(1012/L)(例例4-12)4-12)组段组段 (1)频数,频数,f(2)组中值,组中值,X(3)fX(4)=(2)(3)3.713.83.83.944.016.04.1114.246.24.3174
17、.474.84.5264.6119.64.7324.8153.64.9265.0130.05.1185.293.65.3105.454.05.545.622.45.75.9 合合计计15.85.8150719.85.变异系数变异系数(coefficient of variation)符号符号:CV适用条件适用条件:观察指标单位不同,如身高、体重观察指标单位不同,如身高、体重 同单位资料,但均数相差悬殊同单位资料,但均数相差悬殊均数均数 标准差标准差变异系数变异系数青年男子青年男子 身高身高170 cm6 cm3.5体重体重60 kg7 kg11.7 意义:意义:挑选指标时变异系数越小,指标越好
18、。P56 例4-13变异指标小结变异指标小结1极差较粗,适合于任何分布极差较粗,适合于任何分布2标准差标准差与均数的单位相同,最常用,适合于近似正态分布与均数的单位相同,最常用,适合于近似正态分布3变异系数主要用于单位不同或均数相差悬殊资料变异系数主要用于单位不同或均数相差悬殊资料4平均指标和变异指标分别反映资料的不同特征,平均指标和变异指标分别反映资料的不同特征,常配套使用常配套使用 如如 正态分布正态分布:均数、标准差;:均数、标准差;偏态分布偏态分布:中位数、四分位半间距:中位数、四分位半间距练习题练习题p67第第1题。题。p68第第3题。题。第三节第三节 计数资料的计数资料的常用统计指
19、标常用统计指标一、计数资料的数据整理一、计数资料的数据整理二、二、常用相对数指标常用相对数指标三、三、应用注意事项应用注意事项 计数资料(分类资料):计数资料(分类资料):总体:总体:有限或无限个定性(分类)变量值有限或无限个定性(分类)变量值样本:样本:从总体中抽取的从总体中抽取的n n个定性(分类)变量值个定性(分类)变量值整理为:整理为:分类个体数,即:计数资料频数表分类个体数,即:计数资料频数表 绝对数绝对数一、计数资料的数据整理一、计数资料的数据整理 计数资料:计数资料:按某种属性分类,然后清点每类按某种属性分类,然后清点每类的数据(以下是:孕妇分娩资料)的数据(以下是:孕妇分娩资料
20、)住院号住院号年龄年龄职业职业文化程度文化程度分娩方式分娩方式妊娠结局妊娠结局202565527无无中学中学顺产顺产足月足月202565322无无小学小学助产助产足月足月202583025管理人员管理人员大学大学顺产顺产足月足月202567724知识分子知识分子中学中学顺产顺产早产早产202564730管理人员管理人员大学大学顺产顺产足月足月202584832无无小学小学剖宫产剖宫产足月足月201991527无无中学中学顺产顺产死产死产202586129无无大学大学剖宫产剖宫产足月足月202460125农民农民中学中学顺产顺产足月足月200038626无无小学小学顺产顺产足月足月按年龄(按年龄
21、(2岁一组)与职业整理岁一组)与职业整理年龄年龄工人工人管理人员管理人员农民农民商业服务商业服务无无知识分子知识分子总计总计1818 2 2 0 0 0 0 0 0 3 3 0 0 5 52020 9 9 2 2 6 61010 18 18 0 0 45 4522222828 7 710102424 70 70111115015024245050343428285252153153444436136126265050434325254545133133707036636628283434353510103434 78 78575724824830301111141411112222 39 39
22、171711411432321414 2 2 3 31414 24 24 3 3 60 603434 4 4 2 2 5 5 3 3 12 12 2 2 28 283636 2 2 1 1 1 1 4 4 5 5 1 1 14 143838 3 3 1 1 1 1 0 0 2 2 1 1 8 84040 0 0 0 0 2 2 0 0 0 0 0 0 2 2合计合计 207 207 141 14110210220820853753720620614011401二、常用相对数二、常用相对数(一)比(一)比(ratio)说明男性吸烟组的冠心病死亡率是非吸烟组的说明男性吸烟组的冠心病死亡率是非吸烟组
23、的2.139倍。倍。表表7-2 某地某年龄组男性吸烟和非吸烟的冠心病死亡资料某地某年龄组男性吸烟和非吸烟的冠心病死亡资料比率比率(P57):分子分母都是绝对数,且分子必须是分母的一部分。无量纲,0,1。1.1.率率(raterate)(强度相对数)(强度相对数)说明某现象或某事物说明某现象或某事物发生发生的的频率频率或或强度强度。率率=(实际发生数(实际发生数/可能发生总数)可能发生总数)比例基数比例基数如如:治愈率、病死率、阳性率、人群患病率等:治愈率、病死率、阳性率、人群患病率等比例基数比例基数:100%100%、10001000、10000/10000/万、万、100000100000(
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 章节 数据 特征 统计 描述
限制150内