数据特征与统计描述 (2)幻灯片.ppt
《数据特征与统计描述 (2)幻灯片.ppt》由会员分享,可在线阅读,更多相关《数据特征与统计描述 (2)幻灯片.ppt(100页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据特征与统计描述第1页,共100页,编辑于2022年,星期六s第一节第一节 频数分布表与频数分布图频数分布表与频数分布图s第二节第二节 计量资料的常用统计指标计量资料的常用统计指标s第三节第三节 计数资料的计数资料的常用统计指标常用统计指标s第四节第四节 统计图表统计图表本章结构本章结构 第2页,共100页,编辑于2022年,星期六第一节第一节 频数分布表与频数分布图频数分布表与频数分布图第3页,共100页,编辑于2022年,星期六 一、频数分布表一、频数分布表(frequency table)用途:用途:用于描述资料的分布特征用于描述资料的分布特征频数:在一批样本中,相同情形出现的次数称为
2、该频数:在一批样本中,相同情形出现的次数称为该情形的频数。情形的频数。资料类型资料类型组段组段频数频数计数和等级计数和等级观察结果的所有分观察结果的所有分类类相同类别出现的相同类别出现的次数次数计量计量根据观察结果重新根据观察结果重新划分划分分组统计分组统计第4页,共100页,编辑于2022年,星期六表表1 某地某地150名正常成年男子红细胞名正常成年男子红细胞数(数(1012/L)编号编号红细胞数红细胞数编号编号红细胞数红细胞数1 13.983.982 24.544.541431434.674.673 34.744.741441445.405.404 45.135.131451455.295
3、.295 54.434.431461464.774.776 64.814.811471475.385.387 74.984.981481485.155.158 83.793.791491494.644.641501505.195.19第5页,共100页,编辑于2022年,星期六1.频数表的编制步骤频数表的编制步骤(1)求)求极差极差(range):即最大值与最小值之差,又):即最大值与最小值之差,又称为全距。称为全距。本例极差:本例极差:R=5.883.79=2.09 (1012/L)(2)决定决定组数组数、组段组段和和组距组距:根据研究目的和样本含:根据研究目的和样本含量量n确定。组距确定。
4、组距=极差极差/组数,通常分组数,通常分8-15个组,为方便个组,为方便计,组距参考极差的十分之一计,组距参考极差的十分之一,再略加调整。再略加调整。本例本例i=R/10=2.09/10=0.2090.2。第6页,共100页,编辑于2022年,星期六(3)列出组段:第一组段的列出组段:第一组段的下限略小下限略小于最小值于最小值,最后一个组段,最后一个组段上限必须包含上限必须包含最大值最大值,其它组段上限值忽略。,其它组段上限值忽略。(4)划记计数划记计数:用划记法将所有数据:用划记法将所有数据归纳到各组段,得到各组段的频数。归纳到各组段,得到各组段的频数。第7页,共100页,编辑于2022年,
5、星期六 组段组段 (1)频数,频数,f(2)组中值,组中值,X(3)fX(4)=(2)(3)3.713.83.83.944.016.04.1114.246.24.3174.474.84.5264.6119.64.7324.8153.64.9265.0130.05.1185.293.65.3105.454.05.545.622.45.75.9 合计合计15.85.8150719.8第8页,共100页,编辑于2022年,星期六三、频数分布图第9页,共100页,编辑于2022年,星期六二、频数表和频数分布图用途 1描述频数分布的类型*(1)对称分布:若各组段频数的分布以频数最多的组段为中心左右两侧大
6、体对称(总体则完全对称),就认为该资料是对称分布(2)偏态分布:第10页,共100页,编辑于2022年,星期六s右偏态分布(正偏态分布):频数最多组段右侧的组段数多于左侧的组段数,高峰向左偏移,频数向右侧拖尾。表2 115名正常成年女子血清转氨酶(mmol/L)含量分布第11页,共100页,编辑于2022年,星期六第12页,共100页,编辑于2022年,星期六s左偏态分布(负偏态分布):左侧的组段数多于右侧的组段数,频数向左侧拖尾。表3 101名正常人的血清肌红蛋白()含量分布第13页,共100页,编辑于2022年,星期六第14页,共100页,编辑于2022年,星期六2.描述计量资料分布的描述
7、计量资料分布的 集中趋势和离散趋势集中趋势和离散趋势集中趋势集中趋势(central tendency):变量值集中位置。变量值集中位置。本例在组段本例在组段“4.7”。平均水平指标平均水平指标离散趋势离散趋势(tendency of dispersion):变量值围变量值围绕集中位置的分布情况。离绕集中位置的分布情况。离“中心中心”位置越远,频位置越远,频数越小;且围绕数越小;且围绕“中心中心”左右对称。左右对称。变异水平指标变异水平指标 第15页,共100页,编辑于2022年,星期六3便于发现一些特大或特小的可疑值*第16页,共100页,编辑于2022年,星期六4便于进一步做统计分析和处理
8、第17页,共100页,编辑于2022年,星期六第二节第二节 计量资料的常用统计指标计量资料的常用统计指标s描述集中趋势的特征数描述集中趋势的特征数s描述离散趋势的特征数描述离散趋势的特征数第18页,共100页,编辑于2022年,星期六计量资料(定量资料、数值变量资料)计量资料(定量资料、数值变量资料)总体:总体:有限或无限个(定量)变量值 样本:样本:从总体随机抽取的n个变量值:X1,X2,X3,Xn n为样本例数(样本大小、样本含量)第19页,共100页,编辑于2022年,星期六一、一、描述集中趋势的特征数描述集中趋势的特征数(平均指标平均指标)总称为总称为平均数平均数(average)反映
9、了资料的集中趋势)反映了资料的集中趋势(central tendency)。常用的有:)。常用的有:1.算术均数算术均数(arithmetic mean),简称,简称均数均数(mean)2.几何均数几何均数(geometric mean)3.中位数中位数(median)第20页,共100页,编辑于2022年,星期六1.1.均数(均数(meanmean)为求和符号,读成sigma,k,X,f 意义“权数”符号:总体 样本适用条件:资料呈对称分布,尤其是正态或近似正态。计算:(1)直接法(2)频数表法第21页,共100页,编辑于2022年,星期六2.2.几何均数(几何均数(geometric me
10、angeometric mean)几何均数几何均数:变量对变量对数值的数值的算术均数算术均数的的反对数反对数。第22页,共100页,编辑于2022年,星期六几何均数的适用条件与实例几何均数的适用条件与实例适用条件适用条件:呈倍数关系的等比资料或对数正态分布:呈倍数关系的等比资料或对数正态分布(正偏态)资料;如抗体滴度资料(正偏态)资料;如抗体滴度资料 例例 血清的抗体效价滴度的倒数倒数分别为:10、100、1000、10000、100000,求几何均数。此例的算术均数为此例的算术均数为22222,显然不能代表滴度的平均,显然不能代表滴度的平均水平。同一资料,水平。同一资料,几何均数几何均数中位
11、数中位数负偏态分布时:均数均数中位数中位数第29页,共100页,编辑于2022年,星期六小结:集中趋势的描述平均数 平均数:描述一组变量值的集中位置或平均水平的指标体系。不同的分布使用不同的指标 (算术)均数:正态或近似正态或观察值相差不大的小样本资料 几何均数:对数正态分布或等比级数资料 中位数:一般偏态分布(传染病发病的潜伏期)第30页,共100页,编辑于2022年,星期六二、二、描述离散趋势的特征数描述离散趋势的特征数(变异(变异(variationvariation)指标)指标)反映数据的离散度(反映数据的离散度(Dispersion)。即个体)。即个体观察值的变异程度。常用的指标有:
12、观察值的变异程度。常用的指标有:1.极差极差(Range)(全距全距)2.百分位数与四分位数间距百分位数与四分位数间距 Percentile and Quartile range 3.方差方差 Variance 4.标准差标准差Standard Deviation 5.变异系数变异系数 Coefficient of Variation第31页,共100页,编辑于2022年,星期六 盘编号盘编号 甲甲乙乙丙丙1 14404804902 24604904953 35005005004 45405105055 5560520510合计合计250025002500250025002500均数均数500
13、500500500500500 例例:设设甲甲、乙乙、丙丙三三人人,采采每每人人的的耳耳垂垂血血,然然后后红红细细胞胞计计数,每人数数,每人数5个计数盘,得结果如下(万个计数盘,得结果如下(万/mm3)甲乙丙第32页,共100页,编辑于2022年,星期六1.1.极差极差(Range(Range)(全距全距)1204020符号:R意义:反映全部变量值的变动范围。优点:简便,如说明传染病、食物中毒的最长、最短潜伏期等。缺点:1.只利用了两个 极端值 2.n大,R也会大 3.不稳定适用范围:任何计量资料;是参考变异指标第33页,共100页,编辑于2022年,星期六2.2.百分位数与四分位数间距百分位
14、数与四分位数间距 Percentile and quartile range Percentile and quartile range百分位数百分位数:数据从小:数据从小到大到大 排列排列;在百分尺度在百分尺度下,所占百分比对应的下,所占百分比对应的值。记为值。记为Px。四分位间距四分位间距:(定义定义:P53)QP75 P25 四分位半间距四分位半间距quartile deviation:QDQR/2P100(max)P75P50(中位数中位数)P25P0(min)Px第34页,共100页,编辑于2022年,星期六频数表资料的百分位数频数表资料的百分位数下限值下限值L上限值上限值Ui;fm
15、百分位数百分位数Px第35页,共100页,编辑于2022年,星期六P256+6x(145x25%17)/468.51(h)P7518+6x(145x75%101)/3219.45(h)Q19.45-8.5110.94(h)潜伏期潜伏期/h (1)频数,频数,f(2)累计频数累计频数S Sf(3)0171764663123810118321332461393001393641434248 合计合计2145145第36页,共100页,编辑于2022年,星期六百分位数的应用百分位数的应用s确定医学确定医学参考值范围参考值范围(reference range):):如如95参考值范围参考值范围P97.
16、5P2.5;表示有表示有95正常正常个体个体的测量值在此范围。的测量值在此范围。s中位数中位数Md与与四分位半间距四分位半间距QD一起使用,描述偏态一起使用,描述偏态分布资料的特征分布资料的特征第37页,共100页,编辑于2022年,星期六3.3.方差方差 方差方差(variance)也称)也称均方差均方差(mean square deviation),样本观察值的离均差平方和的均值。),样本观察值的离均差平方和的均值。表示一组数据的平均离散情况。表示一组数据的平均离散情况。第38页,共100页,编辑于2022年,星期六样本方差为什么要除以(样本方差为什么要除以(n n1 1)数理统计证明,n
17、代替N后,计算出的样本方差对总体方差的估计偏小。对于样本资料,对离均差平方和取平均时分母用n-1代替n。第39页,共100页,编辑于2022年,星期六4.4.标准差标准差 标准差标准差(standard deviation)即方差的正平方根;)即方差的正平方根;其单位与原变量其单位与原变量X的单位相同。的单位相同。第40页,共100页,编辑于2022年,星期六标准差的计算标准差的计算盘编号盘编号 甲甲乙乙丙丙甲甲2 2乙乙2 2丙丙2 21 14404804901936002304002401002 24604904952116002401002450253 35005005002500002
18、500002500004 45405105052916002601002550255 5560520510313600270400260100合计合计25002500 25002500 25002500 12604001251000 1250250标准差标准差50.9915.817.91第41页,共100页,编辑于2022年,星期六方差(3476.48719.82/150)/(150-1)0.1503标准差0.39(1012/L)组段组段 (1)频数,频数,f(2)组中值,组中值,X(3)fX(4)=(2)(3)3.713.83.83.944.016.04.1114.246.24.3174.4
19、74.84.5264.6119.64.7324.8153.64.9265.0130.05.1185.293.65.3105.454.05.545.622.45.75.9 合计合计15.85.8150719.8第42页,共100页,编辑于2022年,星期六5.变异系数变异系数(coefficient of variation)符号符号:CV适用条件适用条件:观察指标单位不同,如身高、体重观察指标单位不同,如身高、体重 同单位资料,但均数相差悬殊同单位资料,但均数相差悬殊均数均数 标准差标准差变异系数变异系数青年男子青年男子 身高身高170 cm6 cm3.5体重体重60 kg7 kg11.7 意
20、义:意义:挑选指标时变异系数越小,指标越好。第43页,共100页,编辑于2022年,星期六变异指标小结变异指标小结1极差较粗,适合于任何分布极差较粗,适合于任何分布2标准差标准差与均数的单位相同,最常用,适合于近似正态分布与均数的单位相同,最常用,适合于近似正态分布3变异系数主要用于单位不同或均数相差悬殊资料变异系数主要用于单位不同或均数相差悬殊资料4平均指标和变异指标分别反映资料的不同特征,平均指标和变异指标分别反映资料的不同特征,常配套使用常配套使用 如如 正态分布正态分布:均数、标准差;:均数、标准差;偏态分布偏态分布:中位数、四分位半间距:中位数、四分位半间距第44页,共100页,编辑
21、于2022年,星期六第三节第三节 计数资料的计数资料的常用统计指标常用统计指标一、计数资料的数据整理一、计数资料的数据整理二、二、常用相对数指标常用相对数指标三、三、应用注意事项应用注意事项第45页,共100页,编辑于2022年,星期六 计数资料(分类资料):计数资料(分类资料):总体:总体:有限或无限个定性(分类)变量值有限或无限个定性(分类)变量值样本:样本:从总体中抽取的从总体中抽取的n n个定性(分类)变量值个定性(分类)变量值整理为:整理为:分类个体数,即:计数资料频数表分类个体数,即:计数资料频数表 绝对数绝对数第46页,共100页,编辑于2022年,星期六一、计数资料的数据整理一
22、、计数资料的数据整理 计数资料:计数资料:按某种属性分类,然后清点每类的数据按某种属性分类,然后清点每类的数据(以下是:孕妇分娩资料)(以下是:孕妇分娩资料)住院号住院号年龄年龄职业职业文化程度文化程度分娩方式分娩方式妊娠结局妊娠结局202565527无无中学中学顺产顺产足月足月202565322无无小学小学助产助产足月足月202583025管理人员管理人员大学大学顺产顺产足月足月202567724知识分子知识分子中学中学顺产顺产早产早产202564730管理人员管理人员大学大学顺产顺产足月足月202584832无无小学小学剖宫产剖宫产足月足月201991527无无中学中学顺产顺产死产死产20
23、2586129无无大学大学剖宫产剖宫产足月足月202460125农民农民中学中学顺产顺产足月足月200038626无无小学小学顺产顺产足月足月第47页,共100页,编辑于2022年,星期六按年龄(按年龄(2岁一组)与职业整理岁一组)与职业整理年龄年龄工人工人管理人员管理人员农民农民商业服务商业服务无无知识分子知识分子总计总计1818 2 2 0 0 0 0 0 0 3 3 0 0 5 52020 9 9 2 2 6 61010 1818 0 0 454522222828 7 710102424 70701111150150242450503434282852521531534444361361
24、26265050434325254545133133707036636628283434353510103434 7878575724824830301111141411112222 3939171711411432321414 2 2 3 31414 2424 3 3 60603434 4 4 2 2 5 5 3 3 1212 2 2 28283636 2 2 1 1 1 1 4 4 5 5 1 1 14143838 3 3 1 1 1 1 0 0 2 2 1 1 8 84040 0 0 0 0 2 2 0 0 0 0 0 0 2 2合计合计 207207 14114110210220820
25、853753720620614011401第48页,共100页,编辑于2022年,星期六二、常用相对数二、常用相对数s绝绝对对数数:通通过过调调查查或或实实验验得得到到的的原原始始数数据据。如如某某病病的的出出院院人人数数、治治愈愈人人数数、死死亡亡人人数等。数等。但绝对数通常不具有可比性:但绝对数通常不具有可比性:1.如如2005级级临临床床五五年年制制一一、二二大大班班学学生生人人数数不不同同时时,比比较较两两班班医医学学统统计计学学的及格人数没有意义的及格人数没有意义,因此需要在绝对数的基础上计算相对数。因此需要在绝对数的基础上计算相对数。s相对数:两个有联系的指标之比相对数:两个有联系
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据特征与统计描述 2幻灯片 数据 特征 统计 描述 幻灯片
限制150内