《计量资料的统计描述.ppt》由会员分享,可在线阅读,更多相关《计量资料的统计描述.ppt(64页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、计量资料计量资料的统计描述的统计描述 1统计学中的几个基本概念1、同质与变异2、总体与样本3、普查与抽样4、参数与误差5、频率与概率(小概率事件)21.同 质 与 变 异 同质(homogeneity)指事物某方面的性质、影响条件或背景相同或相近变异(variation)同质个体间的差异。来源于一些未加控制或无法控制的甚至不明原因的因素。是统计学存在的基础。从本质上说:统计学就是通过对个体变异的研究,揭示同质事物的本质特征与规律。32.总 体 与 样 本总体参数(parameter)根据研究目的确定的研究对象的全体,即性质相同的所有观察对象的集合;分为有限总体和无限总体。样本统计量(stati
2、stics)总体中的部分;研究对象。总体与样本的关系统计学解决的问题:正确从样本特征推测总体水平。抽样:从总体中选择样本的过程。样本量(sample size):样本所包含的个体数目。42.总 体 与 样 本参数:总体统计学特性的数字,包括总体均数、总体方差、总体标准差;大多数得不到总体数据,参数是未知的估计总体结果是统计学的目的之一53.普查 与 抽样普查:全面调查,根据研究目的确定总体,人口普查,肿瘤普查是社会学/卫生防疫的指标确定的依据注意时效性、变化性传染病报告制度,地震伤亡等都属于普查63.普查 与 抽样选择样本的方法:概率抽样和非概率抽样7 等概率抽样等概率抽样非等概率抽样非等概率
3、抽样单单纯纯随随机机抽抽样样系系统统抽抽样样分分层层抽抽样样整整群群抽抽样样概率抽样、非概率抽样概率抽样:每个对象被抽中的概率是已知/可计算的,其样本统计量是参数估计和计算误差的基础;等概率抽样:随机抽样不等概率抽样:多单位被抽取的概率不同,可能会得到更有效的估计量非概率抽样:抽样概率未知/无法计算,按主观、有目的、为方便进行抽样;不能计算抽样误差,或一般按简单随机抽样计算误差。配额抽样、滚雪球/识别抽样8A 单 纯 随 机 抽 样 *将调查总体的全部观察单位编号,*用抽签法或随机数字表法进行抽样。*它是最基本的抽样方法,也是其他抽样方法的基础。9B 系 统 抽 样 *按照一定顺序机械地每隔若
4、干个单位抽取一个单位,又称机械抽样、等距抽样。*其抽样间隔(总体数量样本含量),一般是随机找一个单位为起点,以后按抽样间隔进行抽样。10 分 层 抽 样*先将总体中所有观察单位按主要特征(如年龄、性别、病情轻重等)分为若干层次 *在各层次中进行随机抽样。*要求层内个体差异越小越好层间差异越大越好。*优点是抽样误差小,不同层可采用不同抽样方法,各层可独立进行分析。11D、整群抽样 整群抽样不是按个体进行抽样,而是抽取由个体组成的群体的抽样方法。如抽取的是该地区若干个县的全体居民。整群抽样的主要持点是以“群”为基本抽样单位。抽样误差由小到大的依次为:分层抽样 系统抽样 单纯随机抽样 60,60平均
5、存活天数?中位数(median)是将每个变量值从小到大排列,位置居于中间的那个变量值。40存活天数存活天数 2,3,4,7,9,10,13,15,50,60,60秩次秩次 1 2 3 4 5 6 7 8 9 10 11 计 算 公式:n为奇数时 n为偶数时 41例 9名中学生甲型肝炎的潜伏期分别为12,13,14,14,15,15,15,17,天,求其中位数。42百分位数将N个观察值从小到大依次排列,再分成100等份,对应于X%位的数值即为PX。中位数是百分位的特殊形式P50。同样还有四分位数、十分位数等。表示:PX=L+(nX%fL)L 组段下限,i 组距,fX 组段频数,n 总频数,fL
6、以前累计频数。应用:偏态资料计算:page51,4-8PX=12+(145 50%6343ifx63844频数表资料的中位数下限值下限值L上限值上限值Ui;fm中位数中位数M中位数的特征1.计算时只利用了位置居中的测量值 优点:对极值不敏感 缺点:并非考虑到每个观测值2.适用于各种分布类型的资料,特别适合于:大样本偏态分布资料 或者一端或两端无确切数值的资料 45 例 试分别求表频数表的第25、第75百分位数。46P254.0+0.5x(150 x25%P755.0+0.5x(150 x75%47百分位数示意图百分位数示意图(二)百分位数(二)百分位数一、离散趋势的描述集中趋势指标(平均数)只
7、能反映指标的集中位置,不能反映变量值在分布上的“分散、参差”的离散程度,因此需要引入离散趋势指标48n全距(R对变异性的描述不稳定、粗略)n四分位数间距:QQUQLP75P25(Q反映了中间一半观察的极差,对变异性的描述也不够理想)n方差和标准差 S(方差和标准差反映了每个观察值之间的离散程度)n变异系数:CV=S/x100%(单位不同的多组数据比较,均数相差悬殊的多组资料)49方差和标准差相关概念:离均差 X ,离均差平方和 SS=(X )2,方差(2,S2):2=,标准差(S,),自由度n-1标准差的计算(实用公式):S=()1/250f X02 (f X0)2/nn 1(X )2N标准差
8、标准差的意义:全面反映了一组观察值的变异程度.(越大说明围绕均数越离散,反之说明较集中在均数周围,均数代表性越好)标准差的应用:描述变异程度、计算标准误、计算变异 系数、描述正态分布、估计正常值范围5152已知:已知:x=119.95cm,s=4.72cm.试问试问:(1)估计该地估计该地7岁男童身高在岁男童身高在110cm以下者以下者 占该地占该地7岁男童的百分比。岁男童的百分比。(2)估计该地估计该地7岁男童身高在岁男童身高在130cm 以上者占该地以上者占该地7岁男童的百分比。岁男童的百分比。(3)估计该地估计该地7岁男童身高在到岁男童身高在到 之间的占该地之间的占该地7岁男童的百分岁男
9、童的百分 比。比。例题:某市例题:某市1982年年110名名7岁男童的身高岁男童的身高第三节正态分布1、图形2、特征3、面积53541、正态分布的图形f(x)=1(2p)p)1/21/2 e(x)222 2 55正态分布2、正态分布的特征均数处最高;均数x=为中心对称,两边以x轴为渐进线;2个参数 N(位置参数u,形态参数)曲线下的面积有一定规律,求函数积分。正态分布的特殊形式:标准正态分布N(0,1)56573、面积、面积标准正态曲线横轴上曲线下的面积为1曲线下,横轴上对称于0的面积相等已经做成标准表,供查u,已知时,进行标准正态变换再查表u,未知时,用样本的均数和标准差代替如例6-1,pa
10、ge 89.5859第四节医学正常值范围的估计第四节医学正常值范围的估计l(又称又称参考值范围参考值范围)是指特定健康人群的解剖、是指特定健康人群的解剖、生理、生化等各种数据的波动范围。习惯上生理、生化等各种数据的波动范围。习惯上是确定包括是确定包括95%的人的界值。的人的界值。l单双侧:单双侧:根据指标的实际用途,有的指标有根据指标的实际用途,有的指标有上下界值,过高过低均属异常;某些指标过上下界值,过高过低均属异常;某些指标过高为异常,只需确定上限;某些指标过低为高为异常,只需确定上限;某些指标过低为异常,只需确定下限。异常,只需确定下限。l估计的方法:估计的方法:1、正态分布法、正态分布
11、法2、百分位数法、百分位数法1.正态分布法应用条件:正态分布或近似正态分布资料 计算:双侧1参考范围:X u/2S 单侧1参考范围:X uS X+uS 如例6-3,page 94602.百分位数法 应用条件:偏态分布资料 计算公式 95%:双侧界值:P P 97.5 单侧 上界:P 95 单侧 下界:P 5 如例6-4,page 9561小结习题:1.各观察值加同一数后:A.均数不变,标准差改变 B.均数改变,标准差不变C.二者均不变 D.均改变2.用均数和标准差可全面描述:A.正偏态资料 B.负偏态资料 C.正态分布和近似正态分布 D.任何分布3.正态分布曲线下,从均数u 到u 的面积为;A.95%B.45%C.97.5%D.47.5%4.1976年美国8岁男孩的平均身高为146厘米,标准差为8厘米,估计在该研究中有%多少的男孩平均身高在138与154之间?又有多少在130到162之间?62思 考 题概率与频率的区别与联系正态曲线下,横轴上,从均数到+的面积为多少?63作业:Page67 三、1,再增加两问:(4)计算和,并与比较 ;(5)分别考察 、范围内的实际频率与理论频率是否一致?Page68 三、2、3Page103 三、1、264
限制150内