卫生统计学知识点总结.pdf
《卫生统计学知识点总结.pdf》由会员分享,可在线阅读,更多相关《卫生统计学知识点总结.pdf(14页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、实用文档卫生统计学卫生统计学统计工作根本步骤:统计设计调查设计和实验设计、资料分析收集资料、整理资料、分析资料【统计描述和统计推断参数估计和假设检验】。统计推断:统计推断:是利用样本所提供的信息来推断总体特征,包括:参数估计和假设检验。a 参数估计是指利用样本信息来估计总体参数,主要有点估计把样本统计量直接作为总体参数估计值和区间估计【按预先设定的可信度1-,来确定总体均数的所在范围】。b 假设检验:是以小概率反证法的逻辑推理来判断总体参数间是否有质的区别。变量资料可分为定性变量、定量变量。不同类型的变量可以进行转化,通常是由高级向低级转化。资料按性质可分为计量资料、计数资料和等级资料。定量资
2、料的统计描述定量资料的统计描述1 频率分布表和频率分布图是描述计量资料分布类型及分布特征的方法。离散型离散型定量变量的频率分布图可用直条图直条图表达。2 频率分布表图的用途:描述资料的分布类型;描述分布的集中趋势和离散趋势;便于发现一些特大和特小的可疑值;便于进一步的统计分析和处理;当样本含量足够大时,以频率作为概率的估计值。3 集中趋势和离散趋势是定量资料定量资料中总体分布的两个重要指标。1 1描述集中趋势的统计指标:描述集中趋势的统计指标:平均数算术均数、几何均数和中位数、百分位数是一种位置参数,用于确定医学参考值范围,P50就是中位数、众数。算术均数:适用于对称分布资料,特别是正态分布资
3、料或近似正态分布资料;几何均数:对数正态分布资料频率图一般呈正偏峰分布、等比数列;中位数:适用于各种分布的资料,特别是偏峰分布资料,也可用于分布末端无确定值得资料。2 2描述离散趋势的指标:描述离散趋势的指标:极差、四分位数间距、方差、标准差和变异系数。四分位数间距:适用于各种分布的资料,特别是偏峰分布资料,常把中位数和四分位数间距结合起来描述资料的集中趋势和离散趋势。方差和标准差:都适用于对称分布资料,特别对正态分布资料或近似正态分布资料,常把均数和标准差结合起来描述资料的集中趋势和离散趋势;变异系数:主要用于量纲不同时,或均数相差较大时变量间变异程度的比拟。标准差的应用:标准差的应用:表示
4、变量分布的离散程度;结合均数计算变异系数、描述对称分布资料;结合样本含量计算标准误。定性资料的统计描述1 定性资料的根底数据是绝对数。描述一组定性资料的数据特征,通常需要计算相对数。定性变量可以通过频率分布表描述其分布特征。2 常用相对数类型:频率型、强度型和相比照型指标。指标 频率型指标强度型指标相比照型指标概念 近似反映某一时间出现概率单位时间内某现象的发 两个有关联的指标 A 和 B 之比频率计算公式有无 无量纲取值【0,1】范围有可大于 1可有、可无无限制A/B本质 大样本时作为概率近似值频率强度,即概率强度的表示相对于 B 的一个单位,A 有多少.实用文档分子式分母的一局部似值单位A
5、 和 B 可以是绝对数、相对数和平均A 和 B 的量纲可相同也可不同A 和 B 互不包含相比照:A、B 两指标可以是绝对数、相对数或平均数。最常见的相比照是人口学中的男女性别比,流行病学中的相对危险度 RR=P1/P0也是相比照指标。3 应用相对数应该注意:防止概念混淆,防止以比代率的错误现象;防止概念混淆,防止以比代率的错误现象;计算相对数时分母应有足够数量计算相对数时分母应有足够数量,如果例数较少会使相对数波动较大,应该使用绝对数;正确的计算频率或强度指标的合计值。正确的计算频率或强度指标的合计值。当分组的资料需要合并起来估计频率或强度时,应将各组频率的分子相加作为合并估计的分子,各组的分
6、母相加作为合并估计的分母;频率型指标的解释要紧扣总体和属性;频率型指标的解释要紧扣总体和属性;相对数间比拟要具备可比性:相对数间比拟要具备可比性:要注意观察对象是否同质、研究方法是否相同、观察时间是否一致、观察对象内部结构是否一致、比照不同时期资料应注意客观条件是否相同;正确进行相对数的统计推断:正确进行相对数的统计推断:在随机抽样的情况下,从样本估计值推断总体相对数应该考虑抽样误差,因此要进行参数估计和假设检验。4 医学人口统计资料主要来源为日常工作记录 报告单、卡、册、统计报表、人口调查普查和抽样调查。5 描述人口学特征的常用指标一般有人口总数和反映人口学根本特征的某些指标。人口学的根本特
7、征包括性别、年龄、文化、职业等,最常用来描述人口结构的是性别和年龄。人口学特征指标:老年人口系数、少儿人口系数、负担系数、老少比、性别比。6 有关生育的常用指标有出生率、生育率和人口再生产指标。测量生育水平的统计指标:粗出生率、总生育率、年龄别生育率、总和生育率。测量人口再生育的统计指标:自然增长率、粗再生率和净再生率。7 常用的死亡统计指标有:粗死亡率、年龄别死亡率、婴儿死亡率、新生儿死亡率、围生儿死亡率、死因别死亡率、某病病死率和死因构成等。8 疾病统计资料主要来源于:疾病报告和报表材料、医疗卫生工作记录、疾病专题调查资料。9标准化:两个率或多个率之间进行比拟时,为消除内部构成不同的影响,
8、采用统一的标准,对两组或多组资料进行校正调整,计算得到标准化率后再做比拟的方法,称为。其目的是统一内部构成,消除混杂因素,是资料具有可比性。应用标准化法的考前须知:标准化法的应用范围很广。当某个分类变量在两组中分布不同时,这两个分类变量就成为两组频率比拟的混杂因素,标准化的目的是消除混杂因素标准化的目的是消除混杂因素。标准化后的标准化率,已经不再反映当时当地的实际水平,只表示相互比拟的资料间的相对水平。标准化法实质是找一个标准,使两组得意在一个共同的平台上进行比拟。选择不同的标准,算出的标准化率也会不同,比拟的结果也未必相同,因此报告比拟结果时必须说明所选用的标准和理由两样本标准化率是样本值,
9、存在抽样误差。比拟两样本标准化率,当样本含量较小时,还应作假设检验。1010 常用的动态数列分析指标有:常用的动态数列分析指标有:绝对增长量、开展速度与增长速度、平均开展速度与平均增长速度。1绝对增长量:是说明事物在一定时期增长的绝对值,可分为:累计增长量报告期指标与基线期指标之差和逐年增长量报告期指标与前一期指标之差。2开展速度与增长速度:均为相比照,说明事物在一定时期的变化,可计算定基比即报告期指标与基线期指标的比:an/a0和环比报告期指标与其前一期指标之比:an/an-1。增长速度表示的是净增长速度,增长速度=开展速度-100。3平均开展速度与平均增长速度:用于概括某现象在一段时期中的
10、平均变化。平均开展速度是开展速度n的几何平均数,平均开展速度=ana0,平均增长速度=平均开展速度-100。11 统计表和统计图是描述资料特征、呈现统计分析结果的重要工具。统计表结构标题、标目、线条、数字和备注。.实用文档12 常用统计图用途:条图:适用于相互独立的资料资料有明确分组、不连续;百分条图、圆图适用于构成比资料;线图适用于连续性资料,表达事物的动态变化绝对差值;半对数线图适用于连续性资料,表达事物的开展速度 相比照;直方图用于描述连续变量的频数分布;散点图适用于双变量资料,用点的排列趋势和密集度表示两变量的相关关系。常用概率分布常用概率分布1 1 正态分布连续型随机变量的概率分布正
11、态分布连续型随机变量的概率分布1正态概率密度曲线特点:关于x=对称;在 x=处取得该概率密度函数的最大值,在x=处有拐点;曲线下面积为1;正态分布有两个参数:位置参数决定曲线在横轴上的位置和变异参数决定曲线的形状;1.64面积为 90,1.96面积为 95,2.58面积为 99。2Z 变换与标准正态分布:对于任意一个服从正态分布N,的随机变量,可作 Z 变:Z=2x,变换后的 z 值仍然服从正态分布,且其总体均数为0、总体标准差为 1,称此为标准正态分布标准正态分布,用 N0,1表示。z为标准正态分布 Z 变量的累积面积,-Z 的面积,即下侧累计面积下侧累计面积。3正态分布的应用:确定医学参考
12、值范围:是指特定的“正常人群排除了对所研究的指标有影响的的疾病和有关因素的特定人群的解剖、生理、生化指标及组织代谢产物含量等数据中大多数个体的取值所在范围,习惯用该人群的 95的个体某项医学指标的取值范围作为该指标的医学参考值范围。方法方法:a 百分位数法:适用于任何分布类型的资料;b 正态分布法。质量控制图:如果某一波动仅仅由个体差异或随机测量误差所致,那么观察结果服从正态分布。控制图共有 7 条水平线,中心线位于总体均数处,警戒限位于2处,控制限位于3处,此外还有两条位于处。4确定医学参考值的步骤:从“正常人总体中抽样,明确研究总体;用统一和准确的方法测定相应的指标;根据不同的用途选定适当
13、的百分界限,常用95;根据此指标的实际意义,决定单侧范围还是双侧范围;根据此指标的分布决定计算方法,常用的计算方法:正态分布法、百分位数法。2 2 二项分布:二项分布:(1)是一种离散型随机变量离散型随机变量的分布类型。如果每个观察对象阳性结果的发生概率为,阴性结果的发生概率为1-;而且每个观察对象的结果是相互对立的,那么,重复观察n 个人,发生阳性结果的人数X 的概率分布为而二项分布,记作Bn,。二项分布的概率函数PX=Cn(1-),Cn=n-xxXxn!X!(n X)!适用条件:每次实验只有两种互斥互斥的结果;各次实验互相独立独立;发生成功事件的概率恒定概率恒定。分布特征:二项分布的特征由
14、二项分布的参数以及观察的次数n 决定。图形分布特征:二项分布图的顶峰在=n处或附近;=0.5 时,图形对称;0.5 时,分布不对称,且对同一 n,离 0.5 愈远,对称性愈差。对于同一,随着n 的增大,分布趋于对称。当n时,只要不太靠近 0 或 1特别是当 n和 n1-均大于 5 时,二项分布趋于对称。二项分布的均数和标准差:2假设 X 服从二项分布 Bn,那么X 的总体均数为=n,总体方差为=n1-,总体标准差为=n(1-);假设将出现阳性结果的频率记为:P=X,那么样本率 P 的总体均数为P=,总体方差n为p=2(1-)(1-),总体标准差为p=,p是频率 P 的标准差,又称频率的标准误,
15、反映阳nn性频率的抽样误差大小。累积概率计算:二项分布出现阳性的次数至多为k 次的概率为:P Xk=n!x(1)nXX 0X!(n X)!k.实用文档出现阳性的次数至少为k 次的概率为:PXk=X k(1)X!(n X)!xnn!nX。3 Poisson3 Poisson 分布:分布:是一种离散型随机变量离散型随机变量的分布类型,是二项分布的特例,用以描述单位时间、空间、面积等的罕见事件发生次数的概率分布。一般记作P,是是 PoissonPoisson 分布的唯一参数分布的唯一参数。总体均数为总体均数为=n=n。前提条件:互斥、独立、恒定。X-概率函数为:PX=eX!,X 为观察单位内稀有事件
16、的发生次数,e=2.71828。分布特性:Poisson 分布是非对称的,总体参数值越小,分布越偏;随着,分布趋于对称,当20 时,Poisson 分布资料可按正态分布处理。Poisson 分布总体均数与总体方差相等,均为;Poisson分布的观察结果可加性,即对于服从Poisson 分布的 m 歌互相独立的随机变量X1、X2Xm,它们的和也服从 Poisson 分布,其均数为这个 m 随机变量的均数之和。概率计算:如果稀有事件发生次数的总体均数为,有事件发生次数至多为k 次的概率为:PXk=eX 0kXX!;生次数至少为 k 次的概率:PXk=1-PXk-14 4 三种常用分布之间的关系:三
17、种常用分布之间的关系:二项分布与 Poisson 分布的关系:当n 很大,发生概率或1-很小,二项分布Bn,近似于Poisson 分布 Pn;二项分布与正态分布的关系:当n 较大,不接近0 或 1特别是当 n和 n1-均大于5 时,二项分布 Bn,近似于正态分布Nn,n1-;Poisson 分布与正态分布的关系:当20 时,Poisson 分布渐进正态分布 N,。5 5 二项分布与二项分布与 PoissonPoisson 分布的区别:分布的区别:相同点:都是离散型随机变量的常见分布;区别:a 取值不同。服从二项分布的随机变量有n+1 个不同的取值;Poisson 分布的随机变量的可能去只有 无
18、 限 多 个,即 非 负 整 数 0,1,2;b 随 机 变 量 的 概 率 不 同:二 项 分 布 P X=k=n!-kn-k(1-),Poisson 分布 PX=k=ek!;c 描述的随机变量不同。二项分布描述的是一次k!(n k)!k试验只会出现两种对立的结果之一,n 次独立重复试验中某种结果出现次数的概率分布。Poisson 分布描述的是在单位时间、面积、空间等范围中某种事件发生数的概率分布。Poisson 分布。联系:Bn,参数估计参数估计1 在服从正态分布的总体中进行随机抽样,样本均数的抽样分布特点:各样本均数未必等于总体均数;样本均数见存在差异;样本均数围绕总体均数,中间多、两边
19、少,左右根本对称,呈近似正态分布;样本均数间的变异明显小于原始变量间的变异。2 2 标准误:标准误:均数的标准误的理论值:X=n很大,很小,总体标准差通常未知,需用样本标准差S 来估计,均数标准误的n.实用文档估计值为:SX=sn;频率的标准误:假设随机变量XBn,,那么样本频率 P=X的总体概率为,n标准误是p=(1-),频率标准误的估计值:SP=np(1-p)n 1p(1-p)增加样本含量可以n减少样本误差。3 3 标准差与标准误的区别与联系:标准差与标准误的区别与联系:区别:区别:标准差 S:意义:描述个体观察值变异程度的大小。标准差小,均数对一组观察值得代表性好;应用:与X结合,用以描
20、述个体观察值的分布范围,常用于医学参考值范围的估计;与 n 的关系:n 越大,S 越趋于稳定;标准误 SXX:意义:描述样本均数变异程度及抽样误差的大小。标准误小,用样本均数推断总体均数的可靠性大;应用于X结合,用以估计总体均数可能出现的范围以及对总体均数作假设检验;与n 的关系:n 越大,SX越小。联系:联系:都是描述变异程度的指标;由SX=sn可知,SX与 S 成正比。n 一定时,s 越大,SX越大。4 t4 t 分布:分布:当 X 服从均数为的正态分布时,统计量t X sn服从自由度为 v=n-1 的 t 分布,是小样本总体均数的区间估计及假设检验的理论根底。t 分布的图形特征:t 值得
21、分布于自由度有关。t 分布只有一个参数即 v。特征:单峰分布,以 0 为中心,左右对称;v 越小,t 值越分散,曲线的峰部越矮,尾部越高;随着v 逐渐增大,t 分布逐渐接近标准正态分布;当v 趋向时,t 分布趋近标准正态分布,故标准正态分布是t 分布的特例;t 分布是一簇曲线。t 界值表:在自由度相同时,t值越大,t 分布的尾部概率越小;在 t 临界值相同时,双侧尾部面积概率为单侧尾部面积概率的两倍。5 5 参数估计:参数估计:包括点估计和区间估计。置信区间的两个要素:置信区间的两个要素:准确度:反映置信度1-的大小,及区间包括总体均数的理论概率的大小,愈接近1 越好;精密度:即区间的宽度,区
22、间越窄越好,如样本含量不变,将置信度由 95提高到 99,那么置信区间由窄变宽,估计的精度下降。6 6 总体均数及总体概率的区间估计:总体均数及总体概率的区间估计:体均数的置信区间:t 分布法和正态近似法I.t 分布法:当未知且 n 较小时,总体均数的双侧 1-置信区间为Xt/2,vSX;单侧 X-t,vSX,或-,X+t,vSX;II正态近似法:当时,总体均数的双侧 1-置信区间为XZ/2,vX;单侧X-Z,vX,或-,X+Z,vX;当未知但 n 足够大时n50,t 分布近似服从标准正态分布,总体均数的双侧1-置信区间为:XZ/2,vSX,单侧X-Z,v SX,或-,X+Z,v SX总体概率
23、的置信区间:对于二项分布的样本资料,可根据样本含量n 和样本频率 p 的大小,选用查表法n50,特别是 p 很接近 0 或 100时或正态近似法估计总体概率的1-置信区间。正态近似法:当 n 足够大,且 np 及 n(1-p)均大于 5 时,p 的抽样分布近似正态分布,总体概率的双侧 1-.实用文档置信区间等于 PZ/2Sp7 7 医学参考值范围与总体均数的置信区间的区别:医学参考值范围与总体均数的置信区间的区别:参考值范围意义:绝大多数人某项指标的数值范围;计算:正态分布双侧XZ/2,vS;单侧X-ZS,或-,X+ZS偏峰分布双侧 PXP100-X;单侧PX,或-,P100-X应用:判断某项
24、指标正常与否总体均数的置信区间:意义:按一定的置信度估计总体均数所在范围;计算:正态分布未知:双侧Xt/2,vSX,单侧X-t,vSX,或-,X+t,vSX;:双侧XZ/2,vX,单侧X-Z,vX,或-,X+Z,vX;正态分布或偏峰分布:未知但n 足够大:双侧XZ/2,vSX,单侧X-Z,v SX,或-,X+Z,v SX应用:估计总体均数所在范围。假设检验假设检验1 1 假设检验的过程:假设检验的过程:建立检验假设,确定检验水准计算统计量确定P 值并与给定的比拟做出推断结论。2 2 假设检验的根本逻辑:假设检验的根本逻辑:在 H0成立的条件下处理因素不起作用,计算统计量和 P 值,把“不太可能
25、出现假阳性当作“不可能出现假阳性,从而拒绝H0,接受 H1处理因素起作用。3 3 假设检验的两类错误:假设检验的两类错误:型和型错误。见名解实际情况统计推断拒绝 H0,有差异不拒绝 H0,无差异H0成立,无差异第类错误假阳性,概率=正确,概率=1-H1成立,有差异正确,该概率=1-第类错误假阴性,概率=4t4t 检验:检验:应用条件:随机样本:来自正态分布总体;均数比拟时,要求两总体方差相等方差齐性。单样本资料的单样本资料的 t t 检验:检验:实际上是推断该样本来自的总体均数与的某一总体均数0有无差异。检验假设:H0:=0,H1:0;前提条件:样本来自正态总体;计算公式:t X 0sn;自由
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 卫生 统计学 知识点 总结
限制150内