2022年医学统计学知识点 .pdf
《2022年医学统计学知识点 .pdf》由会员分享,可在线阅读,更多相关《2022年医学统计学知识点 .pdf(18页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第一章绪论1、统计学 ,是关于数据收集、整理、分析、表达和解释的普遍原理和方法。2、研究对象 :具有不确定性结果的事物。3、统计学作用 :能够透过偶然现象来探测其规律性,使研究结论具有科学性。4、统计分析要点:正确选用统计分析方法,结合专业知识作出科学的结论。5、医学统计学基本内容:统计设计、数据整理、统计描述、统计推断。6、医学统计学中的基本概念(1) 同质与变异同质,指根据研究目的所确定的观察单位其性质应大致相同。变异,指总体内的个体间存在的、绝对的差异。统计学通过对变异的研究来探索事物。(2) 变量与数据类型变量 ,是反映实验或观察对象生理、生化、解剖等特征的指标。变量的观测值,称为数据
2、分为三种类型:定量数据 ,也称 计量资料 ,指对每个观察单位某个变量用测量 或其他定量方法准确获得的定量结果。(如身高、体重、血压、温度等)定性数据 ,也称 计数资料 ,指将观察单位按某种属性分组计数 的定性观察结果。包括二分类、无序多分类。(进一步分为二分类和多分类,如性别分为男和女,血型分为A、B、O、AB 等)有序数据 ,也称 半定量数据或等级资料,指将观察单位按某种属性的不同程度或次序分成等级 后分组计数的观察结果,具有半定量性质。统计方法的选用与数据类型有密切的关系。(3)总体与样本总体,指根据研究目的确定的所有同质 观察单位的全体,包括所有定义范围内的个体变量值。样本,是从研究总体
3、中随机抽取部分有代表性的观察单位,对变量进行观测得到的数据。抽样,是从研究总体中随机抽取部分有代表性的观察单位。参数,指描述 总体特征 的指标。统计量,指描述样本特征 的指标。(4)误差误差,指观测值与真实值、统计量与参数之间的差别。可分为三种:系统误差,也称统计偏倚,是某种必然因素所致,不是偶然机遇造成的,误差的大小通常恒定,具有明确的方向性。随机测量误差,是偶然机遇所致, 误差没有固定的大小和方向。抽样误差,是抽样引起的统计量与参数间的差异。抽样误差主要来源于个体的变异。统计学主要研究抽样误差。(5)概率概率,是描述某事件发生可能性大小的量度。必然事件,事件肯定发生,概率P(U)1;随机事
4、件,事件可能发生,可能不发生,概率介于0P(A) 1;不可能事件,事件肯定不发生,概率P() 0;小概率事件,事件发生的可能性很小,概率P(A) 0.05 、或 P(A) 0.01 。精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 1 页,共 18 页医学科研中,P(A)0.05作为事物差别有统计意义,P(A) 0.01 作为事物差别有高度统计意义。第二章定量数据的统计描述定量数据的统计描述方法:频数表、直方图、统计指标。(1)频数分布频数分布的目的:了解数据的分布范围、集中位置以及分布形态等特征,以便根据资料分布情况选择合适的统计方法。频数分布的
5、用途:作为陈述资料的形式;便于观察数据的分布类型;便于发现数据中特大或特小的可疑值;当样本量大时,可用各组段的频率作为概率的估计值。计算全距( range,R): 是一组数据的最大值与最小值之差。RMax-Min 确定组数与组距样本量在100 例左右,组数选择815 之间,一般取10 组左右。组距 全距/组数确定组限第一组段必须包括最小值,最后一组段必须包括最大值。最后一组段包括最大值,且一般情况下应包含该组段上限,其余各组段区间左闭右开。计算各组段频数(frequency): 即计算各组段内观察值的个数。计算各组段频率(percent): 即计算各组段频数与总观察值个数之比,用百分数表示。计
6、算累计频数(cumulative frequency)和累计频率(cumulative percent):累计频数是由上至下将频数累加;累计频率 是由上至下将频率累加。(2)直方图直方图, 是以垂直条段代表频数分布的一种图形。(3)频数分布表的用途1、作为称述资料的形式,可以代替原始资料,便于进一步分析。2、便于观察数据的分布类型。资料分布类型分为:对称分布和偏态分布。在统计分析时常需要根据资料的分布形式选择相应的统计分析方法,因此对数据分布形式的判定非常重要。3、便于发现资料中某些远离群体的特大或特小值。4、当样本含量比较大时,可用各组段的频率作为概率的估计值。集中趋势的统计指标平均数, 是
7、描述一组观察值集中位置或平均水平的统计指标,常作为一组数据的代表值用于分析和进行组间的比较。常用的有算术均数、几何均数、中位数、百分位数等。算术均数, 等于一个变量所有观察值的和除以观察值个数。总体均数用希腊字母表示,样本均数用符号拔 表示。算术均数 适用于 对称分布的资料,如分布均匀的小样本数据或近似正态分布的大样本数据。算术均数易受极端值的影响,并且受极大值的影响大于受极小值的影响。几何均数几何均数( geometric mean,G), 等于一个变量所有n 个观察值的乘积的n 次方根。几何均数适用于取对数后近似呈对称分布的资料,尤其是右偏态分布数据。医学研究中常精选学习资料 - - -
8、- - - - - - 名师归纳总结 - - - - - - -第 2 页,共 18 页用于比例数据。【注】计算几何均数的观察值不能小于或等于0,因为无法求对数。中位数中位数( median,M), 是在按大小顺序排列的变量的所有观察值中,位于正中间的一个或两个数值。当数据呈偏态分布、或频数分布两端无确定数值,均宜采用中位数描述集中趋势。中位数的确定取决于它在数据序列中的位置,因此对极端值不敏感。百分位数百分位数( percentile), 是一个位置指标,它将一组变量值排列后划分为若干相等部分的分割点数值。用Px 表示, X 用百分数表示。表示在按照升序排列的数据中,其左侧( Px )的观察
9、值个数在整个样本中所占百分比为X %,其右侧( Px )的观察值个数在整个样本中所占百分比为(100X )% 。百分位数不论资料分布类型均可计算,在实际工作中常用于确定医学参考值范围;在假设检验中用作拒绝或不拒绝检验假设的界值。百分位数并非由全部观察值综合计算得来,因此,它不如均数和标准差精确;然而中间部分的百分位数因不受资料中个别极端数据的影响,具有较好的稳定性。小 结指 标意 义适用场合均 数个体的平均值对称分布,特别是正态分布资料。几何均数平均倍数取对数后对称分布。中位数位次居中的观察值非对称分布;半定量资料;末端无确切数值;分布不明。变异程度的统计指标变异指标,又称离散指标,用以描述一
10、组计量资料各观察值之间参差不齐的程度。变异指标越大,观察值之间差异愈大,说明变异程度越大;反之亦然。常用的有极差、四分位数间距、方差、标准差和变异系数。极 差极差( range,R),等于一个变量所有观察值中最大值与最小值之间的差值。R Max Min 缺点:没有利用观察值的全部信息,不能反映其它数据的离散度;各样本含量大小悬殊时,不宜比较其极差;极差的抽样误差也较大,所以不够稳定。极差仅适用于对未知分布的小样本资料作粗略的分析。四分位数间距四分位数, 是统计学对特殊的三个百分位数P25% 、 P50% 和 P75%的统称四分位数间距(quartile range,Q), 等于第三四分位数与第
11、一四分位数之间的差值。Q P75% P25% 精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 3 页,共 18 页缺点:没有利用观察值的全部信息,不能反映其它数据的离散度;四分位数间距仅用来描述大样本偏态资料的变异情况。方 差方差( variance), 是描述一个变量的所有观察值与总体均数的平均离散程度的指标。总体方差用2 表示,样本方差用S2表示。标准差标准差( standard deviation,S ),是描述一个变量的所有观察值与均数的平均离散程度的指标。总体标准差用表示,样本标准差用S 表示。标准差方差或标准差属同类变异指标,它们多用来
12、描述均匀分布或近似正态分布的资料,大、小样本均可,其中以标准差的应用最广,通常与均数结合使用。比如在许多医学研究报告中常用X 拔 S 的形式表达资料。变异系数变异系数( coefficient of variation,CV ),是一个度量相对离散程度的指标。CV是无量纲的指标,可以用来比较几个量纲不同的指标变量之间的离散程度的差异,或比较量纲相同但均数相差悬殊的变量之间的离散程度的差异。小 结指 标意 义适用场合极 差观察值的取值范围不拘分布形式,概略分析。四分位数间距居中半数观察值的极差非对称分布;半定量资料;末端无确切数值;分布不明。标准差(方差)观察值距离均数的平均程度对称分布,特别是
13、正态分布资料。变异系数变异程度大小的对比不同量纲的变量间比较;量纲相同但数量级相差悬殊的变量间比较。第三章正态分布与医学参考值范围正态分布, 是一种连续型随机变量常见而重要的分布。正态曲线 ,是一条高峰位于中央,两侧逐渐下降并完全对称,曲线两端永远不与横轴相交的钟型曲线。如果随机变量X 的分布服从概率密度函数和概率分布函数称连续型随机变量X 服从正态分布,记为XN (, 2 )。为圆周率,e 为自然对数的底值,为总体标准差,为总体均数。正态分布的特征精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 4 页,共 18 页1、正态分布是单峰分布,以X =
14、为中心,左右完全对称,正态曲线以X 轴为渐近线,两端与X 轴不相交。2、正态曲线在X = 处有最大值,其值为f( )=1/( 2 ) ;X 越远离 ,f(X) 值越小,在X= 处有拐点,呈现钟形。3、正态分布完全由参数和 决定。是位置参数,决定正态曲线在X轴上的位置。在一定时,增大,曲线沿横轴向右移动;较小,曲线沿横轴向左移动。是形状参数,决定正态曲线的分布形态。越大,曲线的形状越“ 矮胖 ” ,表示数据分布越分散;越小,曲线的形状越“ 瘦高 ” ,表示数据分布越集中。正态曲线下面积分布规律1、服从正态分布的随机变量在某一区间上的曲线下面积与其在同一区间上取值的概率相等。2、曲线下的总面积为1
15、或100%,以 为中心左右两侧面积各占50%,越靠近 处曲线下面积越大,两边逐渐减少。3、所有的正态曲线,在左右的任意个标准差范围内面积相同。一些特殊情况,在 范围内的面积约为68.27%,在 1.96范围内的面积约为95.00%,在 2.58范围内的面积约为99.00%。标准正态分布对任意一个服从N ( , 2 )分布的随机变量X,经 Z=X- / 变换都可以转为=0 、 =1的标准正态分布,也称随机变量的标准化变换。标准正态分布的应用实际应用中,经z 变换可把求解任意一个正态分布曲线下面积的问题,转化成标准正态分布曲线下相应面积的问题。正态分布的应用1、制定医学参考值范围2、质量控制3、正
16、态分布是很多统计方法的理论基础医学参考值范围医学参考值范围,指正常人的解剖、生理、生化、免疫及组织代谢产物的含量等各种数据的波动范围。医学参考值范围,习惯上是包含95%的参照总体的范围。制订的注意事项a、抽取足够例数的同质“ 正常人 ” 样本“ 正常人 ” 的定义,样本量(n120),随机化。b、确定具有实际意义的统一测量标准指标的测量方法等要有规定,控制测量误差。c、根据指标的性质确定是否要分组根据实际情况、专业知识。d、根据指标含义决定单、双侧范围单侧下限,过低异常;单侧上限,过高异常;双侧,过高、过低均异常。e、选择适当的百分范围绝大多数人,一般80%、90%、95%、99%;减少误诊,
17、取较大范围;减少漏诊,取较小范围。f、估计参考值范围精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 5 页,共 18 页根据资料分布类型:正态分布法、百分位数法。第四章定性数据的统计描述相对数 ,是两个有关的绝对数之比,也可以是两个统计指标之比。计算相对数的意义主要是把基数化作相等,便于相互比较。相对数 主要用于 定性资料的统计描述。常用的指标有频率、构成比、相对比。频 率频率 (rate),表示在一定范围内某现象的发生数与可能发生的总数之比,说明某现象出现的频率或概率。总体率 用 来表示, 样本率 用 P来表示。需要注意的是,率在更多情况下是一个
18、具有时间概念的指标,即用于说明在一段时间内某现象发生的强度或频率。构成比构成比, 表示某事物内部各组成部分在整体中所占的比重。构成比之和应为100,某一构成部分的增减会影响其他构成部分相应的减少或增加;而某一部分率的变化并不影响其他部分率的变化,且其平均率不能简单地将各率相加后平均求得。相对比相对比 ,是 A、B 两个有关联指标之比,用以描述两者的对比水平。相对危险度(relative risk,RR), 用于流行病学中队列研究资料。比数比( odds ratio,OR),用于流行病学中病例对照研究资料。小 结指 标计算公式适用场合频率n/N估计总体中某一结局发生的概率或可能性构成比n1/N,
19、n2/N, ,nk/N估计总体中所有可能结局所占的比例或比重相对比A/B估计两个指标的相对大小构成比表示某事物内部各部分所占的比例或比重,频率是表明某现象发生的频率或概率。构成比的分子中的个体一定是分母中的一部分,而相对比则不一定;构成比是同一类事物的数值之比,相对比可以是任意两个数值之比。相对数的使用注意a、区别构成比和频率频率,强度相对数;构成比,结构相对数。b、使用相对数时分母不宜过小如分母太小,用绝对数表示,如“3 例中死亡例” 。c、注意相对数的可比性研究对象要同质,方法要相同,观察时期要一致等。d、考虑存在抽样误差对总体进行推断应作统计学检验。率的标准化标准化率, 是为了在比较两个
20、不同人群的患病率、发病率、死亡率等资料时,消除内部构成(如年龄、性别、工龄、病程长短等)不同而不能直接比较所产生的影响。标准化率仅用于相互比较,不代表实际水平;当标准构成不同时,标准化率一般也不相同精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 6 页,共 18 页。标准构成的选取从外部取一个公认的标准构成比,如全国范围或全省范围的数据、国际间比较时取世界通用标准。将几个组的观察例数合并,计算出合并的构成比,以其作为标准构成比。取某一个组的构成比为标准构成比。医学中常用相对数指标死亡率,又称粗死亡率,表示某年某地每千人中的死亡人数。反映当地居民总体
21、死亡水平。对不同地区的死亡率进行比较时,应注意不同地区人口年龄或性别构成的影响。若年龄或性别构成存在差异,需先将死亡率标化后再进行比较。年龄别死亡率,表示某年某地某年龄组每千人口中的死亡数。死因别死亡率,表示某年某地每10 万人中因某种疾病死亡的人数。反映各类病伤死亡对居民生命的危害程度。死亡 (因)构成,也称相对死亡比,表示全部死亡人数中,死于某死因者占总死亡数的百分比。反映各种死因的相对重要性。疾病统计指标发病率, 表示在一定期间内,一定人群中某病新发生的病例出现的频率。反映疾病对人群健康影响和描述疾病分布状态的一项测量指标。患病率,也称现患率,表示某一时点某人群中患某病的频率。反映病程较
22、长的慢性病的发生或流行情况。病死率, 表示某期间内,某病患者中因某病死亡的频率。反映该疾病的严重程度和医疗水平。治愈率, 表示接受治疗的病人中治愈的频率。第五章统计表与统计图统计表, 把反映某事物的数量特征以及相互关系的统计数字用表格的形式归纳起来。特点:避免冗长的文字叙述、减少篇幅;便于表达事物间的内在联系和区别;便于分析、比较并易于发现和纠正错误。编制原则a、重点突出,简单明了一张表表达一个中心内容或主题。b、主谓分明,层次清楚定语在标题内,主语作为横标目,谓语作为纵标目。c、数据表达规范、文字和线条从简结 构a、标题位于统计表的最上部,应包括表的编号。b、标目纵标目标示相应一列(或数列)
23、的内容;横标目标示相应行的内容。c、线条精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 7 页,共 18 页不宜太多,一般为三线表;不允许使用竖线与斜线。d、数字一律使用阿拉伯数字;同一指标的小数位数应一致,位次要对齐;数值为零时应写“0”,缺省用“”表示,不存在或不需要用“”表示。e、备注不是统计表的必须项目,需要时才用;位于统计表的最下部,表格之外,用“*”号标出。统计图统计图,是指用几何图形(点、线段、直条等)显示统计指标的大小、对比关系或变化趋势。特点:与统计表相比,统计图更加直观,更便于比较和分析。但它不能确切地显示数字大小,因此常与统计
24、表一并使用。常用的统计图有:条图、圆图、百分条图、线图、直方图等。制作原则a、根据资料性质、分析目的选用适当的统计图b、一个图表达一个中心内容或主题。c、图形应准确、美观。结 构a、标题位于统计图的下方,应包括图的编号。b、图域一般用直角坐标系第一象限的位置表示图域。c、标目纵标目和横标目,表示纵轴和横轴数字刻度;一般有度量衡单位。d、图例对图中不同颜色或图案代表的指标进行注释;图例放在横标目与标题之间,或放在图域中。e、刻度刻度数值从小到大,纵轴由下向上,横轴由左向右。描述定量数据的统计图直方图, 用于表示连续变量频数分布情况。线图 ,适用于描述一个变量随另一个变量变化的趋势。半对数线图,用
25、来比较事物之间相对的变化速度。箱图,适用于比较多组资料的集中趋势和离散趋势。一般选用五个描述统计量(Min 、P25、M、P75、Max)来绘制。误差条图, 适用于比较多组资料的均值和可信区间。散点图, 用点的密集程度和变化趋势来表示两指标之间的直线或曲线关系。条图 ,适用于各组资料之间指标的比较。圆图, 描述一组构成比资料。精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 8 页,共 18 页百分条图, 描述多组构成比资料小 结图形主要目的说明条图比较各组之间的统计指标的差别一个坐标轴为组名称,另一个坐标轴为频率;多个指标变量可放在一个图中圆图描述
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年医学统计学知识点 2022 医学 统计学 知识点
限制150内