2022年医学统计学复习知识点汇集 .pdf
《2022年医学统计学复习知识点汇集 .pdf》由会员分享,可在线阅读,更多相关《2022年医学统计学复习知识点汇集 .pdf(5页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、正态分布( normal distribution ) :随着观察例数逐渐增多,组段不断分细,直方图顶端的连线就会逐渐形成一条高峰位于中央(均数所在处),两侧逐渐降低且左右对称,不与横轴相交的光滑曲线,称频数曲线,近似于数学上的正态分布。变异系数 (coefficient of variance):是相对数没有单位,用来比较度量单位不同或均数相差悬殊的两组或多组资料间的变异度。%100 xSCV抽样误差 (sampling error ):总体中各个体间存在差异,从总体中随机抽取一定量的样本,由样本计算的统计与总体参数之间的差异或各样本统计量之间的差异,称为抽样误差。第一类错误:拒绝了实际上成
2、立的H0,即样本原本来自=0 的总体,由于抽样的偶然性得到了较大的t值,较小的 P 值,按=0.05 检验水准拒绝了H0,接受了 H1,这类“弃真”错误称为第一类错误。假设检验( hypothesis test ):亦称显著性检验,其基本思想是先对总体的参数或分布做出某种假设,然后根据样本信息选用适当的方法,推断此假设应当拒绝或不拒绝。同质(homogeneity) :指被研究指标的影响因素相同;变异 (variation) : 指同质基础上的各观察单位间的差异。变量 (variable) :进行搜集资料时,都要有明确的观察单位,然后对每个观察单位的某项特征进行观测,这种被观察单位的特征称为变
3、量。总体:总体是根据研究目的确定的同质研究对象中所有观察单位某种变量值的集合。样本:样本是从总体中随机抽取部分观察单位(有代表性) ,其变量值的集合。概率:是描述随机事件发生的可能性大小的量(数值),统计学上用符号“P”来表示。误差:指测定值与真实值或研究结果与实际情况之间的差别,有系统误差、随机测量误差和抽样误差。参数(paramerter) :描述总体变量值特征的指标,一般未知,需通过样本指标估计,用希腊字母表示。统计模型(statistical model) : 指以概率论为基础,采用数学统计方法建立的模型.常用的这类模型有:标准差模型 ,回归模型 . 可信区间 (confidence
4、interval) :是按一定的概率100(1-)%估计总体均数所在的范围,亦称估计区间。常取的可信度为95%和 99%。卡方检验 (chi-square test) :是一种用途很广的假设检测方法,适用于分类变量资料中推断两个或多个总体率(或构成比)之间有无差别,两个分类指标之间有无相关关系的检验以及检验频数分布的拟合优度。样本例数 (sample size) :又称样本含量,样本大小,指样本中所包含的观察单位数。四分位数间距 (quartile range) :为上四分位数QU(即P75)与下四分位数QL(即 P25)之差。其间包括一组观察值的一半, 可看成是中间50%观察值的极差。 其数
5、值越大,变异度越大,反之,变异度越小。常用于描述偏态频数分布及分布的一端或两端无确切数值资料的离散程度。全距 (range) :亦称极差,为一组同质观察值中最大值与最小值之差。它反映了个体差异的范围,描述定量资料的变异度大小。频数表的用途和基本步骤:(1)揭示资料的分布特征和分布类型;(2) 便于进一步计算指标和分析处理;(3)便于发现某些特大或特小可疑值。基本步骤:(1)求出极差;(2)确定组段,一般设815个组段;(3)确定组距;组距=R/组段数,但一般取一方便计算的数字;(4)列出各个组段并确定每一组段频数。统计工作的步骤: (1)设计; (2)搜集资料;来源:医学领域的统计资料主要来自
6、三个方面,统计报表,经常性工作记录,专题调查或专题实验;要求:统计学对原始资料的要求是完整、准确、及时;贮存:注意资料的时效性、磁盘备份等。 (3)整理资料:检查核对准确性和完整性,设计分组,拟定整理表,归表。(4)分析资料统计分析包括统计描述和统计推断(参数估计,假设检验)。计量资料(数值变量) :集中趋势(均数、几何均数、中位数、众数和调和均数,是描述一组同质观察值的平均水平或中心位置的指标)离散趋势: 极差(全距) 、四分位数间距、方差(总体方差和样本方差)、标准差和变异系数。计数资料(分类变量):相对数(率、构成比、相对比、动态数列)nx/标准误np/ )1 (率的标准误nppSp/
7、)1(率的标准误的估计值总体方差 :Nx22)(样本方差 :nxxS22)(标准误越小,表示抽样误差越小,样本平均数对总体平均数估计越可靠。t 分布:总体均数可信区间估计:(1)未知且 n 小时( n 小于 30 或 50) ,按分布原理计算可信区间。XvXvstXstX,2/, 2/(2)未知但 n足够大时 (n 大于 100),t分布近似正态分布,按正态分布原理估计可信区间。XvXvsuXsuX,2/,2/,(3)已知,按正态分原理估计可信区间。XvXvuXuX,2/,2/,可信区间有两个要素:准确度(accuracy )和精密度(precision) 。准确度反映可信度的大小,即可信区间
8、包容总体均数的概率愈接近1 愈好;精密度反映可信区间的长度,区间长度愈小精密度愈高。二者相互矛盾,常用 95% 可信区间。poisson 分布:总体参数的估计:(1)查表法: 当样本计数 X50,查 poisson 分布的可信区间;(2)正态近似法:当样本计数X50,XuXXuX2/2/,总体率的估计(二项分布):(1)查表法:当样本含量n50,特别是 p 很接近于 0或 1 时,按二项分布原理估计总体率的可信区间,可根据样本含量 n和阳性例数 X 乾地查表查出总体率的可信区间。 (2)近态近似法:当样本含量n 足够大, 且 np5且 n(1-p)5 , 样本率 p 的抽样分布近似正态分布,总
9、体率的可信区间),(2/2/ppSupSup已知: n=,p= nppsp)1(np=?5 n(1-p)=?5 总体率的可信区间)96.1,96.1(ppSpSp实际准备的药物:求出的上下限分别乘以总n。正态分布、二项式和泊松分布的关系:二项分布( binomial distribution) :对只具有两种互斥结果的离散型随机事件的规律性进行描述的一种概率分布。 Poisson分布是在 很小,样本含量n 趋于无穷大时,二项分布的极限形式。当v=时, t 分布即为 u 分布,趋向正态分布。正态分布的特征:正态曲线在横轴上方均数处最高;以均数为中心,左右对称;正态分布有两个参数,即均数(位置参数
10、)和标准差(形状参数),越大,曲线沿横轴越向右移动;越大,曲张越平阔;正态分布在 1处各有个拐点;正态曲线下的面积分布有一定的规律。t 分布的特征:以 0 为中心,左右两侧对称的单峰型分布;t 分布曲线的变化与自由度的大小有关,自由度 v越小,则 t 值越分散,曲线越低平;自由度v 逐渐增大时,则 t 分布逐渐逼近正态分布。当 v=时, t 分布即为 u 分布。XsXt/)(nssX/标准正态分布( u 分布)与 t 分布有何异同?答:相同点 :t 分布和标准正态分布(u 分布)都是以 0 为中心的正态分布。标准正态分布是t 分布的特例(自由度是无限大时) 。不同点: t 分布为抽样分布,u
11、分布为理论分布; t 分布比标准正态分布的峰值低,且尾部翘得更高; t 分布受自由度大小的影响,随着自由度的增大,逐渐趋近于标准正态分布;t 分布有无数条曲线,而 u 分布只有唯一一条曲线。直线回归方程的应用:(1)定量描述两变量之间的依存关系;(2)利用回归议程进行预测;(3)利用回归议程进行统计控制。应用直线回归的注意事项:(1)作回归分析要有实际意义;(2)直线回归分析的资料,一般要求因变量Y 是来自正态分布总体的随机变量,自变量 X 可以是正态随机变量, 也可以是精确测量和严格控制的值。(3)进行回归分析时,应先绘制散点图,如提示有直线趋势,可作线性回归分析,否则应考虑作数据转换或进行
12、非线性回归;(4)对离群值应检查核对,予以修正或剔除; (5)回归直线不要外延。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 5 页 - - - - - - - - - t 检验的注意事项:(1)要有严密的抽样设计,随机、均衡、可比。(2)选用的检验方法必须符合其适用条件(注意:t 检验的前提是资料服从正态分布) 。 (3)单侧检验和双侧检验,单侧检验的界值小于双侧检验的界值,因此更容易拒绝,犯第错误的可能性大。 (4)假设检验的结论不能绝对化。不能拒绝H0,有可能是样
13、本数量不够,拒绝H0,有可能犯第类错误。(5)正确理解 P值与差别有无统计学意义。 P越小,不是说明实际差别越大,而是说越有理由拒绝H0,越有理由说明两者有差异,差别有无统计学意义和有无专业上的实际意义并不完全相同。 (6)假设检验和可信区间的关系。结论具有一致性,提供的信息不同。区间估计给出总体均值可能取值范围,但不给出确切的概率值,假设检验可以给出H0 成立与否的概率。假设检验时应注意的事项(1)要有严密的抽样研究设计;样本必须是从同质总体中随机抽取的,要保证组间的均衡性和资料的可比性,可能影响结果的非处理因素在对比组间应尽可能相同或相近;(2)正确选择检验方法;根据现有的资料类型、设计类
14、型、分析目的、样本含量等因素选用适当的检验方法,如不符合条件可做适当转换;(3)正确理解“差别无显著性”的含义,差别有统计学意义,不能理解为两者差差大, 也不能理解为所分析的指标在实际应用上就有“显著效果” 。 (4)检验假设的推断结论为概率结论,不能绝对化:检验水准人为规定,是相对的,报告结论时应列出检验统计量和P值的确切范围。(5)注意是单侧检验还是双侧检验。假设检验的步骤:(1)建立假设和确定检验水准:根据实际情况确定单、双侧检验,建立假设,确定检验水准; (2)选定检验方法和计算统计量:根据设计的类型及研究目的选择合适的检验方法并计算出对应的统计量; (3)确定 P 值并做出推断结论。
15、若tt ,v,则 P,按检验水准,拒绝H0,接受 H1,尚可认为差异显著有统计学意义; 相反则差异不显著, 无统计学意义。应用相对数时的注意事项有哪些?(1)正确区分分子、分母,且计算相对数的分母不宜过小;观察例数过小时抽样误差较大,计算的相对数往往不稳定, 可靠性差。 所以当观察例数较少 (如少于 30例)时,一般以绝对数表示为好,如以相对数表示,应给出其可信区间。(2)分析时不能以构成比代替率; (3)对观察单位数不等的几个率,不能直接相加求其平均率; (4)资料的对比应注意可比性; (5)对样本率(或构成比)的比较应遵循随机抽样,要做假设检验;(6)要正确选择分子和分母的数值,要能说明事
16、物的特点和性质; (7)计算构成比也可以是划分为各组间的定量指标资料,同一事物各组成部分的构成比之和应为1 或100%。可信区间与参考值范围的区别:意义、计算公式和用途均不同。 (1)参考值范围是指同质总体内包括百分之几十个体值的估计范围。而可信区间是指在百分之几十的可信度估计的总体参数的所在范围。 (2)同样的百分之几十, 参考值范围是样本范围,可信区间是指可信度范围,二者有着本质的不同。(3)从意义来看,95参考值范围是指同质总体内包括95个体值的估计范围,而总体均数95可信区间是指按95可信度估计的总体均数的所在范围。(4)从计算公式看,若指标服从正态分布, 95参考值范围的公式是: 1
17、.96s。 总 体 均 数95 可 信 区 间 的 公 式 是 :。前者用标准差,后者用标准误。前者用1.96,后者用 为 0.05,自由度为v 的 t 界值。 (5)从用途上看,可信区间用来估计总体均数,参考值范围用来判断观察对象的某项指标是否正常。简述检验假设与可信区间的联系与区别。答: (1)可信区间用于推断总体参数所在的范围,假设检验用于推断总体参数是否不同。前者估计总体参数的大小,后者推断总体参数有无质的不同。(2)可信区间也可回答假设检验的问题。但可信区间不能提供确切的 P 值范围,只能给出在 水准上有无统计意义。(3)可信区间还可提示差别有无实际意义。简述标准差、标准误的区别与联
18、系?区别: (1)含义不同:标准差S表示观察值的变异程度,描述个体变量值(x)之间的变异度大小,S 越大,变量值( x)越分散;反之变量值越集中,均数的代表性越强。标准误xS估计均数的抽样误差的大小,是描述样本均数之间的变异度大小,标准误越大,样本均数与总体均数间差异越大,抽样误差越大;反之,样本均数越接近总体均数,抽样误差越小。(2)与 n 的关系不同:n 增大时, S 趋于(恒定),标准误减少并趋于 0(不存在抽样误差) 。 (3)用途不同:标准差表示x 的变异度大小、 计算变异系数、 确定医学参考值范围、计算标准误等, 标准误用于估计总体均数可信区间和假设检验。 联系: 二者均为变异度指
19、标,样本均数的标准差即为标准误,标准差与标准误成正比。标准差:1)(2nXXs标准误:nssX简述直线相关与回归的区别与应用。答:区别:(1)资料要求不同,相关要求两个变量是双变量正态分布;回归要求应变量Y服从正态分布,而自变量 X 是能精确测量和严格控制的变量。 (2)统计意义不同, 相关反映两变量间的伴随关系这种关系是相互的,对等的;不一定有因果关系;回归则反映两变量间的依存关系,有自变量与应变量之分,一般将“因”或较易测定、变异较小者定为自变量。这种依存关系可能是因果关系或从属关系。 (3)分析目的不同,相关分析的目的是把两变量间直线关系的密切程度及方向用一统计指标表示出来;回归分析的目
20、的则是把自变量与应变量间的关系用函数公式定量表达出来。联系: (1)变量间关系的方向一致,对同一资料,其 r 与 b的正负号一致。 (2)假设检验等价,对同一样本, tr=tb,由于 tb计算较复杂,实际中常以r 的假设检验代替对 b 的检验。 (3)相关和回归可以相互解释,相关系数的平方r2(又称决定系数 )是回归平方和与总的离均差平方和之比, 故回归平方和是引入相关变量后总平方和减少的部分。 (4)对于 II 型回归, r 与 b值可相互换算,xxyyllrb/。简述相关系数和回归系数的联系与区别。答:区别: (1)两种系数的意义不同:回归系数是表明两个变量之间数量上的依存关系,回归系数越
21、大回归直线越陡峭,表示应变量随自变量变化越快;相关系数是表明两个变量之间相关的方向和紧密程度的,相关系数越大,两个变量的关联程度越大。(2)r 与 b 有区别,回归系数 b 表示 X 每增(减)一个单位, Y 平均改变 b 个单位;相关系数r 说明具有直线关系,收集整理的两个变量间相关关系的密切程度与相关方向。(3)计算公式不一样yyxxxyxxxylllrllb/,/。 (4) 取值范围不一样: -b+, -1r1。 (5)单位不同: b有单位, r 没有单位。 联系: (1) r 与 b 值可相互换算,xxyyllrb/;(2) r 与 b 正负号一致;(3)r 与 b 的假设检验等价;
22、(4) 回归可解释相关。 相关系数的平方r2(又称决定系数 )是回归平方和与总的离均差平方和之比,故回归平方和是引入相关变量后总平方和减少的部分。二项分布(离散型分布)的应用条件:答:各观察单位只能具有相对立的一种结果,属于两分类资料;已知发生某一结果的概率为,其相对结果的概率为( 1-) ,实际工作中要求是从大量观察中获得的比较稳定的数值;n 个观察单位的观察结果互相独立。举例说明泊松分布的特征及应用。答:特征: (1)泊松分布是一种单参数的离散型分布,其参数为 ,表示单位时间或空间内某事件平均发生的次数,又称强度参数。 (2)泊松分布的方差与均数相等, 2=。 (3)概率累计;(4)泊松分
23、布的形状取决于 的大小。 值越小,分布越偏,随着的增大,分布越趋于对称,当=20 时,分布接近正态分布,当=50 时,可以认为分布呈正态分布。(5)泊松分布具有可加性。应用:泊松分布是在发生率很小,样本含量 n 趋于无穷大时,二项分布的极限形式。其应用条件与二项分布相同,即要求事件的发生是相互独立的,发生的概率相等,结果是二分类的。主要用于研究单位时间或单位空间内某事件发生的次数,用于研究单位人群中某疾病发生数的分布时,单位人群的人数要求大一些。即泊松分布描述小概率事件出现规律性的一种重要的离散型分布。总结: u 分布:制定医学参考值() ;t 分布:总体均数可信区间估计 (v正态);二项分布
24、 :总体率可信区间估计 (=0.5 或 n正态 );Poisson分布:总体参数估计( 50 正态) 。简述参数检验和非参数检验的优缺点。答:参数检验的优点是对资料的分析利用充分,统计分析的效率高;缺点是对资料的要求高,适用范围有限。非参数检验的 优点: (1)适用范围广,对变量的类型和分布无特殊要求,不受总体分布的限制;(2)对数据的要求不严,对某些指标不便准确测定的资料也可应用;(3)方法简便,易于理解和掌握。缺点 是如果对符合参数检验的资料用了非参数检验,因不能充分利用资料提供的信息,会使检验效能低于非参数检验;若要使检验效能相同,往往需要更大的样本含量。简要回答进行非参数统计检验的适用
25、条件。答: (1)资料不符合参数统计法的应用条件(总体为正态分布、且方差相等)或总体分布类型未知;(2)等级资料;(3)分布呈明显偏态又无适当的变量转换方法使之满足参数统计条件; (4)在资料满足参数检验的要求时,应首选参数法,以免降低检验效能。简述卡方检验的基本思想和用途是什么?答:基本思想 :x2值反映了实际频数与理论频数的吻合程度,若检验假设H0成立,实际频数与理论频数的差值会小,则x2值也会小;反之,若检验假设H0不成立,实际频数与理论频数的差值会大,则 x2值也会大。主要用来推断两个总体率间或者构成比见有无差别;多个总体率间或构成比间有无差别;多个样本率比较的x2分割;两个分类变量之
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年医学统计学复习知识点汇集 2022 医学 统计学 复习 知识点 汇集
限制150内