研究生医学统计学考点总结.docx
《研究生医学统计学考点总结.docx》由会员分享,可在线阅读,更多相关《研究生医学统计学考点总结.docx(24页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、医学统计学基本概念:1.医学统计学Statistics:医学统计学是以医学理论为指导,应用概率论与数理统计的有关原理和方法,研究医学资料的搜集、整理、分析和推断的一门科学。2.同质和异质:具有相同性质的事物称为同质(homogeneous)。否则称为异质的或者间杂的(heterogeneous)。不同质的个体不能笼统地混在一起分析,同质和异质是相对的概念。3.变异:同质事物之间的差别称为变异(variation),亦称个体变异。变异的两个方面:个体与个体间的差别同一个体重复测量值间的差别结果是随机的,不可预测的;一种或多种不可控因素(已知的或未知的)作用下的综合表现;个体变异是普遍存在的;个体
2、变异是有规律的;没有个体变异,就没有统计学。4.总体和样本:总体(population):根据研究目的所确定的同质观察单位的全体;分为有限总体和无限总体。 个体(individual):是构成总体的最基本观察单位。 样本(sample):是从总体中按照一定的目的随机抽取的一部分具有代表性的个体集合。 样本含量(sample size):样本中包含的个体个数。5.参数和统计量: 总体参数(parameter):描述某总体特征的指标,简称参数,一般用希腊字母表示,如:m 、s 、 。 统计量(statistic):描述某样本特征的指标,一般用拉丁字母表示,如: 、s、p 。 在总体被确定之后,总体
3、参数就是一个常数,是不会变化的,不管你是否确切知其大小;而统计量是几乎总是随着样本而变的。6.随机(random):是指机会均等,目的是保证样本对总体的代表性、可靠性。 7.概率和频率:频率( relative frequency ):在n次随机试验中,事件A发生了m次,则比值m/n称为事件A在这n次试验中出现的频率。 概率(probability):是随机事件发生可能性大小的一个度量,是一种参数,常用P表示,0P 1。 8.小概率事件和小概率原理:小概率事件:医学研究中,将概率小于等于0.05或0.01的事件称为小概率事件。小概率原理:小概率事件并不表示不可能发生,但在某一次试验中,是不会发
4、生的。9.变量的分类: 按照取值的特性:n 数值变量 numerical Variable 定量变量:既有顺序的意义,又有间隔的意义,可以认为是连续的;往往有单位;取值间的差异是可以度量的。 n 分类变量 categorical Variable 定性变量:取值是是分散、定性的,表现为互不相容的类别和属性。 无序分类 unordered categorics: 无顺序,无间隔,仅有分类 二项分类 多项分类 有序分类 ordered categorics 等级变量:仅有顺序,无单位;取值间的差异是不可度量的 不同分类的互相转化 n 数值变量无序分类变量n 数值变量有序分类变量n 有序分类变量无序
5、分类变量信息量只有减少,不可增加 统计描述指标,呈现方式可分为两种 统计图:直观,但精确度稍差 统计报表:能尽量详细,精确,但不够直观 统计推断:从样本信息外推到总体,以最终获得对所感兴趣问题的解答 参数估计:样本所在总体特征 假设检验:该指标可能的影响因素分析频数分布1.频数表编制步骤求极差:R=Xmax-Xmin选定适当的组段数后估计组距:组段数的选取以能反映资料的分布特征为宜,一般取8 12组列出组段:组段的含义:包括组段的下限而不含组段的上限 。如:3.2 等价于 3.2,3.5)。划记归组获得频数求频率,完成频数表 :相应的频数除以总数即为频率,各组段的频率总和为1或者100%。2.
6、频数分布所提供的信息 频数分布图用以表示数据的分布规律。 观察有无可疑值。 考察分布的类型。n 对称分布n 非对称分布(偏态分布) 左偏态(负偏态) :指分布的长尾在峰的左侧。 右偏态(正偏态) :指分布的长尾在峰的右侧。 考察分布的特征 n 集中位置 (Central Tendency):描述指标有平均数(算术均数(Mean)、几何均数(Geometric Mean) 、中位数(Median)、百分位数(Percentile) )。n 离散趋势 (Tendency of Dispersion):描述指标有极差(Range)、四分位数间距(interquartile range) 、方差(Va
7、riance) 、标准差(Standard Deviation) 、变异系数( coefficient of variation ) 。3.平均数应用的注意事项: 同质的资料计算平均数才有意义。 均数适用于:单峰对称分布的资料。 几何均数适用于:对数变换后单峰对称的资料。等比资料、滴度资料、对数正态分布资料。计算几何均数时:n 变量值中不能有0n 同一组变量值不能同时存在正、负值,若变量值全为负值,可先将负号除去,算出结果后再冠以负号 中位数:理论上可用于任何分布资料,常用于描述偏态资料,开口资料,有不确定值的资料的集中位置。但当资料适合计算均数或几何均数时,不宜用中位数。中位数和百分位数在样
8、本含量较少时不稳定,越靠两端越不稳定;中位数在抗极端值的影响方面,比均数具有较好的稳定性,但不如均数精确。不同质的资料应考虑分别计算平均数。 百分位数:样本含量较少时不宜计算靠近两端的百分位数。 平均数要与变异指标结合使用。4.变异度指标:四分位数间距(inter-quartile range):QU QL P75 P25,即中间一半观察值的极差。方差及标准差:变异系数(coefficient of variation, CV):为标准差和均数的比值,排除了平均水平的影响,并取消了单位。因此变异系数常用于: n 比较度量衡单位不同的两组或多组资料的变异度n 比较均数相差悬殊的两组或多组资料的变
9、异度 5.变异度的正确应用: 极差不稳定,不灵敏 标准差的基本内容是离均差,它显示一组变量值与其均数的间距,故标准差直接地、总结地、平均地描述了变量值的离散程度。 在同质的前提下,标准差大表示变量值的离散程度大,即变量值的分布分散、不整齐、波动较大;反之,标准差小表示变量值的离散程度小,即变量值的分布集中、整齐、波动较小。 变异系数派生于标准差,其应用价值在于排除了平均水平的影响,并消除了单位。6.总结: 每个观察指标均有其特定的变异规律; 描述变异:n 图形描述n 统计量描述 平均数:均数、几何均数、中位数和百分位数 变异度:极差、方差、标准差、四分位数间距、变异系数 不同分布的指标,用不同
10、的统计量描述; 用平均数与变异度共同描述。正态分布1.公式:如果随机变量X的概率密度函数为 (- X +) 则称X服从正态分布,记作XN(m,s2),其中, m为分布的均数, s 为分布的标准差。m为总体均数,s为总体标准差。为圆周率,e为自然对数的底,X为变量,代表横轴的数值,f(X)为纵轴数值。 2.正态分布的特征(重要): 单峰分布;高峰在均数处; 以均数为中心,均数两侧完全对称。 正态分布有两个参数(parameter),即位置参数(均数)和变异度参数(标准差)。 有些指标本身不服从正态分布,但经过变换之后可以服从正态分布。 正态曲线下的面积分布有一定的规律。 X轴与正态曲线所夹面积恒
11、等于1 ,对称区域面积相等。 m-1.64s m+1.64s内面积为90%; m-1.96s m+1.96s内面积为95%; m-2.58s m+2.58s内面积为99%。 正态分布曲线下的面积与标准正态分布曲线下的面积对应(以标准正态离差为单位)。3.标准正态分布:标准正态分布(standard normal distribution)是均数为0,标准差为1的正态分布。记为N(0,1)。标准正态分布是一条曲线。概率密度函数为: (- u +) 正态分布转换为标准正态分布:若 XN(m,s2),作变换:则u服从标准正态分布,u称为标准正态离差(standard normal deviation
12、)4.正态分布的应用:估计频数分布、质量控制、确定临床参考值范围 参考值范围:1.参考值范围(reference interval):是绝大多数正常人的某观察指标所在的范围,绝大多数:90%,95%,99%等等。确定参考值范围的意义:用于判断正常与异常。“正常人”的定义:排除了影响所研究的指标的疾病和有关因素的同质的人群。2.参考值范围确定的原则: 选定足够例数的同质的正常人作为研究对象:例数过少,代表性差;例数过多增加成本,且易导致正常标准把握不严,影响数据的可靠性 控制检测误差 判断是否分组(性别,年龄组) 单、双侧问题 (one sided or two sided) 选择百分界值(90
13、%,95%) 确定可疑范围3.参考值范围的估计方法:正态分布法、百分位数法抽样误差1概念:由于个体变异的存在,在抽样研究中产生样本统计量和总体参数之间的差异,称为抽样误差(sampling error)。抽样误差的表现:样本均数和总体均数间的差别、样本均数和样本均数间的差别。2.中心极限定理 (central limit theorem): 从均数为,标准差为的正态总体中随机抽样,样本均数服从均数为,标准差为 的正态分布。 从均数为,标准差为的任意总体中随机抽样,当样本含量足够大时,样本均数近似服从均数为,标准差为 的正态分布。3. 标准误(standard error):用样本统计量的标准差
14、来反映抽样误差的大小,又称标准误。 其中,为总体标准差,n为抽样的样本例数 在研究工作时,由于总体标准差常常未知,可以利用样本标准差近似估计 4.标准误的意义: 反映了样本统计量(样本均数,样本率)分布的离散程度,体现了抽样误差的大小。 标准误越大,说明样本统计量(样本均数,样本率)的离散程度越大,即用样本统计量来直接估计总体参数越不可靠。 标准误的大小与标准差有关,在例数n一定时,从标准差大的总体中抽样,标准误较大;而当总体一定时,样本例数越多,标准误越小。说明我们可以通过增加样本含量来减少抽样误差的大小。t分布 1.根据中心极限定理的内容,当样本含量足够大时,对从均数为,标准差为的任意总体
15、中随机抽样所得的样本均数进行标准化变换,有2.由于总体标准差往往是未知的,此时往往用样本标准差代替总体标准差: 这里,为自由度,取值为n-1 3. t 分布的性质: t分布为一簇单峰分布曲线,高峰在0的位置上,说明从正态总体中随机抽样所得样本计算出的t值接近0的可能性较大。 t分布以0为中心,左右对称。 分布的高峰位置比 u 分布低,尾部高。 t分布与自由度n有关,自由度越小,t分布的峰越低,而两侧尾部翘得越高;自由度逐渐增大时,t分布逐渐逼近标准正态分布;当自由度为无穷大时,t分布就是标准正态分布。 每一自由度下的t分布曲线都有其自身分布规律。t界值表 。可信区间1. 统计推断(statis
16、tical inference):是指如何抽样,以及如何用样本性质推断总体特征,分为参数估计(parameter estimation)、假设检验(hypothesis testing)。2.参数估计:点估计(Point Estimation):用样本统计量作为总体参数的估计。区间估计 (Interval Estimation):3.可信区间定义:按一定的概率或可信度(1-)用一个区间来估计总体参数所在的范围,该范围通常称为参数的可信区间或者置信区间(confidence interval,CI),预先给定的概率(1-)称为可信度或者置信度(confidence level),常取95%或99
17、%。 可信区间(CL, CU )是一开区间 CL、CU 称为可信限。4.可信区间的计算:样本含量较小时 (n100):下限: 上限: 样本含量较大时 (n100):下限: 上限:5.均数之差可信区间的计算:均数之差”与“均数之差的标准误”之比,服从自由度n = n1+n2 -2的 t 分布。样本含量较大时,服从标准正态分布。合并方差: 均数之差的标准误:6.可信区间的两个要素: 可信度(Confidence):准确性,可靠性,即1-。一般取90%,95,可人为控制。 精确性(Precision):区间的大小,越小越好。 必须二者兼顾7.可信区间的宽度: 可信度越大,可信区间越宽,说明用该区间来
18、估计总体参数(总体均数)越可靠。 标准差越小,可信区间就越窄,意味着如果总体内变异程度较小时,在相同的可信度下,只需要一个比较窄的可信区间就可以估计总体均数。 随着样本含量的增加,可信区间逐渐变窄。8.正确理解可信区间: 可信度为95%的CI的涵义:每100个样本,按同样方法计算95%的CI,平均有95%的CI包含了总体参数。 这里的95%,指的是方法本身!而不是某个区间! 总体参数虽未知,但却是固定的值,而不是随机变量值 。 假设检验1.假设检验的目的:基本目的就是分辨两个样本是否属一个总体或两个不同的总体,并对总体作出适当的结论。 2.假设检验的一般步骤:步骤1:建立假设,在假设的前提下有
19、规律可寻 n 零假设(null hypothesis),记为H0 ,表示目前的差异是由于抽样误差引起的。n 备择假设(alternative hypothesis),记为H1 ,表示目前的差异是主要由于本质上的差别引起。 步骤2:确立检验水准(significance level) ,用于确定何时拒绝H0 ,一般取0.05。 步骤3:计算检验统计量和 P 值计算检验统计量,即计算样本与所假设总体的偏离;样本均数与总体均数m0 间的差别可以用统计量 t 来表示统计量 t 表示,在标准误的尺度下,样本均数与总体均数 m0 的偏离。这种偏离称为标准 t 离差(standard t deviation
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 研究生 医学 统计学 考点 总结
限制150内