2022年研究生医学统计学考点总结,推荐文档 .pdf
《2022年研究生医学统计学考点总结,推荐文档 .pdf》由会员分享,可在线阅读,更多相关《2022年研究生医学统计学考点总结,推荐文档 .pdf(24页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、医学统计学基本概念:1.医学统计学 Statistics:医学统计学是以医学理论为指导,应用概率论与数理统计的有关原理和方法,研究医学资料的搜集、整理、分析和推断的一门科学。2.同质和异质:具有相同性质的事物称为同质(homogeneous)。否则称为异质的或者间杂的 (heterogeneous)。不同质的个体不能笼统地混在一起分析,同质和异质是相对的概念。3.变异:同质事物之间的差别称为变异(variation),亦称个体变异。变异的两个方面:个体与个体间的差别同一个体重复测量值间的差别结果是随机的,不可预测的;一种或多种不可控因素 (已知的或未知的 )作用下的综合表现;个体变异是普遍存在
2、的;个体变异是有规律的;没有个体变异,就没有统计学。4.总体和样本:总体(population):根据研究目的所确定的同质观察单位的全体;分为有限总体和无限总体。个体(individual):是构成总体的最基本观察单位。样本(sample): 是从总体中按照一定的目的随机抽取的一部分具有代表性的个体集合。样本含量 (sample size) :样本中包含的个体个数。5.参数和统计量:?总体参数 (parameter):描述某总体特征的指标,简称参数,一般用希腊字母表示,如:、 。?统计量 (statistic):描述某样本特征的指标,一般用拉丁字母表示,如:、s、p 。?在总体被确定之后, 总
3、体参数就是一个常数, 是不会变化的, 不管你是否确切知其大小;而统计量是几乎总是随着样本而变的。6.随机(random):是指机会均等,目的是保证样本对总体的代表性、可靠性。7.概率和频率:频率( relative frequency ):在 n 次随机试验中, 事件 A 发生了 m 次,则比值 m/n称为事件 A 在这 n 次试验中出现的频率。概率(probability):是随机事件发生可能性大小的一个度量,是一种参数,常用P表示, 0 P 1 。8.小概率事件和小概率原理:小概率事件:医学研究中,将概率小于等于 0.05 或 0.01 的事件称为小概率事件。小概率原理:小概率事件并不表示
4、不可能发生,但在某一次试验中,是不会发生的。9.变量的分类:?按照取值的特性:X名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 24 页 - - - - - - - - - 数值变量numerical Variable 定量变量:既有顺序的意义, 又有间隔的意义,可以认为是连续的;往往有单位;取值间的差异是可以度量的。分类变量categorical Variable 定性变量:取值是是分散、 定性的,表现为互不相容的类别和属性。?无序分类unordered categor
5、ics: 无顺序,无间隔,仅有分类 二项分类 多项分类?有序分类ordered categorics 等级变量 :仅有顺序,无单位;取值间的差异是不可度量的?不同分类的互相转化数值变量无序分类变量数值变量有序分类变量有序分类变量无序分类变量信息量只有减少,不可增加统计描述指标,呈现方式可分为两种统计图:直观,但精确度稍差统计报表:能尽量详细,精确,但不够直观统计推断:从样本信息外推到总体,以最终获得对所感兴趣问题的解答参数估计:样本所在总体特征假设检验:该指标可能的影响因素分析频数分布1.频数表编制步骤求极差: R=Xmax-Xmin选定适当的组段数后估计组距:组段数的选取以能反映资料的分布特
6、征为宜,一般取 8 12组列出组段:组段的含义 :包括组段的下限而不含组段的上限。如: 3.2 等价于 3.2,3.5)。划记归组获得频数求频率,完成频数表:相应的频数除以总数即为频率,各组段的频率总和为1 或者 100%。2.频数分布所提供的信息?频数分布图用以表示数据的分布规律。?观察有无可疑值。?考察分布的类型。对称分布非对称分布 (偏态分布 ) ?左偏态 (负偏态 ) :指分布的长尾在峰的左侧。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 24 页 - - -
7、- - - - - - ?右偏态 (正偏态 ) :指分布的长尾在峰的右侧。?考察分布的特征集中位置(Central Tendency):描述指标有平均数(算术均数(Mean)、几何均数 (Geometric Mean) 、中位数 (Median)、百分位数(Percentile) ) 。离散趋势(Tendency of Dispersion) : 描述指标有极差 (Range) 、四分位数间距 (interquartile range) 、方差 (Variance) 、标准差 (Standard Deviation) 、变异系数 ( coefficient of variation ) 。3.
8、平均数应用的注意事项:?同质的资料计算平均数才有意义。?均数适用于:单峰对称分布的资料。?几何均数适用于:对数变换后单峰对称的资料。等比资料、滴度资料、对数正态分布资料。计算几何均数时:变量值中不能有 0 同一组变量值不能同时存在正、负值,若变量值全为负值, 可先将负号除去,算出结果后再冠以负号?中位数:理论上可用于任何分布资料,常用于描述偏态资料,开口资料,有不确定值的资料的集中位置。 但当资料适合计算均数或几何均数时,不宜用中位数。中位数和百分位数在样本含量较少时不稳定,越靠两端越不稳定;中位数在抗极端值的影响方面, 比均数具有较好的稳定性, 但不如均数精确。不同质的资料应考虑分别计算平均
9、数。?百分位数:样本含量较少时不宜计算靠近两端的百分位数。?平均数要与变异指标结合使用。4.变异度指标:四分位数间距 (inter-quartile range):QU QL P75 P25,即中间一半观察值的极差。方差及标准差:变异系数 (coefficient of variation, CV) :为标准差和均数的比值, 排除了平均水平的影响, 并取消了单位。 因此变异系数常用于:比较度量衡单位不同的两组或多组资料的变异度比较均数相差悬殊的两组或多组资料的变异度5.变异度的正确应用:?极差不稳定,不灵敏?标准差的基本内容是离均差, 它显示一组变量值与其均数的间距,故标准差直接地、总结地、平
10、均地描述了变量值的离散程度。?在同质的前提下, 标准差大表示变量值的离散程度大,即变量值的分布分22XN221XXsnNX221XXsn100%sCVX名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 24 页 - - - - - - - - - 散、不整齐、波动较大;反之,标准差小表示变量值的离散程度小,即变量值的分布集中、整齐、波动较小。?变异系数派生于标准差, 其应用价值在于排除了平均水平的影响,并消除了单位。6.总结:?每个观察指标均有其特定的变异规律;?描述变异:
11、图形描述统计量描述?平均数:均数、几何均数、中位数和百分位数?变异度:极差、方差、标准差、四分位数间距、变异系数?不同分布的指标,用不同的统计量描述;?用平均数与变异度共同描述。正态分布1.公式: 如果随机变量 X的概率密度函数为(- X +)则称 X 服从正态分布 ,记作 XN( ,2),其中,为分布的均数,为分布的标准差。为总体均数,为总体标准差。为圆周率, e 为自然对数的底, X为变量,代表横轴的数值,f(X)为纵轴数值。2.正态分布的特征(重要) :单峰分布;高峰在均数处;以均数为中心,均数两侧完全对称。正态分布有两个参数 (parameter),即位置参数 (均数)和变异度参数 (
12、标准差)。有些指标本身不服从正态分布,但经过变换之后可以服从正态分布。正态曲线下的面积分布有一定的规律。X轴与正态曲线所夹面积恒等于1 ,对称区域面积相等。-1.64 +1.64内面积为 90%;-1.96 +1.96内面积为 95%;-2.58 +2.58内面积为 99%。正态分布曲线下的面积与标准正态分布曲线下的面积对应(以标准正态离差为单位 )。Xf Xe22()21()2名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页,共 24 页 - - - - - - - - -
13、3.标准正态分布:标准正态分布 (standard normal distribution)是均数为 0, 标准差为 1 的正态分布。记为 N(0,1)。标准正态分布是一条曲线。概率密度函数为:(- u +) 正态分布转换为标准正态分布:若XN( ,2),作变换:则 u 服从标准正态分布, u 称为标准正态离差 (standard normal deviation) 4.正态分布的应用:估计频数分布、质量控制、确定临床参考值范围参考值范围:1.参考值范围 (reference interval):是绝大多数正常人的某观察指标所在的范围,绝大多数: 90%,95%,99%等等。确定参考值范围的意
14、义:用于判断正常与异常。“ 正常人 ” 的定义:排除了影响所研究的指标的疾病和有关因素的同质的人群。2.参考值范围确定的原则:选定足够例数的同质的正常人作为研究对象:例数过少, 代表性差; 例数过多增加成本,且易导致正常标准把握不严,影响数据的可靠性控制检测误差判断是否分组 (性别,年龄组 ) 单、双侧问题(one sided or two sided) 选择百分界值 (90%,95%) 确定可疑范围3.参考值范围的估计方法:正态分布法、百分位数法抽样误差1概念:由于个体变异的存在,在抽样研究中产生样本统计量和总体参数之间的差异,称为抽样误差(sampling error) 。抽样误差的表现:
15、样本均数和总体均数间的差别、 样本均数和样本均数间的差别。2.中心极限定理(central limit theorem) :?从均数为 ,标准差为 的正态总体中随机抽样,样本均数服从均数为 ,标准差为的正态分布。?从均数为 ,标准差为 的任意总体中随机抽样,当样本含量足够大时,样本均数近似服从均数为 ,标准差为的正态分布。3. 标准误 (standard error):用样本统计量的标准差来反映抽样误差的大小,又称标准误。221( )2uueXunnXnXssn名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - -
16、 - - - - - 第 5 页,共 24 页 - - - - - - - - - 其中, 为总体标准差, n为抽样的样本例数在研究工作时,由于总体标准差常常未知,可以利用样本标准差近似估计4.标准误的意义:?反映了样本统计量(样本均数,样本率)分布的离散程度,体现了抽样误差的大小。?标准误越大,说明样本统计量(样本均数,样本率)的离散程度越大,即用样本统计量来直接估计总体参数越不可靠。?标准误的大小与标准差有关, 在例数 n 一定时,从标准差大的总体中抽样,标准误较大;而当总体一定时,样本例数越多,标准误越小。说明我们可以通过增加样本含量来减少抽样误差的大小。t 分布1.根据中心极限定理的内
17、容,当样本含量足够大时,对从均数为 ,标准差为 的任意总体中随机抽样所得的样本均数进行标准化变换,有2.由于总体标准差往往是未知的,此时往往用样本标准差代替总体标准差:这里, 为自由度,取值为n-1 3. t 分布的性质:?t 分布为一簇单峰分布曲线,高峰在0 的位置上,说明从正态总体中随机抽样所得样本计算出的t 值接近 0 的可能性较大。?t 分布以 0 为中心,左右对称。?分布的高峰位置比u 分布低,尾部高。?t 分布与自由度有关,自由度越小, t 分布的峰越低,而两侧尾部翘得越高;自由度逐渐增大时,t 分布逐渐逼近标准正态分布;当自由度为无穷大时, t 分布就是标准正态分布。?每一自由度
18、下的 t 分布曲线都有其自身分布规律。t 界值表 。可信区间1. 统计推断 (statistical inference):是指如何抽样,以及如何用样本性质推断总体特征,分为参数估计 (parameter estimation)、假设检验 (hypothesis testing)。2.参数估计:点估计( Point Estimation):用样本统计量作为总体参数的估计。区间估计(Interval Estimation):3.可信区间定义: 按一定的概率或可信度 (1- )用一个区间来估计总体参数所在的范围,该范围通常称为参数的可信区间或者置信区间(confidence interval,CI
19、), 预先给定的概率 (1- )称为可信度或者置信度 (confidence level),常取 95%或 99%。 可信区间 (CL, CU )是一开区间CL、CU 称为可信限。4.可信区间的计算:样本含量较小时(n100) :下限:上限:(0,1)XNnXttsn,XXts,XXts名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 6 页,共 24 页 - - - - - - - - - 样本含量较大时(n100):下限:上限:5.均数之差可信区间的计算:均数之差”与“均数之差的标
20、准误”之比,服从自由度= n1+n2 -2 的 t 分布。样本含量较大时,服从标准正态分布。合并方差:均数之差的标准误:6.可信区间的两个要素:?可信度( Confidence):准确性,可靠性,即 1- 。一般取 90%,95,可人为控制。?精确性 (Precision):区间的大小,越小越好。?必须二者兼顾7.可信区间的宽度:?可信度越大,可信区间越宽,说明用该区间来估计总体参数(总体均数)越可靠。?标准差越小, 可信区间就越窄, 意味着如果总体内变异程度较小时,在相同的可信度下,只需要一个比较窄的可信区间就可以估计总体均数。?随着样本含量的增加,可信区间逐渐变窄。8.正确理解可信区间:?
21、可信度为 95%的 CI的涵义:每 100 个样本,按同样方法计算95%的 CI,平均有 95%的 CI包含了总体参数。?这里的 95%,指的是方法本身!而不是某个区间!?总体参数虽未知,但却是固定的值,而不是随机变量值。假设检验1.假设检验的目的: 基本目的就是分辨两个样本是否属一个总体或两个不同的总体,并对总体作出适当的结论。2.假设检验的一般步骤:步骤 1:建立假设,在假设的前提下有规律可寻零假设 (null hypothesis),记为 H0 ,表示目前的差异是由于抽样误差引起的。备择假设 (alternative hypothesis),记为 H1 ,表示目前的差异是主要由于本质上的
22、差别引起。步骤 2:确立检验水准 (significance level) ,用于确定何时拒绝H0,一般取0.05。步骤 3:计算检验统计量和P 值计算检验统计量, 即计算样本与所假设总体的偏离;样本均数与总体均数0间的差别可以用统计量t 来表示统计量 t 表示,在标准误的尺度下, 样本均数与总体均数0 的偏离。XXu sXXu s1212122 nnXXXXtts1212 (0,1)XXXXtNs222112212(1)(1)2Cnsnssnn1221211()CXXssnnnsXt0名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - -
23、 - 名师精心整理 - - - - - - - 第 7 页,共 24 页 - - - - - - - - - 这种偏离称为标准t 离差(standard t deviation)。根据抽样误差理论, 在 H0的假设前提下, 统计量 t 服从自由度为n-1的 t 分布,即t 值在 0 的附近的可能性大,远离0 的可能性小,离 0 越远可能性越小。步骤 5:界定 P值并作结论3.假设检验应用的注意事项:A.I 型错误和 II 型错误:第一类错误( Type I Error ) :拒绝了实际上是成立的H0;第二类错误( Type II Error ) :不拒绝实际上是不成立的H0。B.检验水准的选择
24、:检验水准有单双侧之分。选择要有专业背景。检验水准大小的选择要慎重。选择要在计算检验统计量之前。C.双侧检验与单侧检验:在相同的检验水准下, 正确地选择单侧检验将比双侧检验得到更多的检验效能。D.P和的涵义:P值意义:从H0 总体中随机获得等于或大于现有统计量值的概率。拒绝H0时所冒的风险。的意义:犯第一类错误的概率;在假设检验之前人为规定;说明拒绝H0所冒的风险不可超过。E.正确对待统计结论和专业结论专业上有差别,假设检验拒绝H0:结果有效,可以下专业结论;专业上无差别,假设检验不拒绝H0:下无差别的结论;专业上有差别,假设检验不拒绝H0:增大样本含量,减少二类误差; 专业上无差别,假设检验
25、拒绝H0:改进试验,减少误差。F.Significant 的意义4.假设检验和可信区间的区别:在相同的 之下,若假设检验拒绝 H0(p ),那么可信度为 (1- )的可信区间必然不包括总体参数;反之成立。可信区间和假设检验是对同一问题所作的不同结论,效果等价。t 检验1.成组设计计量资料比较的t 检验:合并方差 (方差的加权平均 ):均数之差的标准误:自由度= n1+n2 -2 2.两组资料比较的u 检验:当随机抽样的样本例数足够大时,t 检验统计量的自由度逐渐增大,t 分布1212XXXXts222112212(1)(1)2Cnsnssnn1221211()CXXssnn名师资料总结 - -
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年研究生医学统计学考点总结 推荐文档 2022 研究生 医学 统计学 考点 总结 推荐 文档
限制150内