2022年医学统计学考研复习笔记 .pdf
《2022年医学统计学考研复习笔记 .pdf》由会员分享,可在线阅读,更多相关《2022年医学统计学考研复习笔记 .pdf(23页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、学习好资料欢迎下载统计学的基本步骤和基本概念1、统计学的基本步骤:研究设计;收集资料;整理资料;分析资料;对分析结果的正确解释和表达。横断面研究观察性研究病例对照研究队列研究统计设计动物实验实验性研究临床试验社区干预试验统计学统计描述:运用统计学指标对数据特征及其分布规律进行客观描述和表达统计分析统计推断:在一定的可信程度或概率保证下,根据样本信息推断总体特征集中趋势:平均数、几何均数、中位数统计描述离散程度:方差、标准差、极差、四分位间距、变异系数定量资料参数估计:均数的标准误、总体均数的置信区间统计推断假设检验: t 检验、 t 检验、方差分析、秩和检验统计描述:率、构成比、相对比定性资料
2、统计推断:X2检验、秩和检验、二项分布、Poission分布2、总体和样本:总体 :是根据研究目的所确定的所有同质观察单位某种观察值( 变量值 ) 的集合。样本 :从研究总体中抽取的一部分满足代表性的个体观察值所组成的集合称为样本,样本包含的观察单位数称为样本含量或样本大小。3、参数和统计量:参数 :描述总体分布特征的指标,总体均数、总体标准差 、总体率 统计量 :根据样本算得的某些数值特征,样本均数X、样本标准差S、样本率p4、变量和资料变量 :是观察单位的某种特征或属性,变量的观测值就是所谓的变量值。资料 :变量值组成的集合称为资料。变量连续型变量离散型变量计量资料定量资料分类资料不具有分
3、类的资料有序分类资料无序分类资料多项分类资料二项分类资料等级资料取值取值名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 23 页 - - - - - - - - - 学习好资料欢迎下载5、随机误差和系统误差误差:泛指实测值与真实值之差,一般可分为随机误差和非随机误差。随机误差 :即抽样误差,由于随机抽样造成的实测值与真实值之差。是不可避免的,但一般服从正态分布,可以通过统计学方法进行分析。系统误差 :最常见的非随机误差,指实测值系统偏离真实值、具有方向性的误差。6、概率、
4、频率和小概率事件频率 :若用随机事件A发生表示观察到某个可能的结果,在n 次随机试验中,随机事件A发生了 m次,则称 A发生的比例 f=m/n 为频率,医学上所说的患病率、病死率等都是频率。概率 :描述事件发生可能性大小的一个度量。小概率事件 :当某事件发生的概率小于或等于0.05 时,统计学习惯上称该事件为小概率事件。7、同质性和个体变异同质性 :通常指研究对象在一定范畴内的各种可能影响主要观察指标的其他因素处于相同或非常相似的情况。个体变异 :同质个体中同一观察指标的个体观察值之间的差异称为该观察指标的个体变异。调查研究设计1、调查研究及其特点调查研究 :又称观察性研究,指研究者在研究中没
5、有施加任何干预措施,仅客观地观察和记录研究对象的现状及其相关特征的研究。特点 :研究过程中没有人为施加的干预措施,研究事物或现象及其相关特征(包括研究因素和非研究因素)是客观存在的;不能将研究因素随机地分配到研究对象中,也不能用随机化分组来平衡非研究因素对调查结果的影响。2、调查研究设计的基本内容:明确调查目的和指标;确定调查对象和观察单位;确定调查方法;确定调查方式;确定调查项目和调查表;制定资料整理分析计划;制定调查的组织计划。3、调查设计的常用抽样方法及其优缺点普查 :即调查目标总体中全部观察对象。优:理论上没有抽样误差,可以直接得到总体参数。缺:成本较高。抽样调查 :即从总体中抽取一定
6、数量的观察单位组成样本,对样本进行调查。分为概率抽样和非概率抽样。优:节省调查成本,有助于获得较为深入、细致和准确的资料。缺:样本推断总体时存在抽样误差。概率抽样 :是指总体中观察单位被抽中的概率是已知的或可以计算的。优:总体代表性较好,可以计算抽样误差,可以对总体进行统计推断。缺点或前提 :目标总体和抽样框架明确。非概率抽样 :是指总计中每个观察单位被抽中的概率是已知或不能计算的。抽样方法定义优点缺点概率抽样单纯随机抽样按等概率原则直接从含有N个观察单位的总体中抽取n 个观察单位组成样本均数(或率)及标准误的计算简单当总体观察单位较多时,要对观察单位一一编号,比较麻烦系统抽样先将总体的观察单
7、位按某一顺序号分成n个部分,再从第一部分随机抽取第k 号观察单位, 依次用相等间距, 从每一部分各抽取一个观察单位组成样本易于理解, 简单易行; 容易得到一个按比例分配的样本;样本的观察单位在总体中分布均匀,其抽样误差一般小于单纯随机误差。当总体中观察单位按顺序有周期趋势或单调增(或减)趋势时,将产生明显的偏性;实际中按单纯随机抽样方法估计误差会一般偏大。分层抽样按对主要研究指标影响较大的某种特征,将总体分为若干类别,再从每一层内随机抽取一定数量的观察单位组成样本减少抽样误差; 便于不同的层采用不同的抽样方法, 有利于调查组织工作的实施; 还可对不同层进行独立分析。要求层内差异较小整群抽样将总
8、体按照某种与主要研究指标无关的特征划分为K个“群”,每个群包含若干观察单位,再随机抽取k 个“群”,由抽取的各个群的全部观察单位组成样本便于组织, 节省经费, 容易控制调查质量当样本含量一定时,其抽样误差一般大于单纯随机误差(因为样本观察单位未能广泛地散布在总体中)非概率抽偶遇抽样研究者根据现实情况,抽取偶然遇到的人或选择那些距离最近的、最容易找到的人作为调查对象简单易行结果对总体代表性差立意抽样调查者根据研究目的分析判断来选择调对研究者要求较高名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - -
9、 - 第 2 页,共 23 页 - - - - - - - - - 学习好资料欢迎下载样查对象定额抽样研究者首先依据那些可能影响研究指标的各种因素对总体进行分层,并确定各层样本占总体比例,再在各层中抽取样本样本代表性存在一定问题,选择性偏倚较大雪球抽样当无法了解总体情况时,可以从总体中少数成员入手, 对他们进行调查, 并请他们介绍所认识的其他符合条件的人,再去找那些人进行调查, 如此重复, 直到达到所需的样本含量常用于缺少抽样框架、 目标总体不明、 采用其他方法难以找到调查对象的情形4、调查问题安排顺序总原则:符合逻辑;一般问题在前,特殊问题在后;易答题在前,难答题在后;如果采用封闭式和开放式
10、相结合的问题,一般先设置封闭式问题;敏感问题一般放在最后。5、信度和效度效度 :又称真实性或准确性,用以反映测量结果与“真实值”的接近程度。定量 观察:通常用两者的相关系数r 来描述标准效度。定性 或半定量 观察: Kappa 系数描述两个测量手段或结果的一致性。信度 :又称可靠信、重复性、稳定性或精密度,用以反映相同条件下重复测定结果的一致程度。重复测量法:组内相关系数ICC 评价信度高低。(1)AeAeMSMSICCMSnMSAMS为组间(研究对象间)均方,eMS为组内(误差)均方,n 为重复测量次数。一般认为 ICC0.75 ,说明测量结果的可重复性较好。实验研究设计1、实验设计的3 个
11、基本原则和3 个基本元素: 对照、随机化、重复,受试对象、处理因素、实验效应。2、对照形式主要有:空白对照、安慰剂对照、标准对照、实验对照、自身对照、相互对照。3、常用的实验设计类型及其优缺点:类型设计优点缺点完全随机设计单因素两水平或多水平效应设计简单, 易于实施, 出现缺失数据时仍可进行统计分析小样本时, 均衡性可能较差, 与随机区组设计相比,一般效率较低配对设计受试对象按 配对因素 相同或相近配成对子可增强处理组间的均衡性,效率较高配对条件不易严格控制随机区组设计受试对象按性质相同或相近分为 b 个区组,每个区组中的k 个受试对象分配到k 个处理组处理组之间的均衡性较好;更容易揭示处理之
12、间的差别,效率较高非处理因素(配伍条件)不易控制交叉设计按事先设计好的实验次序 ,在各个时期对受试对象先后实施各种处理节约样本含量; 能够控制个体差异和时间差异对处理因素的影响,故效率较高;在临床试验中, 均等地考虑了每个患者的利益。每个处理的持续时间不能太长;当受试对象的状态发生根本变化时,例死亡等,后一阶段的处理将无法进行;受试对象一旦在某一阶段退出试验,就会造成该阶段及其以后的数据缺失析因设计两个或多个处理因素的各水平进行组合, 对所有可能的组合中安排多个实验对象进行实验可以均衡地对各因素的不同水平进行全面组合,以最小的实验次数探讨各因素不同水平的效应, 同时可获得各因素间的交互作用,通
13、过比较还能需求最佳组合工作量较大, 析因设计的处理数等于各因素水平数的乘积, 其统计分析不但计算复杂,而且给众多交互作用的解释带来困难定量资料的统计描述1、频数表和频数图的制作及用途:频数表的制作 :( 1)求全距 R,R=最大值 - 最小值;( 2)划组段 :定组数,以8-15 组为宜;定组距:组距=R/组数,可适当取整;定上下限:起点为下限,终点为上限,组段 下闭,上开),一般写下限,最后上下全。( 3)统计频数和频率制作频数表。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3
14、 页,共 23 页 - - - - - - - - - 学习好资料欢迎下载频数表和频数的用途:揭示频数的分布特征:集中趋势和离散趋势;揭示频数的分布类型:对称分布和偏态分布,集中偏小为正偏,集中偏大为负偏;可以发现某些特大或特小的可疑值,提示检查核对。2、频数分布特征的描述指标及其适用条件:*对于经对数变换后呈正态分布或近似正态分布的资料,应将原始观察值取对数值后计算几何标准差。分布特征指标计算公式适用条件集中趋势平均数X原始资料:112=niinXXXXXnn频数表资料:112212iikkkif Xf Xf Xf XXffff单峰对称分布资料,特别是正态分布或近似正态分布几何均数G原始资料
15、:123nnGX X XX或1112lglglglglg()lg()inXXXXGnn频数表资料:11112212lglglglglg()lg()iikkkifXfXfXfXGffff正偏态分布资料,经过对数变换呈正态分布或近似正态分布;观察值间呈倍数关系或近似倍数关系;变量值中不能有0 和负数,可适当加上一个正数;中位数M原始资料:12nMX,当n为奇数时;122() / 2nnMXX,当 n为偶数时频数表资料:(50%)MLMiMLnffML为中位数所在组段的下限;i为组距;Mf为中位数所在组段的频数;Lf为中位数所在组段前一组的累计频数。不对称分布的资料,两端无确切值或分布不明确的资料离
16、散趋势极差RR=最大值 - 最小值单峰对称分布小样本资料四分位间距ULQQ7525=ULQQPP=(%)xxLxiPLnxffxL为第x百分位数所在组段下限,i为第x百分位数所在组段的组距,xf为第x百分位数所在组段的频数,Lf为第x百分位偏态分布资料、两端无确切值或分布不明确资料名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页,共 23 页 - - - - - - - - - 学习好资料欢迎下载数所在组段前一组的累计频数方差2S原始资料:2221211()()11ninnii
17、iiiXXXXnSnn频数表资料:222()1fXfXnSn单峰对称分布资料标准差S变异系数CV100%SCVX比较计量单位不同或均数相差悬殊的几组资料的离散程度3、正态分布及其应用:概率密度曲线和正态分布曲线:对于变量的频数分布满足中间多,两边少, 且左右对称的资料,以观察变量 (组距)为横轴,频率密度(频率密度=频率 / 组距)为纵轴,即可得到频率密度直方图,当观察单位逐渐增加,组段,频率分布图中的直条逐渐变窄,就会逐渐形成一条高峰位于中央(均数所在处)、两侧逐渐降低且左右对称、不与横轴相交的光滑曲线,即概率密度曲线,近似于数学上的正态分布曲线。若变量X的频率曲线逼近数学上的正态分布曲线,
18、则称该变量服从正态分布。正态分布曲线的密度函数为:22()21( )2xf xex(为总体均数,为总体标准差,为圆周率, e 为自然对数的底)特点:正态曲线在横轴上方均数处最高;正态分布以均数为中心,左右对称;正态分布有两个参数,即均数与标准差,决定位置,决定“胖瘦”;正态曲线在1处各有一个拐点;正态曲线下的面积分布有一定的规律:1.645XS90% ,1.96XS95% ,2.58XS99% 。若 X 服从正态分布 N (,2),经xXZ变换后,则Z就服从均数为 0,标准差为 1 的正态分布 N(0, 1) , 称为标准正态分布或Z分布,其密度函数为:221( ),2zzezjp-=- ?
19、+?。正态分布的应用:(1)估计总体变量值的频率分布D:()xz可通过查附表2(Z分布界值表)获得。1()()Dzz2-XZx(可用样本均数X和样本标准差S作为总体均数和总体标准差的估计值)(2)制定医学参考值范围:医学参考值范围指包括绝大多数正常人的人体形态、功能和代谢产物等各种生理及生化指标观察值的波动范围。制定步骤及注意事项:确定观察对象和抽取足够的观察单位;测定方法统一、准确;决定是否分组制定参考值范围; 确定取双侧或单侧参考值范围;选定适当的百分界限;选择制定医学参考值范围的方法:部分指标服从对数正态分布,对观察值取对数后计算其对数值的均数和标准差,按正态分布法算出医学参考值范围的对
20、数值,然后取反对数求其真数。百分界限( % )正态分布法百分位数法双侧单侧双侧单侧只有下限只有上限只有下限只有上限名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页,共 23 页 - - - - - - - - - 学习好资料欢迎下载95 P2.5P97.5P5P9599 P0.5P99.5P1P99总体均数的估计1、均数的抽样误差与标准误:抽样误差:这种由个体变异产生的、随机抽样引起的样本统计量与总体参数间的差异称为抽样误差。均数的标准误 :由于随机抽样所造成的样本均数与总体均
21、数的差别,即为样本均数的抽样误差。样本均数的标准差称为均数的标准误(SEM ),用符号表示,它说明各样本均数围绕总体均数 的离散程度,可用来描述样本均数的抽样误差大小。=Xn在抽样研究中,总体标准差常常未知,常用样本标准差S作为的估计值,因而得到均数标准误的估计值,其计算公式为:XSSn根据数理统计的中心极限定理:从均数为,标准差为的正态总体中进行独立随机抽样,其样本均数服从均数为 ,标准差为的正态分布;即使是从非正态总体(均数为,标准差为)中进行独立随机抽样,当样本含量逐渐增大(n50)时,其样本均数的分布逐渐逼近与均数为,标准差为的正态分布。标准差与均数的标准误的区别于联系:标准差均数的标
22、准误区别统计符号总体标准差用表示,样本标准差用S 表示均数的标准误用表示,其估计值用表示计算公式XSSn统计学意义标准差越小,个体值分布相对越集中,样本均数对数据的代表性越好标准误越小,样本均数的分布越集中,样本均数与总体均数的差别越小,抽样误差越小,由样本均数估计总体均数的可靠性越大用途描述个体值的变异程度描述均数的抽样误差大小联系XSSn2、t 分布产生、特征t 分布的产生 :从正态总体中随机抽取的样本的均数服从总体均数为、总体标准差为的正态分布。 经过 Z变换,正态分布N(,)转化为标准正态分布N(0,1),即 Z 分布。由于实际研究工作中,未知常见,只能以代替,而XSSn中 S 会因为
23、样本不同而不尽相同,即有变异,故XXS不再服从标准正态分布,而服从t 分布,即:,1/XXXXXXZZtvnSSnt 分布特征 :t 分布是一簇单峰分布曲线。t 分布以 t=0 为中心,左右对称且均匀下降。其形态变化与自由度的大小有关。自由度越小,则 t 值越分散,曲线越低平;自由度逐渐增大时, t 分布逐渐逼近标准正态分布;当=时, t 分布即为标准正态分布。3、总体均数的估计:点估计用样本统计量直接作为总体参数的估计值。区间估计是给出被估计参数的可能范围。区间估计 :是指按照一定的概率 (1-) , 估计总体参数所在的范围,这个范围称为参数的置信区间,概率( 1-)称为置信度。总体均数置信
24、区间的估计:总体均数 的双侧( 1-)置信区间的计算公式为:/2,/2,/2,/2,/2,/2,()1()1/XXXPtttPttXtsXtsSn名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 6 页,共 23 页 - - - - - - - - - 学习好资料欢迎下载其余计算同下表。两总体均数差值的置信区间:假设两正态总体分布服从正态分布,和,当,均已知,但时,两总体均数之差()的双侧( 1-)置信区间为:1212/2,()XXXXtS其中 t 值的自由度 =(n1-1)+(n2-
25、1)=n1+n2-2 ,称为两均数之差的标准误。1221111()cXXSSnn222112212(1)(1)(2)cnSnSSnn当 n1,n2均较大时,差值的可信区间为:221212/2,12()SSXXznn置信区间的含义:总体均数的95%置信区间的含义是从正态总体中重复100 此抽样,每次样本含量为n,每个样本均按计算 95%置信区间,则在这100 个置信区间中,理论上有95 个置信区间包含了总体均数(估计正确),而有5 个置信区间未包含总体均数(估计错误),即犯错误的概率是0.05。总体均数置信区间与医学参考值范围的区别:区别总体均数置信区间医学参考值范围意义按一定的置信度(1-)估
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年医学统计学考研复习笔记 2022 医学 统计学 考研 复习 笔记
限制150内