书签分享收藏举报版权申诉 / 23

立即下载

当前位置：首页 > 教育专区 > 高考资料 > 2022年医学统计学考研复习笔记 .pdf

2022年医学统计学考研复习笔记 .pdf

上传人：Che****ry

文档编号：27199545

上传时间：2022-07-23

格式：PDF

页数：23

大小：599.39KB

( 4.5 )

《2022年医学统计学考研复习笔记 .pdf》由会员分享，可在线阅读，更多相关《2022年医学统计学考研复习笔记 .pdf（23页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、学习好资料欢迎下载统计学的基本步骤和基本概念1、统计学的基本步骤：研究设计；收集资料；整理资料；分析资料；对分析结果的正确解释和表达。横断面研究观察性研究病例对照研究队列研究统计设计动物实验实验性研究临床试验社区干预试验统计学统计描述：运用统计学指标对数据特征及其分布规律进行客观描述和表达统计分析统计推断：在一定的可信程度或概率保证下，根据样本信息推断总体特征集中趋势：平均数、几何均数、中位数统计描述离散程度：方差、标准差、极差、四分位间距、变异系数定量资料参数估计：均数的标准误、总体均数的置信区间统计推断假设检验： t 检验、 t 检验、方差分析、秩和检验统计描述：率、构成比、相对比定性资料

2、统计推断：X2检验、秩和检验、二项分布、Poission分布2、总体和样本：总体：是根据研究目的所确定的所有同质观察单位某种观察值( 变量值 ) 的集合。样本：从研究总体中抽取的一部分满足代表性的个体观察值所组成的集合称为样本，样本包含的观察单位数称为样本含量或样本大小。3、参数和统计量：参数：描述总体分布特征的指标，总体均数、总体标准差、总体率统计量：根据样本算得的某些数值特征，样本均数X、样本标准差S、样本率p4、变量和资料变量：是观察单位的某种特征或属性，变量的观测值就是所谓的变量值。资料：变量值组成的集合称为资料。变量连续型变量离散型变量计量资料定量资料分类资料不具有分

3、类的资料有序分类资料无序分类资料多项分类资料二项分类资料等级资料取值取值名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页，共 23 页 - - - - - - - - - 学习好资料欢迎下载5、随机误差和系统误差误差：泛指实测值与真实值之差，一般可分为随机误差和非随机误差。随机误差：即抽样误差，由于随机抽样造成的实测值与真实值之差。是不可避免的，但一般服从正态分布，可以通过统计学方法进行分析。系统误差：最常见的非随机误差，指实测值系统偏离真实值、具有方向性的误差。6、概率、

4、频率和小概率事件频率：若用随机事件A发生表示观察到某个可能的结果，在n 次随机试验中，随机事件A发生了 m次，则称 A发生的比例 f=m/n 为频率，医学上所说的患病率、病死率等都是频率。概率：描述事件发生可能性大小的一个度量。小概率事件：当某事件发生的概率小于或等于0.05 时，统计学习惯上称该事件为小概率事件。7、同质性和个体变异同质性：通常指研究对象在一定范畴内的各种可能影响主要观察指标的其他因素处于相同或非常相似的情况。个体变异：同质个体中同一观察指标的个体观察值之间的差异称为该观察指标的个体变异。调查研究设计1、调查研究及其特点调查研究：又称观察性研究，指研究者在研究中没

5、有施加任何干预措施，仅客观地观察和记录研究对象的现状及其相关特征的研究。特点：研究过程中没有人为施加的干预措施，研究事物或现象及其相关特征（包括研究因素和非研究因素）是客观存在的；不能将研究因素随机地分配到研究对象中，也不能用随机化分组来平衡非研究因素对调查结果的影响。2、调查研究设计的基本内容：明确调查目的和指标；确定调查对象和观察单位；确定调查方法；确定调查方式；确定调查项目和调查表；制定资料整理分析计划；制定调查的组织计划。3、调查设计的常用抽样方法及其优缺点普查：即调查目标总体中全部观察对象。优：理论上没有抽样误差，可以直接得到总体参数。缺：成本较高。抽样调查：即从总体中抽取一定

6、数量的观察单位组成样本，对样本进行调查。分为概率抽样和非概率抽样。优：节省调查成本，有助于获得较为深入、细致和准确的资料。缺：样本推断总体时存在抽样误差。概率抽样：是指总体中观察单位被抽中的概率是已知的或可以计算的。优：总体代表性较好，可以计算抽样误差，可以对总体进行统计推断。缺点或前提：目标总体和抽样框架明确。非概率抽样：是指总计中每个观察单位被抽中的概率是已知或不能计算的。抽样方法定义优点缺点概率抽样单纯随机抽样按等概率原则直接从含有N个观察单位的总体中抽取n 个观察单位组成样本均数（或率）及标准误的计算简单当总体观察单位较多时，要对观察单位一一编号，比较麻烦系统抽样先将总体的观察单

7、位按某一顺序号分成n个部分，再从第一部分随机抽取第k 号观察单位，依次用相等间距，从每一部分各抽取一个观察单位组成样本易于理解，简单易行；容易得到一个按比例分配的样本；样本的观察单位在总体中分布均匀，其抽样误差一般小于单纯随机误差。当总体中观察单位按顺序有周期趋势或单调增（或减）趋势时，将产生明显的偏性；实际中按单纯随机抽样方法估计误差会一般偏大。分层抽样按对主要研究指标影响较大的某种特征，将总体分为若干类别，再从每一层内随机抽取一定数量的观察单位组成样本减少抽样误差；便于不同的层采用不同的抽样方法，有利于调查组织工作的实施；还可对不同层进行独立分析。要求层内差异较小整群抽样将总

8、体按照某种与主要研究指标无关的特征划分为K个“群”，每个群包含若干观察单位，再随机抽取k 个“群”，由抽取的各个群的全部观察单位组成样本便于组织，节省经费，容易控制调查质量当样本含量一定时，其抽样误差一般大于单纯随机误差（因为样本观察单位未能广泛地散布在总体中）非概率抽偶遇抽样研究者根据现实情况，抽取偶然遇到的人或选择那些距离最近的、最容易找到的人作为调查对象简单易行结果对总体代表性差立意抽样调查者根据研究目的分析判断来选择调对研究者要求较高名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - -

9、 - 第 2 页，共 23 页 - - - - - - - - - 学习好资料欢迎下载样查对象定额抽样研究者首先依据那些可能影响研究指标的各种因素对总体进行分层，并确定各层样本占总体比例，再在各层中抽取样本样本代表性存在一定问题，选择性偏倚较大雪球抽样当无法了解总体情况时，可以从总体中少数成员入手，对他们进行调查，并请他们介绍所认识的其他符合条件的人，再去找那些人进行调查，如此重复，直到达到所需的样本含量常用于缺少抽样框架、目标总体不明、采用其他方法难以找到调查对象的情形4、调查问题安排顺序总原则：符合逻辑；一般问题在前，特殊问题在后；易答题在前，难答题在后；如果采用封闭式和开放式

10、相结合的问题，一般先设置封闭式问题；敏感问题一般放在最后。5、信度和效度效度：又称真实性或准确性，用以反映测量结果与“真实值”的接近程度。定量观察：通常用两者的相关系数r 来描述标准效度。定性或半定量观察： Kappa 系数描述两个测量手段或结果的一致性。信度：又称可靠信、重复性、稳定性或精密度，用以反映相同条件下重复测定结果的一致程度。重复测量法：组内相关系数ICC 评价信度高低。(1)AeAeMSMSICCMSnMSAMS为组间（研究对象间）均方，eMS为组内（误差）均方，n 为重复测量次数。一般认为 ICC0.75 ，说明测量结果的可重复性较好。实验研究设计1、实验设计的3 个

11、基本原则和3 个基本元素：对照、随机化、重复，受试对象、处理因素、实验效应。2、对照形式主要有：空白对照、安慰剂对照、标准对照、实验对照、自身对照、相互对照。3、常用的实验设计类型及其优缺点：类型设计优点缺点完全随机设计单因素两水平或多水平效应设计简单，易于实施，出现缺失数据时仍可进行统计分析小样本时，均衡性可能较差，与随机区组设计相比，一般效率较低配对设计受试对象按配对因素相同或相近配成对子可增强处理组间的均衡性，效率较高配对条件不易严格控制随机区组设计受试对象按性质相同或相近分为 b 个区组，每个区组中的k 个受试对象分配到k 个处理组处理组之间的均衡性较好；更容易揭示处理之

12、间的差别，效率较高非处理因素（配伍条件）不易控制交叉设计按事先设计好的实验次序，在各个时期对受试对象先后实施各种处理节约样本含量；能够控制个体差异和时间差异对处理因素的影响，故效率较高；在临床试验中，均等地考虑了每个患者的利益。每个处理的持续时间不能太长；当受试对象的状态发生根本变化时，例死亡等，后一阶段的处理将无法进行；受试对象一旦在某一阶段退出试验，就会造成该阶段及其以后的数据缺失析因设计两个或多个处理因素的各水平进行组合，对所有可能的组合中安排多个实验对象进行实验可以均衡地对各因素的不同水平进行全面组合，以最小的实验次数探讨各因素不同水平的效应，同时可获得各因素间的交互作用，通

13、过比较还能需求最佳组合工作量较大，析因设计的处理数等于各因素水平数的乘积，其统计分析不但计算复杂，而且给众多交互作用的解释带来困难定量资料的统计描述1、频数表和频数图的制作及用途：频数表的制作：（ 1）求全距 R，R=最大值 - 最小值；（ 2）划组段：定组数，以8-15 组为宜；定组距：组距=R/组数，可适当取整；定上下限：起点为下限，终点为上限，组段下闭，上开），一般写下限，最后上下全。（ 3）统计频数和频率制作频数表。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3

14、页，共 23 页 - - - - - - - - - 学习好资料欢迎下载频数表和频数的用途：揭示频数的分布特征：集中趋势和离散趋势；揭示频数的分布类型：对称分布和偏态分布，集中偏小为正偏，集中偏大为负偏；可以发现某些特大或特小的可疑值，提示检查核对。2、频数分布特征的描述指标及其适用条件：*对于经对数变换后呈正态分布或近似正态分布的资料，应将原始观察值取对数值后计算几何标准差。分布特征指标计算公式适用条件集中趋势平均数X原始资料：112=niinXXXXXnn频数表资料：112212iikkkif Xf Xf Xf XXffff单峰对称分布资料，特别是正态分布或近似正态分布几何均数G原始资料

15、：123nnGX X XX或1112lglglglglg()lg()inXXXXGnn频数表资料：11112212lglglglglg()lg()iikkkifXfXfXfXGffff正偏态分布资料，经过对数变换呈正态分布或近似正态分布；观察值间呈倍数关系或近似倍数关系；变量值中不能有0 和负数，可适当加上一个正数；中位数M原始资料：12nMX，当n为奇数时；122() / 2nnMXX，当 n为偶数时频数表资料：(50%)MLMiMLnffML为中位数所在组段的下限；i为组距；Mf为中位数所在组段的频数；Lf为中位数所在组段前一组的累计频数。不对称分布的资料，两端无确切值或分布不明确的资料离

16、散趋势极差RR=最大值 - 最小值单峰对称分布小样本资料四分位间距ULQQ7525=ULQQPP=(%)xxLxiPLnxffxL为第x百分位数所在组段下限，i为第x百分位数所在组段的组距，xf为第x百分位数所在组段的频数，Lf为第x百分位偏态分布资料、两端无确切值或分布不明确资料名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页，共 23 页 - - - - - - - - - 学习好资料欢迎下载数所在组段前一组的累计频数方差2S原始资料：2221211()()11ninnii

17、iiiXXXXnSnn频数表资料：222()1fXfXnSn单峰对称分布资料标准差S变异系数CV100%SCVX比较计量单位不同或均数相差悬殊的几组资料的离散程度3、正态分布及其应用：概率密度曲线和正态分布曲线：对于变量的频数分布满足中间多，两边少，且左右对称的资料，以观察变量（组距）为横轴，频率密度（频率密度=频率 / 组距）为纵轴，即可得到频率密度直方图，当观察单位逐渐增加，组段，频率分布图中的直条逐渐变窄，就会逐渐形成一条高峰位于中央（均数所在处）、两侧逐渐降低且左右对称、不与横轴相交的光滑曲线，即概率密度曲线，近似于数学上的正态分布曲线。若变量X的频率曲线逼近数学上的正态分布曲线，

18、则称该变量服从正态分布。正态分布曲线的密度函数为：22()21( )2xf xex（为总体均数，为总体标准差，为圆周率， e 为自然对数的底）特点：正态曲线在横轴上方均数处最高；正态分布以均数为中心，左右对称；正态分布有两个参数，即均数与标准差，决定位置，决定“胖瘦”；正态曲线在1处各有一个拐点；正态曲线下的面积分布有一定的规律：1.645XS90% ，1.96XS95% ，2.58XS99% 。若 X 服从正态分布 N （，2），经xXZ变换后，则Z就服从均数为 0，标准差为 1 的正态分布 N（0， 1），称为标准正态分布或Z分布，其密度函数为：221( ),2zzezjp-=- ?

19、+?。正态分布的应用：（1）估计总体变量值的频率分布D：()xz可通过查附表2（Z分布界值表）获得。1()()Dzz2-XZx（可用样本均数X和样本标准差S作为总体均数和总体标准差的估计值）（2）制定医学参考值范围：医学参考值范围指包括绝大多数正常人的人体形态、功能和代谢产物等各种生理及生化指标观察值的波动范围。制定步骤及注意事项：确定观察对象和抽取足够的观察单位；测定方法统一、准确；决定是否分组制定参考值范围；确定取双侧或单侧参考值范围；选定适当的百分界限；选择制定医学参考值范围的方法：部分指标服从对数正态分布，对观察值取对数后计算其对数值的均数和标准差，按正态分布法算出医学参考值范围的对

20、数值，然后取反对数求其真数。百分界限（ % ）正态分布法百分位数法双侧单侧双侧单侧只有下限只有上限只有下限只有上限名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页，共 23 页 - - - - - - - - - 学习好资料欢迎下载95 P2.5P97.5P5P9599 P0.5P99.5P1P99总体均数的估计1、均数的抽样误差与标准误：抽样误差：这种由个体变异产生的、随机抽样引起的样本统计量与总体参数间的差异称为抽样误差。均数的标准误：由于随机抽样所造成的样本均数与总体均

21、数的差别，即为样本均数的抽样误差。样本均数的标准差称为均数的标准误（SEM ），用符号表示，它说明各样本均数围绕总体均数的离散程度，可用来描述样本均数的抽样误差大小。=Xn在抽样研究中，总体标准差常常未知，常用样本标准差S作为的估计值，因而得到均数标准误的估计值，其计算公式为：XSSn根据数理统计的中心极限定理：从均数为，标准差为的正态总体中进行独立随机抽样，其样本均数服从均数为，标准差为的正态分布；即使是从非正态总体（均数为，标准差为）中进行独立随机抽样，当样本含量逐渐增大（n50）时，其样本均数的分布逐渐逼近与均数为，标准差为的正态分布。标准差与均数的标准误的区别于联系：标准差均数的标

22、准误区别统计符号总体标准差用表示，样本标准差用S 表示均数的标准误用表示，其估计值用表示计算公式XSSn统计学意义标准差越小，个体值分布相对越集中，样本均数对数据的代表性越好标准误越小，样本均数的分布越集中，样本均数与总体均数的差别越小，抽样误差越小，由样本均数估计总体均数的可靠性越大用途描述个体值的变异程度描述均数的抽样误差大小联系XSSn2、t 分布产生、特征t 分布的产生：从正态总体中随机抽取的样本的均数服从总体均数为、总体标准差为的正态分布。经过 Z变换，正态分布N（，）转化为标准正态分布N（0,1），即 Z 分布。由于实际研究工作中，未知常见，只能以代替，而XSSn中 S 会因为

23、样本不同而不尽相同，即有变异，故XXS不再服从标准正态分布，而服从t 分布，即：,1/XXXXXXZZtvnSSnt 分布特征：t 分布是一簇单峰分布曲线。t 分布以 t=0 为中心，左右对称且均匀下降。其形态变化与自由度的大小有关。自由度越小，则 t 值越分散，曲线越低平；自由度逐渐增大时， t 分布逐渐逼近标准正态分布；当=时， t 分布即为标准正态分布。3、总体均数的估计：点估计用样本统计量直接作为总体参数的估计值。区间估计是给出被估计参数的可能范围。区间估计：是指按照一定的概率（1-），估计总体参数所在的范围，这个范围称为参数的置信区间，概率（ 1-）称为置信度。总体均数置信

24、区间的估计：总体均数的双侧（ 1-）置信区间的计算公式为：/2,/2,/2,/2,/2,/2,()1()1/XXXPtttPttXtsXtsSn名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 6 页，共 23 页 - - - - - - - - - 学习好资料欢迎下载其余计算同下表。两总体均数差值的置信区间：假设两正态总体分布服从正态分布，和，当，均已知，但时，两总体均数之差()的双侧（ 1-）置信区间为：1212/2,()XXXXtS其中 t 值的自由度 =(n1-1)+(n2-

25、1)=n1+n2-2 ，称为两均数之差的标准误。1221111()cXXSSnn222112212(1)(1)(2)cnSnSSnn当 n1，n2均较大时，差值的可信区间为：221212/2,12()SSXXznn置信区间的含义：总体均数的95%置信区间的含义是从正态总体中重复100 此抽样，每次样本含量为n，每个样本均按计算 95%置信区间，则在这100 个置信区间中，理论上有95 个置信区间包含了总体均数（估计正确），而有5 个置信区间未包含总体均数（估计错误），即犯错误的概率是0.05。总体均数置信区间与医学参考值范围的区别：区别总体均数置信区间医学参考值范围意义按一定的置信度（1-）估

26、计总体均数所在范围绝大多数“正常人”的某项解剖、生理、生物化学指标的波动范围计算公式未知：，未知而 n 较大时：(，) 已知： (，) 正态分布双侧， (，) 单侧， (，或，偏态分布双侧，单侧， (，或，用途估计总体均数所在的范围判断观察对象的某项指标正常与否，为临床诊断提供参考假设检验1、假设检验的基本思想：在总体参数相等这一假设成立的前提下，计算出现等于及大于（或等于及小于）现有样本统计量的可能性（P 值）。在零假设H0成立的前提下利用小概率反证法的逻辑思维方式，先计算比现有样本检验统计量以及更极端情况的可能性（P 值），然后根据检验水准进行判断。如果P 值很小，小于或等于事先规定的

27、检验水准，如 0.05，结论就是拒绝零假设H0，接受 H1，认为总体参数间不同；如果P 值大于，不拒绝H0，尚不能认为总体参数之间不同。2、假设检验的基本过程：建立检验假设，确定检验水准：零假设 H0和备择假设H1，检验水准注明单侧或双侧。计算检验统计量：注明自由度。确定 P值，做出统计推断。3、型错误和型错误：当拒绝 H0时，认为在零假设成立的情况下，出现现在这种样本均数以及更极端情况的概率很下（ P ，不拒绝 H0时，尚不能认为两总体方差不齐。21112222()1,1()SFvnvnS较大，较小方差分析方差分析的基本思想：将总变异按设计和需要分解成两个或多个部分。用途：比较 k 个总

28、体均数间差别有无统计学意义。应用条件：各样本是相互独立的随机样本，均服从正态分布；各样本的总体方差相等，即满足方差齐性。完全随机设计资料的方差分析：又称单因素方差分析。完全随机设计是将同质的受试对象随机地分配到各处理组，再观察其实验效应。,SSSSSSvvv总组间总组间组内组内变异来源SS v MS F 总变异2()XX1N名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 8 页，共 23 页 - - - - - - - - - 学习好资料欢迎下载组间变异2()iin

29、 XX1k/SSv组间组间/MSMS组间组内组内变异SSSS总组间Nk/SSv组内组内随机区组设计资料的方差分析：属于无重复数据的两因素方差分析。随机区组设计又称配伍组设计，通常是将受试对象按性质相同或相近者组成b 个区组（又称配伍组），再将每个区组中的受试对象分别随机分配到k 个处理组中。,SSSSSSSSvvvv处理处理总区组总区组误差误差变异来源SS v MS F 总变异2()XX1N处理组2()iin XX1k/SSv处理处理/MSMS处理误差区组2()jjnXX1b/SSv区组区组/MSMS区组误差误差SSSSSS处理总区组vvv处理总区组/SSv误差误差多个均数两两之间比较：SN

30、K 法（ q 检验）：比较每两个样本均数所代表的总体均数是否不同。Dunnett-t 检验：用于多个处理组与对照组的比较。多个均数两两之间比较进行t 检验会增大I 型错误。交叉设计资料的方差分析：按事先设计好的实验次序，在各个时期对受试对象先后实施各种处理。SSSSSSSSSS处理总阶段个体误差处理总阶段个体误差变异来源SS v MS F 总变异2()XX21n处理2()nXX处理处理1 /1SS处理/MSMS处理误差阶段2()nXX阶段阶段1 /1SS阶段/MSMS阶段误差个体2()nXX个体个体1n/ (1)SSn个体/MSMS个体误差误差SSSSSSSS处理总阶段个体2n/ (2)S

31、Sn误差析因设计资料的方差分析：析因设计是将两个或多个实验因素的各水平进行全面组合，对各组合都进行实验，从而探讨各实验因素的单独效应、主效应以及各因素间的交互效应。统计推断时先判断有无交互效应，若存在交互效应时，单纯研究某个因素的作用是没有意义的，必须在另一个因素的不同水平下研究该因素的作用大小。()ABABSSSSSSSSSSSSSS处理总误差误差()ABABvvvvvvv处理总误差误差变异来源SS v MS F 总变异2()XX1N处理2()iin XX1kA 2()AAnXX1 /ASSvA/AMSMS误差B 2()BBnXX1 /BSSvB/BMSMS误差名师资料总结 - -

32、-精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 9 页，共 23 页 - - - - - - - - - 学习好资料欢迎下载AB ABSSSSSS处理1 /ABABSSv/ABMSMS误差误差SSSS处理总Nk/SSv误差误差重复测量资料的方差分析：重复测量资料是同一受试对象的同一观察指标在不同时间点上进行多次测量所获得的资料，常用来分析该观察指标在不同时间点上的变化特点。前提条件：除需满足一般方差分析的条件外，还需特别满足协方差阵的球形性或复合对称性。若球对称性质不能满足，方差分析的结果会增大I

33、型错误的概率。球对称性通常采用Mauchly 检验来判断。若 P，从理论上讲，应对受试对象内所有变异的自由度进行校正，包括时间效应、处理时间的交互效应以及个体内误差三者的自由度均需乘以G-G 法或 H-F 法的“球对称”系数，再查 F 界值表获得P 值。重复测量资料还可以用Mixed 回归模型分析，不要求资料满足球形对称性。()()SSSSSSSSSSSSSSSS处理总时间处理时间受试对象间受试对象内个体间误差个体内误差()()处理总时间处理时间受试对象间受试对象内个体间误差个体内误差变异来源SS v MS F 总变异2()XX1N受试对象间2()jjnXX1k处理2()nXX处理处

34、理1g/SSv处理处理/MSMS处理个体间误差个体间误差SSSS处理对象间kg/SSv个体间误差个体间误差受试对象内SSSS总对象间Nk时间2()nXX时间时间1p/SSv时间时间/MSMS时间个体内误差处理时间2()nXX处理时间处理时间(1)(1)gp/SSv处理时间处理时间/MSMS处理时间个体内误差误差SSSSSS时间处理时间对象内- (1)Nk g p/SSv个体内误差个体内误差随机区组设计与完全随机设计相比，因为通过区组控制了可能的混杂因素，并将区组变异从原组内变异中分解出来，所以，当区组因素有统计学意义时，方差分析的随机误差部分更为准确，检验效能更高。随机区组设计和22 析因设

35、计虽然均为两因素，但随机区组设计通常为研究单因素而设计，区组因素只是一个控制因素，不能分析其交互效应；22析因设计为两因素设计，可以分析两因素间的交互作用。对析因设计资料，应先分析交互效应。若交互效应有统计学意义，须固定某一因素的水平，逐一分析其他因素的单独效应；反之，若交互效应无统计学意义，则因素间的作用相互独立，分析某一因素的作用只需考察该因素的主效应。定性资料的统计描述1、定性资料：在医学研究和实践中，有一类资料是按照事物的特征或属性进行分类的，这类资料称为定性资料，也称分类资料或计数资料。定性资料的频数分布：定性资料频数分布表又称列联表，是用两个分类变量对同一资料进行双

36、向分类形成的表，可用于考察两种属性的关系。常用相对数指标：（1）率：是指某现象实际发生数与某时间点或某时间段可能发生该现象的观察单位数之比，用以说明该现象发生的频率或强度。包括频率和速率两类指标。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 10 页，共 23 页 - - - - - - - - - 学习好资料欢迎下载（2）构成比（ proportion）：即比例，是指事物内部某一部分组成观察单位数与同一事物各组成部分的观察单位总数之比，用以说明事物内部各组成部分所占比重。特点：

37、分子是分母的一部分，各组成部分的构成比数值之和等于1 或 100%。事物内部各组成部分之间呈此消彼长关系。（3）相对比（ ratio）：是两个有关联的指标之比值，用以说明一个指标是另一个指标的几倍或几分之几。可分为：关系指标：指两个有关的非同类事物的指标，如医护人员与病床数之比。对比指标：指同类事物的两个指标之比，以达到比较的目的。如男女性别比。应用相对数的注意事项：计算相对数应有足够的观察单位数；分析时不能以构成比代替率；应将分子和分母分别合计求合计率；相对数的比较应注意其可比性；样本率或样本构成比的比较应作假设检验；某些情况下最好使用绝对数：传染病疫情描述和其他突发事件的描述。2、率

38、的标准化：标准化法的基本思想就是采用统一的标准构成，以消除年龄、性别、病情轻重及病程长短等因素构成不同对病死率、死亡率、治愈率等的影响，使算得的标准化率具有可比性。直接法：已知被标化组的年龄别死亡率ip时，宜用直接法计算标准化率。（1）已知标准组年龄别人口数时，标准化率iiN ppN（标准化人口iN按照被标化组的年龄别死亡率ip去死）（ 2）已知标准组年龄别人口构成比时，标准化率()iiNppN（标准组年龄别人口构成比被标化组的年龄别死亡率称为分配死亡率）间接法：当只有被标化组的年龄别人口数in、死亡总数r和标准组的年龄别死亡率iP时，可采用间接法。iirpPPSMRn P（被标化组

39、人口in按照标准组的年龄别死亡率iP去死）iirn P是被标化组的实际死亡数与预期死亡数之比，称为标准化死亡比（SMR）标准组的选择：根据研究目的选择有代表性的、较稳定的、数量较大的人群；将欲比较的两地或两组的人口数合并作为标准组，或选择其中一组较多的人口作为标准组。应用标准化法的注意事项：标准化率并不代表真实水平，选择的标准不同，计算出的标准化率也不相同。因此标准化率仅适用于相互间的比较，实际水平应采用未标化率来反映。样本的标准化率是样本指标值，亦存在抽样误差，若要比较其代表的总体标准化率是否不同，需作假设检验。当被标准化组各年龄段人口数太少，年龄别死亡率波动较大时，宜采用间接法。各

40、年龄组率若出现明显交叉，或呈非平行变化趋势时，则不适合采用标准化法，宜分层比较各年龄组率。2检验2检验时在2分布的基础上，利用样本信息考察样本频数分布与假设成立条件下的理论频数分布之间差异的假设检验方法。由于2分布本身是一种连续型随机变量的概率分布形式，而基于频数算的的2值是离散的，不可能取 0，+）的任意值，因此，PearsonX2只是近似服从X2分布，只有当样本例数或理论频数足够大时，这种近似才较好，进行X2检验才是有效的。1、独立样本率或构成比比较的X2检验2 2 列联表资料的2检验：(1)(1)vkspRC当40n且所有格子的5T时，222()()()()()()adbcnATab

41、 cdacbdT当40n且有15T时，222(2)(0.5)()()()()adbcnnATab cd ac bdT亦可使用确切概率法名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 11 页，共 23 页 - - - - - - - - - 学习好资料欢迎下载当40n或有1T时，应选择Fisher 确切概率法()!()!()!()! ! ! !iabcdacbdPa b c d n1iP四格表确切概率法的基本思想：在四格表周边合计不变的条件下，利用超几何分布直接计算发生样本事件及比样

42、本事件更极端情形发生的概率。由于四格表的自由度为1，在周边合计不变的条件下，只需依次增减样本四格表第 1 个格子数据，即a 由小变大，即可得到各种组合的四格表，按a 由小到大排列，然后依次计算出各种组合的概率 Pi，找出概率小于或等于原四格表概率的所有四格表，将其对应的概率相加，得出双侧概率。最后，将计算出的概率与检验水准比较，得出结论。R C 列联表资料的X2检验：一般要求不能有1/5 以上格子的T5，或有 1 个格子的 T50 时，近似程度较满意。(1) 40.5(1)(21)/ 24Tn nZn nn3(1) 40.5()(1)(21)2448cjjTn nZttn nn（当相持的情形较

43、多时，如个体数超过25%，可用校正的统计量Zc，tj为第 j 个相同秩次的个数）单一样本与总体中位数比较：求差值、编秩、求秩和、计算检验统计量。成组设计两样本比较的秩和检验：Wilcoxon 秩和检验（Wilcoxon rank sum test ）推断连续型定量资料或有序分类资料的两个独立样本代表的总体分布位置是否有差别。基本思想：假设含量为n1和 n2的两个样本（且n1n2），来自同一总体或分布相同的两个总体，则n1样本的秩和T1与其理论秩和n1(N+1)/2 相差不大，即T1-n1(N+1)/2 仅为抽样误差所致。当两者相差悬殊，超出抽样误差可解释的范围时，则有理由怀疑该假设，从而拒

44、绝 H0。原始数据的两样本比较：原始数据为连续性定量资料，且不满足参数检验条件时编秩过程：编秩过程同上，若两样本例数相等时，取任意组的秩和作为检验统计量；若两样本例数不相等时，取样本含量较小组的秩和作为检验统计量。（1）查表法：当样本含量较小组10，且两样本含量之差10 时，查附表11（内大外小）。（2）正态近似法：当n110 或 n1-n210 时，根据中心极限定理，这时T1的分布已接近均数为n1(N+1)/2 ，方差为 n1n2(N+1)/12的正态分布。112(1)/ 20.5(1)/12Tn NZnnN33,1() ()cjjZZcttNNc（当相持的情形较多时，如个体数超过25%，

45、可用校正的统计量Zc，tj为第 j 个相同秩次的个数）等级资料的两样本比较：编秩、求秩和、确定统计量，计算同上。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 13 页，共 23 页 - - - - - - - - - 学习好资料欢迎下载成组设计多个样本比较的秩和检验：Kruskal-Wallis H秩和检验，同于推断非正态分布定量变量或有序分类变量的多个总体分布位置有无差别。多个独立样本间的多重比较可以采用秩变换后进行方差分析及SNK 法多重比较，也可以通过调整水准（需比较次数）

46、直接采用两独立样本的Wilcoxon 秩和检验。随机区组设计的秩和检验：可用 Friedman 秩和检验（ Friedman M test ），又称 M 检验，为了比较平衡区组因素影响后个处理间的效应，采用了不同的编秩方法（区组内按大小编秩）。多个相关样本的两两比较与多个独立样本间的多重比较相似。二项分布和 Poisson 分布及其应用1、二项分布的定义、适用条件及性质和应用在相同条件下每次试验只有两种对立结果（A或）、各次试验相互独立并且可重复的试验叫作Bernoulli试验或成败性试验。n 次 Bernoulli试验，所感兴趣的事件A发生X次的概率分布叫做二项分布。当每次 Bernoull

47、i试验发生阳性的概率为时，n 次 Bernoulli试验中恰好发生X个阳性的概率为：!()(1)(1)(0,1,2, )!XXnXXnXnnP XCXnXnX二项分布常计为XB（n，）适用条件：每次试验只会发生两种对立的可能结果之一；在相同试验条件下，每次试验产生某种结果的概率固定不变；重复试验是相互独立的。性质：（1）二项分布的均数与标准差：若XB（n，），则：X的总体均数：n； X 的总体方差：2(1)n； X 的总体标准差：1n。若以样本率表示，则：样本率 P的总体均数为：1pn样本率 P的总体方差为：2221(1)pnn样本率 P的总体标准差为：1(1)pnn样本率的标准差也称率的

48、标准误，常用来描述样本率的抽样误差。当总体率未知时，以样本资料计算的P=X/n作为的估计值，则p的估计值为：1pppSn（2）二项分布的图形：当=0.5 时，二项分布图形是对称的；当0.5 时，图形是偏态的，随着 n 的增大，图形趋于对称。当n时，只要不太靠近 0 或 1，二项分布近似正态分布。应用：（一）总体率的区间估计：直接法：对于小样本资料（n50），直接查百分率的置信区间表（附表7）即可得到总体率的95% 和 99% 置信区间；正态近似法：当n 较大、 p 和 1-p 均不太小，如np 和 n（1-p ）均大于5时，可利用样本率的p 的分布近似正态分布来估计总体率的（1-）置信

49、区间。计算公式：/2ppZS（二）单个样本率与已知总体率的比较：直接法：对单侧检验，有下面两种情况：A 若是回答“差”或“低”的问题，则计算出“阳性”次数至多为k 次的概率，即：00!()()(1)!()!kkXnXXXnP XkP XXnX名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 14 页，共 23 页 - - - - - - - - - 学习好资料欢迎下载B 若是回答“优”或“高”的问题，则计算出现“阳性”次数至少为k 次的概率，即：!()()(1)!()!nnXnXXkX

50、knP XkP XXnX对于双侧检验：由于要回答的是“是否有差别”，即无效假设0H：0，备择假设1H：0，因此，所要计算的双侧检验概率P 值应为实际样本出现的概率与更背离无效假设的事件出现的概率之和，即()()PP XkP Xi，其中 i 满足()()P XiP Xk。例题：一种鸭通常感染某种传染病的概率是0.2 ，现将一种药物注射到25 只鸭后发现有1 只鸭发生感染，试判断这种药物对预防感染是否有效。（1）建立假设检验，确定检验水准0H：此药物对预防感染无效，即0.2；1H：此药物对预防感染有效，即0.2；单侧0.05（2）计算概率：在(25,0.2)XB成立的前提下，至多有1 只感染的概

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

4.3 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 2022年医学统计学考研复习笔记 2022 医学统计学考研复习笔记

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：2022年医学统计学考研复习笔记 .pdf
链接地址：https://www.taowenge.com/p-27199545.html