【孙振球第三版】医学统计学复习题20111222日解读.pdf
《【孙振球第三版】医学统计学复习题20111222日解读.pdf》由会员分享,可在线阅读,更多相关《【孙振球第三版】医学统计学复习题20111222日解读.pdf(10页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、统计复习题 2 Edited by RYAN DAI 一、名词解释:1、总体:根据研究目的确定的同质观察单位的全体。是同质所有观察单位的某种变量值的集合。2、有限总体:是指空间、时间范围限制的总体。3、无限总体:是指没有空间、时间限制的总体。4、样本:从总体中随机抽取部分观察单位,其实测值的集合。5、计量资料:又称定量资料或数值变量资料。为观测每个观察单位的某项指标的大小,而获得的资料。其变量值是定量的,表现为数值大小,一般有度量衡单位。根据其观测值取值是否连续,又可分为连续型或离散型两类。6、计数资料:又称定性资料或者无序分类变量资料,亦称名义变量资料,是将观察单位按照某种属性或类别分组计数
2、,分组汇总各组观察单位数后得到的资料。其变量值是定性的,表现为互不相容的性或类别。分两种情形:(1)二分类:两类间相互对立,互不相容。(2)多分类:各类间互不相容。7、等级资料:又称半定量资料或有序分类变量资料,是将观察单位按某种属性的不同程度分成等级后分组计数,分类汇总各组观察单位数后而得到的资料。其变量值具有半定量性质,表现为等级大小或属性程度。8、随机误差(偶然误差):是一类不恒定的、随机变化的误差,由多种尚无法控制的因素引起,观察值不按方向性和系统性变化,在大量重复测量中,它可呈现或大或小,或正或负的规律性变化。9、平均数:描述一组变量值的集中位置或水平。常用的平均数有算术平均数、几何
3、平均数和中位数。10、抽样误差:由于个体差异和随机抽样造成的样本统计量和总体参数之间的差异,以及统一总体若干样本统计量之间的差异。13、相对数:两个有联系的指标之比,是分类变量常用的描述性统计指标,常用两个分类的绝对数之比表示相对数学的大小。如率、构成比、比等。14、率:强度相对数,说明某现象发生的频率或强度。15、构成比:结构相对数字,表示事物内部某一部分的个体与该事物各个部分个体数的和之比。用来说明各构成部分在总体所占的比重或分布。16、相对比:简称比,是两个相关联指标之比,说明两指标间的比例关系。两指标可以性质相同,也可以性质不同,通常以倍数或百分数表示。两指标可以是绝对数、相对数或平均
4、数。17、标准化:采用某影响因素的统一标准构成以消除内部构成不同对总率的影响,使通过标化后的标准率具有可比性。18、动态数列:是一系列按时间顺序排列起来的统计指标,用以观察和比较该事物在时间上的变化和发展趋势。常用指标有绝对增长量、发展速度与增长速度、平均发展速度与平均增长速度。19、非参数检验:相对于参数检验而言,不依赖于总体分布类型,也不对总体参数进行统计推断的假设检验方法,称为参数检验。20、相关系数:又称 Pearson 积差相关系数,以符号 r 来表示。说明两正态变量间相关关系的密切程度和方向的指标。无单位,其值为-1r1。相关系数的检验假设常用 t 检验。21、回归系数:即线性回归
5、方程的斜率 b,其统计意义是当X 变化一个单位时 Y 的平均改变的估计值。在直线回归中对回归系数的t 检验与 F 检验等价。22、随机化原则:是指在实验分组时,每个受试对象均有相同的概率或机会被分陪配到实验组和对照组。23、分类变量资料:计数资料,又称定性资料或无序分类变量资料。是将观察单位按照某种属性或类别分组计数,分组汇总各组观察单位数后得到的资料。其变量值是定性的,表现为互不相容的性或类别。分两种情形:(1)二分类:两类间相互对立,互不相容。(2)多分类:各类间互不相容。24、无序分类变量资料:计数资料,又称定性资料。是将观察单位按照某种属性或类别分组计数,分组汇总各组观察单位数后得到的
6、资料。其变量值是定性的,表现为互不相容的性或类别。分两种情形:(1)二分类:两类间相互对立,互不相容。(2)多分类:各类间互不相容。25、期望寿命:指同时出生的一代人活满 x 岁以后尚能生存的年数(即岁数)。26、检验效能:表达式为 1-,以往称把握度。其意义为当两总体确有差异,按规定检验水准所能发现该差异的能力。27、观察单位:亦称个体,是统计研究中的基本单位。它可以是一个人、一只动物,也可以是特指的一群人;可以是一个器官,甚至一个细胞。28、样本含量:样本中包含观察单位数称为该样本的样本含量。29、变量:确定总体之后,研究者应对每个观察单位的某项特征进行观察或测量,这种特征能表现观察单位的
7、变异性,成为变量。30、变量值:对变量的观测值称为变量值或观察值。31、误差:泛指实测值与真实值之差,按产生原因和性质可粗分为(1)随机误差;(2)非随机误差系统误差非系统误差。32、系统误差:实验过程中产生的误差,它的值或恒不变,或遵循一定的变化规律,其产生的原因往往是可知的或可能掌握的。应尽可能设法预见到各种系统误差的具体来源,力求通过周密的研究设计和严格的技术措施施加以消除或控制。33、非系统误差:在实验过程中由于研究者偶然失误造成的误差。这类误差应当通过认真检查核对予以清除,否则将影响研究结果的准确性。34、频率:一个随机试验有几种可能,在结果重复进行试验时,个别结果看来是偶然发生,但
8、当重复试验次数相当大时,总有规律出现。在重复多次后,出现结果的比例称之为频率。35、概率:概率是描述随机事件发生可能性大小的一个度量。36、医学参考值:是直指包括绝大多数正常人的人体形态、功能和代谢产物等个各种生理指标常数,也称正常值。由于存在个体差异,生物医学数据并非常数而是在一定范围内波动,故医学参考值范围作为判定正常和异常的参考标准。37、正态分布:正态分布又称高斯分布,是一种很重要的连续型统计复习题 2 Edited by RYAN DAI 分布,应用很广。若指标 X 的频率分布曲线对应于数学上的正态分布曲线,则称该指标服从正态分布。38、偏态分布:指集中位置偏向一侧,频数分布不对称。
9、(1)正偏态分布:集中位置偏向数值小的一侧。(2)负偏态分布:集中位置偏向数值大的一侧。39 抽样:在医学研究中,为节省人力、物力、财礼和时间,一般都采取从总体中抽取样本,根据样本信息来推断总体特征的方法,即抽样研究的方法来实现,这种从总体种随机抽取部分观察单位的过程称为抽样。为保证样本的代表性,抽样时必须遵循随机化原则。统计描述:指选用恰当的指标,通常称为统计量,选用合适的统计表与统计图,对资料的数量特征及其分布规律进行测定和描述。包括搜集数据、整理数据、总结数据、分析数据以及将数据呈现出来 统计推断:指如何在一定的可信度下由样本信息统计指标来推断总体相应指标,又称参数估计。包括进行推测、假
10、设检验、确定关系然后作出预测 小概率事件:统计分析中的很多结论都是基于一定可信程度下的概率推断,习惯上将 P=0.05 称为小概率事件,表示一次实验或观察中该事件发生的可能很小,可以视为可能不发生。算术均数:简称均数 可用于反映一组呈对称分布的变量值在数量上的平均水平或者说是集中位置的特征值。几何均数(geometric mean):可用于反映一组经对数转换后呈对称分布的变量值在数量上的平均水平。适用条件:呈倍数关系的等比资料或对数正态分布(正偏态)资料;如抗体滴度资料 中位数(median):是将变量值从小到大排列,位置居于中间的那个变量值。符号为 Md,反映一批观察值在位次上的平均水平。适
11、用于:1、各种分布类型的资料 2、特别是偏态分布资料和开囗资料(一端或两端无确切数值的资料)。3、资料分布不明等 百分位数:将一组数据从大到小按顺序排列起来,并计算相应的累计百分位(频率)。那某一百分位所对应的数据变量值就叫这一百分位的百分位数 百分位数的应用:确定医学参考值范围;中位数 Md 与四分位半间距 QD 一起使用,描述偏态分布资料的特征 百分位数:数据从小到大 排列;在百分尺度下,所占百分比对应的值。记为Px。包括直接算法和频数表法 应用:1.确定医学参考值范围(reference range):如 95参考值范围P97.5P2.5;表示有 95正常个体的测量值在此范围。2.中位数
12、 Md 与四分位半间距 QD 一起使用,描述偏态分布资料的特征 方差(variance)也称均方差(mean square deviation),样本观察值的离均差平方和的均值。表示一组数据的平均离散情况。标准差(standard deviation)即方差的正平方根;其单位与原变量X的单位相同。自由度是数学名词,在统计学中,n个数据如不受任何条件的限制,则n个数据可取任意值,称为有n个自由度 变异系数:多用于观察指标单位不同时,如身高与体重的变异程度的比较;或均数相差较大时,如儿童身高与成人身高变异程度的比较。医学参考值(reference value)是指包括绝大多数正常人的人体形态、机能
13、和代谢产物等各种生理及生化指标常数,也称正常值。由于存在个体差异,生物医学数据并非常数而是在一定范围内波动,故采用医学参考值范围(medical reference range)作为判定正常和异常的参考标准。95可信区间:从总体中作随机抽样,作 100 次抽样,每个样本可算得一个可信区间,得 100 个可信区间,平均有 95 个可信区间包括(估计正确),只有 5 个可信区间不包括(估计错误)。假设检验过去称显著性检验:它是利用小概率反证法思想,从问题的对立面(H0)出发间接判断要解决的问题(H1)是否成立。然后在H0 成立的条件下计算检验统计量,最后获得 P值来判断。检验水准,过去称显著性水准
14、,是预先规定的概率值,它确定了小概率事件的标准。在实际工作中常取=0.05。可根据不同研究目的给予不同设置。I 型错误:“实际无差别,但下了有差别的结论”,假阳性错误。犯这种错误的概率是(其值等于检验水准)II 型错误:“实际有差别,但下了不拒绝H0 的结论”,假阴性错误。犯这种错误的概率是(其值未知)完全随机设计:是采用完全随机化的分组方法,将全部试验对象分配到g个处理组(水平组),各组分别接受不同的处理,试验结束后比较各组均数之间的差别有无统计学意义,推论处理因素的效应。动态数列(dynamic series):是一系列按时间顺序排列起来的统计指标(可以为绝对数,相对数或平均数),用以观察
15、和比较该事物在时间上的变化和发展趋势。绝对增长量;是说明事物在一定时期增长的绝对值。发展速度与增长速度:均为相对比,说明事物在一定时期的速度变化。发展速度表示报告期指标的水平相当于基期水平的百分之多少或若干倍,平均发展速度;是各环比发展速度的几何平均数,说明某事物在一个较长时期中逐期(如逐年)平均发展的程度。平均增长速度;是各环比增长速度的平均数,说明某事物在一个较长时期中逐期平均增长的程度。b 的意义:回归系数b称为斜率(slope),其统计学意义是:X 每增加(减)一个单位,Y 平均改变b个单位。残差(residual)或剩余值,即实测值Y与假定回归线上的估计值Y 的纵向距离。统计复习题
16、2 Edited by RYAN DAI 直线相关系数(correlation coefficient),Pearson 积差相关系数,用来说明具有直线关系的两变量间相关的密切程度与相关方向。统计图:指利用点的位置、线段的升降、直条的长短和面积的大小等各种几何图形来表达统计资料。统计图只能提供概略的情况,而不能获得确切数值,因此不能完全代替统计表,常需要同时列出统计表作为统计图的数值依据 百分条图:是以矩形总长度作为 100%,将其分割成不同长度的段表示各构成的比例。圆图和百分条图适合描述分类变量的各类别所占的构成比。百分条图以总长度 L 为 100%,将长度 L 乘以各类别的构成比(%)得到
17、各构成的长度,由大到小或按类别的自然顺序依次排列,其它项放最后。箱式图(box plot):使用 5 个统计量反映原始数据的分布特征,即数据分布中心位置、分布、偏度、变异范围和异常值。箱式图的箱子两端分别是上、下四分位数,中间是中位数,两端连线分别是除异常值之外的最小与最大值。箱子越长数据变异程度越大,中间横线在箱子中点表明分布对称,否则不对称。箱式图特别适合多组数据分布的比较。二项分布(binomial distribution)是指在只会产生两种可能结果如“阳性”或“阴性”之一的 n 次独立重复试验中,当每次试验的“阳性”概率保持不变时,出现“阳性”次数 X=0,1,2,n 的一种概率分布
18、。记作:XB(n,)。Poisson 分布:(Poisson distribution)作为二项分布的一种极限情况,已发展成为描述小概率事件发生规律性的一种重要分布。Poisson 分布是描述单位面积、体积、时间、人群等内稀有事件(或罕见事件)发生数的分布。所谓随机变量X 服从 Poisson 分布,是指在足够多的 n 次独立 Bernoulli 试验中,取值 X 的概率为 非参数检验 针对某些资料的总体分布难以用某种函数式来表达,或者资料的总体分布的函数式是未知的,只知道总体分布式连续型的或是离散型的,用于解决这类问题需要一种不依赖总体分布的具体形式的统计分析方法。由于这类方法不受总体参数的
19、限制,故称为非参数统计,或称为不拘分布的统计分析方法,又称为无分布型式假定的统计分析方法。适于处理总体分布不易确定或未知;分布非正态但无合适转换方法;有一端或两端有不确定数值(如15.0)的资料;等级资料等。参数检验 通常要求样本来自总体分布类型已知(正态分布),在这种假设的基础上,对总体参数(如总体均数)进行估计和检验,称为参数检验。例如,均数的区间估计;t 检验/u 检验,F 检验。“球对称”假设:满足“球对称”假设,可用第四章随机区组方差分析比较处理组间差异;若不满足“球对称”假设,亦可用随机区组方差分析,但需校正时间效应F界值的自由度。单变量分析:研究单个变量的数量特征,推断两个或多个
20、总体参数的差别。双变量分析:研究两个变量的数量依存(或依赖)关系或互依(或相关)关系。多变量分析:研究多个变量的数量依存(或依赖)关系或互依(或相关)关系。单独效应:指其他因素的水平固定时,同一因素不同水平间的差别 主效应:指某一因素各水平间的平均差别 交互作用:当某因素的各个单独效应随另一因素变化而变化时,则称这两个因素间存在交互作用。正交试验:非全面组合,g 个处理组是各因素 各水平的部分组合,即析因设计 的部分实施。优点:减少试验次数缺点:牺牲分析各因素部分交互作用 b0 为截距:表示各自变量均为 0 时y的的估计值。bi称为偏回归系数,是i的估计值,表示当方程中其他自变量保持不变时,自
21、变量Xi变化一个计量单位,反应变量Y的平均变化量。b称为 X=(X1,X2,Xm)时,反应变量Y的估计值。e是去除m个自变量对Y影响后的随机误差(残差 偏相关系数:扣除其他变量的影响后,变量Y与Xi的相关,称为Y与Xi的偏相关系数。优势比OR(odds ratio)流行病学衡量危险因素作用大小的比数比例指标。计算公式为:优势比估计:可反映某一因素两个不同水平(c1,c0)的优势比:logistic 回归:是一个概率型模型,因此可以利用它预测某事件发生的概率。例如在临床上可以根据患者的一些检查指标,判断患某种疾病的概率有多大。综合评价:利用多项指标对某个评价对象的某种属性进行定性、定量评估,或者
22、对多个评价对象的属性进行定性、定量评估,可对优劣顺序排序 多元回归与逐步回归法:多元回归分析挑选标准化偏回归系数绝对值较大或偏回归系数假设检验有显著性的指标作为评价指标;逐步回归有自动挑选主要影响指标的功能,是目前最常用的指标挑选方法。指标聚类法:在存在众多指标的情况下,可将相似指标聚成类,再从每类中找一个典型指标作为代表,从而用少量几个典型指标作为评价指标来代表原来众多的指标建立评价模型。层次分析法(Analytic Hierarchy Process,简称 AHP):由美国科学家 T.L.Saaty 于 20 世纪 70 年代提出,是用系统分析的方法,对评价对象依评价目的所确定的总评价目标
23、进行连续性分解,得到各级(各层)评价目标,并以最下层指标作为衡量目标达()0,1,2,!XeP XXX1100/(1)/(1)jPPORPPROj统计复习题 2 Edited by RYAN DAI 到程度的评价指标。然后依据这些指标计算出一综合评分指数对评价对象的总评价目标进行评价,依其大小来确定评价对象的优劣等级。秩和比(Rank Sum Ratio,RSR)指行(或列)秩次的平均值,是一个非参数统计量,具有 01 连续变量的特征。在综合评价中,秩和比综合了多项评价指标的信息,表明多个评价指标的综合水平,RSR值越大越优。重复测量设计:当前后测量设计的重复测量次数m3 时,称重复测量设计或
24、重复测量数据。判别分析:在已知分为若干个类的前提下,获得判别模型,并用来判定观察对象的归属。聚类分析:将随机现象归类的统计学方法,在不知道应分多少类合适的情况下,试图借助数理统计的方法用已收集到的资料找出研究对象的适当归类方法。已成为发掘海量基因信息的首选工具。R 型聚类:又称指标聚类,是指将m个指标归类的方法,其目的是将指标降维从而选择有代表性的指标。Q 型聚类:又称样品聚类,是指将n个样品归类的方法,其目的是找出样品间的共性。非参数检验 针对某些资料的总体分布难以用某种函数式来表达,或者资料的总体分布的函数式是未知的,只知道总体分布式连续型的或是离散型的,用于解决这类问题需要一种不依赖总体
25、分布的具体形式的统计分析方法。由于这类方法不受总体参数的限制,故称为非参数统计,或称为不拘分布的统计分析方法,又称为无分布型式假定的统计分析方法。适于处理总体分布不易确定或未知;分布非正态但无合适转换方法;有一端或两端有不确定数值(如15.0)的资料;等级资料等。参数检验:通常要求样本来自总体分布类型已知(正态分布),在这种假设的基础上,对总体参数(如总体均数)进行估计和检验,称为参数检验。例如,均数的区间估计;t检验/u检验,F检验。完全数据:一部分研究对象可观察到死亡,从而得到准确的生存时间,所提供的信息是完全的 不完全数据:亦称截尾数据:一部分病人,或中途失访,或到观察结束时仍存活,对这
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 孙振球第三版 孙振球 第三 医学 统计学 复习题 20111222 解读
限制150内