【孙振球第三版】医学统计学复习题2011.12.22日.doc
《【孙振球第三版】医学统计学复习题2011.12.22日.doc》由会员分享,可在线阅读,更多相关《【孙振球第三版】医学统计学复习题2011.12.22日.doc(12页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、一、名词解释:1、总体:根据研究目确实定的同质观察单位的全体。是同质所有观察单位的某种变量值的集合。2、有限总体:是指空间、时间范围限制的总体。3、无限总体:是指没有空间、时间限制的总体。4、样本:从总体中随机抽取局部观察单位,其实测值的集合。5、计量资料:又称定量资料或数值变量资料。为观测每个观察单位的某项指标的大小,而获得的资料。其变量值是定量的,表现为数值大小,一般有度量衡单位。根据其观测值取值是否连续,又可分为连续型或离散型两类。6、计数资料:又称定性资料或者无序分类变量资料,亦称名义变量资料,是将观察单位按照某种属性或类别分组计数,分组汇总各组观察单位数后得到的资料。其变量值是定性的
2、,表现为互不相容的性或类别。分两种情形:1二分类:两类间相互对立,互不相容。2多分类:各类间互不相容。7、等级资料:又称半定量资料或有序分类变量资料,是将观察单位按某种属性的不同程度分成等级后分组计数,分类汇总各组观察单位数后而得到的资料。其变量值具有半定量性质,表现为等级大小或属性程度。8、随机误差偶然误差:是一类不恒定的、随机变化的误差,由多种尚无法控制的因素引起,观察值不按方向性和系统性变化,在大量重复测量中,它可呈现或大或小,或正或负的规律性变化。9、平均数:描述一组变量值的集中位置或水平。常用的平均数有算术平均数、几何平均数和中位数。10、抽样误差:由于个体差异和随机抽样造成的样本统
3、计量和总体参数之间的差异,以及统一总体假设干样本统计量之间的差异。13、相对数:两个有联系的指标之比,是分类变量常用的描述性统计指标,常用两个分类的绝对数之比表示相对数学的大小。如率、构成比、比等。14、率:强度相对数,说明某现象发生的频率或强度。15、构成比:结构相对数字,表示事物内部某一局部的个体与该事物各个局部个体数的和之比。用来说明各构成局部在总体所占的比重或分布。16、相比照:简称比,是两个相关联指标之比,说明两指标间的比例关系。两指标可以性质相同,也可以性质不同,通常以倍数或百分数表示。两指标可以是绝对数、相对数或平均数。17、标准化:采用某影响因素的统一标准构成以消除内部构成不同
4、对总率的影响,使通过标化后的标准率具有可比性。18、动态数列:是一系列按时间顺序排列起来的统计指标,用以观察和比拟该事物在时间上的变化和开展趋势。常用指标有绝对增长量、开展速度与增长速度、平均开展速度与平均增长速度。19、非参数检验:相对于参数检验而言,不依赖于总体分布类型,也不对总体参数进行统计推断的假设检验方法,称为参数检验。20、相关系数:又称Pearson积差相关系数,以符号r来表示。说明两正态变量间相关关系的密切程度和方向的指标。无单位,其值为-1r1。相关系数的检验假设常用t检验。21、回归系数:即线性回归方程的斜率b,其统计意义是当X变化一个单位时Y的平均改变的估计值。在直线回归
5、中对回归系数的t检验与F检验等价。22、随机划原那么:是指在实验分组时,每个受试对象均有相同的概率或时机被分陪配到实验组和对照组。23、分类变量资料:计数资料,又称定性资料或无序分类变量资料。是将观察单位按照某种属性或类别分组计数,分组汇总各组观察单位数后得到的资料。其变量值是定性的,表现为互不相容的性或类别。分两种情形:1二分类:两类间相互对立,互不相容。2多分类:各类间互不相容。24、无序分类变量资料:计数资料,又称定性资料。是将观察单位按照某种属性或类别分组计数,分组汇总各组观察单位数后得到的资料。其变量值是定性的,表现为互不相容的性或类别。分两种情形:1二分类:两类间相互对立,互不相容
6、。2多分类:各类间互不相容。25、期望寿命:指同时出生的一代人活满x岁以后尚能生存的年数即岁数。26、检验效能:表达式为1-,以往称把握度。其意义为当两总体确有差异,按规定检验水准所能发现该差异的能力。27、观察单位:亦称个体,是统计研究中的根本单位。它可以是一个人、一只动物,也可以是特指的一群人;可以是一个器官,甚至一个细胞。28、样本含量:样本中包含观察单位数称为该样本的样本含量。29、变量:确定总体之后,研究者应对每个观察单位的某项特征进行观察或测量,这种特征能表现观察单位的变异性,成为变量。30、变量值:对变量的观测值称为变量值或观察值。31、误差:泛指实测值与真实值之差,按产生原因和
7、性质可粗分为1随机误差;2非随机误差系统误差非系统误差。32、系统误差:实验过程中产生的误差,它的值或恒不变,或遵循一定的变化规律,其产生的原因往往是可知的或可能掌握的。应尽可能设法预见到各种系统误差的具体来源,力求通过周密的研究设计和严格的技术措施施加以消除或控制。33、非系统误差:在实验过程中由于研究者偶然失误造成的误差。这类误差应当通过认真检查核对予以去除,否那么将影响研究结果的准确性。34、频率:一个随机试验有几种可能,在结果重复进行试验时,个别结果看来是偶然发生,但当重复试验次数相当大时,总有规律出现。在重复屡次后,出现结果的比例称之为频率。35、概率:概率是描述随机事件发生可能性大
8、小的一个度量。36、医学参考值:是直指包括绝大多数正常人的人体形态、功能和代谢产物等个各种生理指标常数,也称正常值。由于存在个体差异,生物医学数据并非常数而是在一定范围内波动,故医学参考值范围作为判定正常和异常的参考标准。37、正态分布:正态分布又称高斯分布,是一种很重要的连续型分布,应用很广。假设指标X的频率分布曲线对应于数学上的正态分布曲线,那么称该指标服从正态分布。38、偏态分布:指集中位置偏向一侧,频数分布不对称。1正偏态分布:集中位置偏向数值小的一侧。2负偏态分布:集中位置偏向数值大的一侧。39抽样:在医学研究中,为节省人力、物力、财礼和时间,一般都采取从总体中抽取样本,根据样本信息
9、来推断总体特征的方法,即抽样研究的方法来实现,这种从总体种随机抽取局部观察单位的过程称为抽样。为保证样本的代表性,抽样时必须遵循随机化原那么。统计描述:指选用恰当的指标,通常称为统计量,选用适宜的统计表与统计图,对资料的数量特征及其分布规律进行测定和描述。包括搜集数据、整理数据、总结数据、分析数据以及将数据呈现出来统计推断:指如何在一定的可信度下由样本信息统计指标来推断总体相应指标,又称参数估计。包括进行推测、假设检验、确定关系然后作出预测小概率事件:统计分析中的很多结论都是基于一定可信程度下的概率推断,习惯上将P=0.05称为小概率事件,表示一次实验或观察中该事件发生的可能很小,可以视为可能
10、不发生。 算术均数:简称均数 可用于反映一组呈对称分布的变量值在数量上的平均水平或者说是集中位置的特征值。几何均数geometric mean: 可用于反映一组经对数转换后呈对称分布的变量值在数量上的平均水平。适用条件:呈倍数关系的等比资料或对数正态分布正偏态资料;如抗体滴度资料中位数median:是将变量值从小到大排列,位置居于中间的那个变量值。符号为Md,反映一批观察值在位次上的平均水平。适用于: 1、各种分布类型的资料2、特别是偏态分布资料和开囗资料一端或两端无确切数值的资料。 3、 资料分布不明等百分位数:将一组数据从大到小按顺序排列起来,并计算相应的累计百分位频率。那某一百分位所对应
11、的数据变量值就叫这一百分位的百分位数 百分位数的应用:确定医学参考值范围 ;中位数Md与四分位半间距QD一起使用,描述偏态分布资料的特征百分位数 :数据从小到大 排列;在百分尺度下,所占百分比对应的值。记为Px。包括直接算法和频数表法应用:1.确定医学参考值范围 reference range:如95参考值范围P97.5P2.5;表示有95正常个体的测量值在此范围。2.中位数Md与四分位半间距QD一起使用,描述偏态分布资料的特征 方差 variance也称均方差mean square deviation,样本观察值的离均差平方和的均值。表示一组数据的平均离散情况。标准差 standard de
12、viation即方差的正平方根;其单位与原变量X的单位相同。 自由度是数学名词,在统计学中,n个数据如不受任何条件的限制,那么n个数据可取任意值,称为有n个自由度变异系数:多用于观察指标单位不同时,如身高与体重的变异程度的比拟;或均数相差较大时,如儿童身高与成人身高变异程度的比拟。医学参考值reference value是指包括绝大多数正常人的人体形态、机能和代谢产物等各种生理及生化指标常数,也称正常值。由于存在个体差异,生物医学数据并非常数而是在一定范围内波动,故采用医学参考值范围medical reference range作为判定正常和异常的参考标准。95可信区间:从总体中作随机抽样,作
13、100次抽样,每个样本可算得一个可信区间,得100个可信区间,平均有95个可信区间包括(估计正确),只有5个可信区间不包括(估计错误)。假设检验过去称显著性检验:它是利用小概率反证法思想,从问题的对立面(H0)出发间接判断要解决的问题(H1)是否成立。然后在H0成立的条件下计算检验统计量,最后获得 P值来判断。 检验水准a,过去称显著性水准,是预先规定的概率值,它确定了小概率事件的标准。在实际工作中常取a = 0.05。可根据不同研究目的给予不同设置。P的含义是指从H0规定的总体随机抽样,抽得等于及大于(或/和等于及小于)现有样本获得的检验统计量(如t、u等)值的概率。I 型错误:“实际无差异
14、,但下了有差异的结论,假阳性错误。犯这种错误的概率是a其值等于检验水准 II型错误:“实际有差异,但下了不拒绝H0的结论,假阴性错误。犯这种错误的概率是b其值未知 完全随机设计:是采用完全随机化的分组方法,将全部试验对象分配到g个处理组水平组,各组分别接受不同的处理,试验结束后比拟各组均数之间的差异有无统计学意义,推论处理因素的效应。组间变异: 各处理组由于接受处理的水平不同,各组的样本均数 (i1,2,g)也大小不等,这种变异称为组间变异。其大小可用各组均数与总均数的离均差平方和表示,记为SS组间 组内变异:在同一处理组中,虽然每个受试对象接受的处理相同,但测量值仍各不相同,这种变异称为组内
15、变异误差。组内变异可用组内各测量值Xij与其所在组的均数的差值的平方和表示,记为SS组内, 表示随机误差的影响。随机区组设计(randomized block design)又称为配伍组设计,是配对设计的扩展。具体做法是:先按影响试验结果的非处理因素如性别、体重、年龄、职业、病情、病程等将受试对象配成区组(block),再分别将各区组内的受试对象随机分配到各处理或对照组动态数列(dynamic series):是一系列按时间顺序排列起来的统计指标可以为绝对数,相对数或平均数,用以观察和比拟该事物在时间上的变化和开展趋势。绝对增长量;是说明事物在一定时期增长的绝对值。开展速度与增长速度:均为相比
16、照,说明事物在一定时期的速度变化。开展速度表示报告期指标的水平相当于基期水平的百分之多少或假设干倍, 平均开展速度;是各环比开展速度的几何平均数,说明某事物在一个较长时期中逐期如逐年平均开展的程度。平均增长速度;是各环比增长速度的平均数,说明某事物在一个较长时期中逐期平均增长的程度。b的意义: 回归系数b称为斜率(slope),其统计学意义是:X 每增加(减)一个单位,Y 平均改变b个单位。 残差(residual)或剩余值,即实测值Y与假定回归线上的估计值Y的纵向距离。直线相关系数correlation coefficient,Pearson积差相关系数,用来说明具有直线关系的两变量间相关的
17、密切程度与相关方向。统计图:指利用点的位置、线段的升降、直条的长短和面积的大小等各种几何图形来表达统计资料。统计图只能提供概略的情况,而不能获得确切数值,因此不能完全代替统计表,常需要同时列出统计表作为统计图的数值依据 百分条图:是以矩形总长度作为100%,将其分割成不同长度的段表示各构成的比例。圆图和百分条图适合描述分类变量的各类别所占的构成比。百分条图以总长度L为100%,将长度L乘以各类别的构成比%得到各构成的长度,由大到小或按类别的自然顺序依次排列,其它项放最后。 箱式图(box plot):使用5个统计量反映原始数据的分布特征,即数据分布中心位置、分布、偏度、变异范围和异常值。箱式图
18、的箱子两端分别是上、下四分位数,中间是中位数,两端连线分别是除异常值之外的最小与最大值。箱子越长数据变异程度越大,中间横线在箱子中点说明分布对称,否那么不对称。箱式图特别适合多组数据分布的比拟。二项分布binomial distribution是指在只会产生两种可能结果如“阳性或“阴性之一的n次独立重复试验中,当每次试验的“阳性概率保持不变时,出现“阳性次数X=0,1,2,n的一种概率分布。记作:XB(n,) 。概率可以由下边公式求出: X=0,1,2,3、,nPoisson分布:Poisson distribution作为二项分布的一种极限情况,已开展成为描述小概率事件发生规律性的一种重要分
19、布。Poisson分布是描述单位面积、体积、时间、人群等内稀有事件或罕见事件发生数的分布。所谓随机变量X 服从Poisson分布,是指在足够多的n次独立Bernoulli试验中,取值X 的概率为非参数检验 针对某些资料的总体分布难以用某种函数式来表达,或者资料的总体分布的函数式是未知的,只知道总体分布式连续型的或是离散型的,用于解决这类问题需要一种不依赖总体分布的具体形式的统计分析方法。由于这类方法不受总体参数的限制,故称为非参数统计,或称为不拘分布的统计分析方法,又称为无分布型式假定的统计分析方法。适于处理总体分布不易确定或未知;分布非正态但无适宜转换方法;有一端或两端有不确定数值如15.0
20、 的资料;等级资料等。参数检验 通常要求样本来自总体分布类型正态分布,在这种假设的根底上,对总体参数如总体均数进行估计和检验,称为参数检验。例如,均数的区间估计;t检验/u检验,F检验。 “球对称假设 : 满足“球对称假设,可用第四章随机区组方差分析比拟处理组间差异;假设不满足“球对称假设,亦可用随机区组方差分析,但需校正时间效应F界值的自由度。单变量分析:研究单个变量的数量特征,推断两个或多个总体参数的差异。 双变量分析:研究两个变量的数量依存或依赖关系或互依或相关关系。 多变量分析:研究多个变量的数量依存或依赖关系或互依或相关关系。单独效应:指其他因素的水平固定时,同一因素不同水平间的差异
21、 主效应: 指某一因素各水平间的平均差异交互作用:当某因素的各个单独效应随另一因素变化而变化时,那么称这两个因素间存在交互作用。正交试验:非全面组合,g 个处理组是各因素 各水平的局部组合,即析因设计 的局部实施。优点:减少试验次数缺点:牺牲分析各因素局部交互作用b0为截距:表示各自变量均为0时y的的估计值。bi称为偏回归系数,是i的估计值,表示当方程中其他自变量保持不变时,自变量Xi变化一个计量单位,反响变量Y的平均变化量。 b称为 X=(X1, X2, , Xm)时,反响变量Y的估计值。e是去除m个自变量对Y影响后的随机误差残差偏相关系数:扣除其他变量的影响后,变量Y与Xi的相关, 称为Y
22、与Xi的偏相关系数。 优势比OR(odds ratio) 流行病学衡量危险因素作用大小的比数比例指标。计算公式为:优势比估计:可反映某一因素两个不同水平c1,c0的优势比:logistic回归:是一个概率型模型,因此可以利用它预测某事件发生的概率。例如在临床上可以根据患者的一些检查指标,判断患某种疾病的概率有多大。综合评价:利用多项指标对某个评价对象的某种属性进行定性、定量评估,或者对多个评价对象的属性进行定性、定量评估,可对优劣顺序排序多元回归与逐步回归法:多元回归分析挑选标准化偏回归系数绝对值较大或偏回归系数假设检验有显著性的指标作为评价指标;逐步回归有自动挑选主要影响指标的功能,是目前最
23、常用的指标挑选方法。指标聚类法:在存在众多指标的情况下,可将相似指标聚成类,再从每类中找一个典型指标作为代表,从而用少量几个典型指标作为评价指标来代表原来众多的指标建立评价模型。层次分析法(Analytic Hierarchy Process,简称AHP):由美国科学家于20世纪70年代提出,是用系统分析的方法,对评价对象依评价目的所确定的总评价目标进行连续性分解,得到各级各层评价目标,并以最下层指标作为衡量目标到达程度的评价指标。然后依据这些指标计算出一综合评分指数对评价对象的总评价目标进行评价,依其大小来确定评价对象的优劣等级。秩和比Rank Sum Ratio,RSR指行或列秩次的平均值
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 孙振球第三版 孙振球 第三 医学 统计学 复习题 2011.12 22
限制150内