医学统计学复习资料2011(共19页).doc
《医学统计学复习资料2011(共19页).doc》由会员分享,可在线阅读,更多相关《医学统计学复习资料2011(共19页).doc(19页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上医学统计学复习资料 2010-1-4一、名词解释题1. 总体(population):根据研究目的所确定的同质观察单位的全体。只包括(确定的时间和空间范围内)有限个观察单位的总体,称为有限总体(finite population)。假想的,无时间和空间概念的,称为无限总体(infinite population)。2. (总体)参数(parameter):总体的统计指标或特征值。总体参数是事物本身固有的、不变的。3. 样本(sample):从总体中随机抽取的部分个体。4. 样本含量(sample size):样本中所包含的个体数。5. 变量(variable):观察对
2、象个体的特征或测量的结果。由于个体的特征或指标存在个体差异,观察结果在测量前不能准确预测,故称为随机变量(random variable),简称变量(variable)。变量的取值称为变量值或观察值(observation)。根据变量的取值特性,分为数值变量和分类变量。6. 数值变量(Numerical variable):又称为计量资料、定量资料,指构成其的变量值是定量的,其表现为数值大小,有单位。对每个观察单位用定量的方法测定某项指标的数值,组成的资料。7. 计数资料:将全体观测单位按照某种性质或特征分组,然后再分别清点各组观察单位的个数。分类变量(categorical variable
3、):或称定性变量,其取值是定性的,表现为互不相容的类别或或属性,有两种情况:1)无序分类(unordered categories):包括二项分类,如上述“性别”变量,表现为互相对立的结果;多项分类,如上述“血型”变量,表现为互不相容的多类结果。2)有序分类(ordered categories):各类之间有程度上的差别,或等级顺序关系,有“半定量”的意义,亦称等级变量。等级资料:介于计量资料和计数资料之间的一种资料,通过半定量方法测量得到。8. 抽样(sampling):从总体中抽取部分观察单位的过程称为抽样。9. 抽样误差(sampling error):由于抽样造成的统计量与参数之间的差
4、别,特点是不能避免的,可用标准误描述其大小。10. 误差(error):统计上所说的误差泛指测量值与真值之差,样本指标与总体指标之差。主要有以下二种:系统误差和随机误差 。11. 可信区间(confidence interval, CI):按一定的概率或可信度(1-)用一个区间估计总体参数所在范围,这个范围称作可信度1-的可信区间,又称置信区间。12. 总体均数的可信区间:按一定的概率大小估计总体均数所在的范围(CI)。常用的可信度为95和99,故常用95和99的可信区间。13. 变异(variation):同质事物间的差别。由于观察单位通常即为观察个体,故变异亦称为个体变异(individu
5、al variation)。14. 组间变异(variation between group):用各组均数与总均数的离均差平方和表示组间=k-1,k为实验分组数,组间均方为MS组间=SS组间/( k-1)15. 组内变异(variation within group):用各组均数与总均数的离均差平方和表示,各组自由度为ni-1,则组内自由度为组内=N-k,组内均方为MS组内=SS组内/( N-k)16. 平均数(average):也叫平均值,是一组(群)数据典型或有代表性的值。这个值趋向于落在根据数据大小排列的数据的中心,包括算术平均数(arithmetic mean)、几何平均数(geome
6、tric mean)、中位数(median)等。17. 中位数(median):将一组观察值按升序或降序排列,位次居中的数,常用M表示。适用于偏态分布资料或不规则分布资料和开口资料。所谓“开口”资料,是指数据的一端或两端有不确定值。当n为奇数时,M=X(n+1)/2;当n为偶数时,M=Xn/2+ Xn/2+1/2。18. 百分位数(percentile):是一种位置指标,以Px表示,一个百分位数Px将全部观察值分为两个部分,理论上有x%的观察值小于Px小,有(1-x%)的观察值大于Px。19. 变异系数(coefficient of variance, CV):亦称离散系数(coefficie
7、nt of dispersion),为标准差与均数之比,常用百分数表示。, 变异系数没有度量衡单位,常用于比较度量单位不同或均数相差悬殊的两组或多组资料的离散程度。20. 统计表(statistical table):统计表就是以表格的形式,表达被研究对象的特征、内部构成及研究项目分组之间的数量关系。21. 频率(relative frequency):在n次随机试验中,事件A发生了m次,则比值称为事件A在n次试验中出现的频率(relative frequency)。m称为出现的频数(frequency)。在实际工作中,当观察单位的例数足够多时,可以用频率来代替概率。频率是概率的估计值。22.
8、 概率(probability):在重复试验中,事件A的频率,随着试验次数的不断增加将愈来愈接近一个常数p,这个常数p就称为事件A出现的概率(probability),记作P(A)或P。描述随机事件发生的可能性大小的数值,常用P来表示。23. 统计量(statistic):由样本所算出的统计指标或特征值。24. 相关系数(correlation coefficient):用以说明具有直线关系的两个变量间相关关系的密切程度和相关方向的指标,称为相关系数,又称为积差相关系数(coefficient of product-moment correlation),总体相关系数用希腊字母表示,而样本相关
9、系数用r表示,取值范围均为-1, 1。25. 回归系数(regression coefficient):直线回归方程= a+bX的系数b称为回归系数,也就是回归直线的斜率(slope),表示X 每增加一个单位,Y 平均改变 b 个单位。26. 参考值范围(reference range):也称为正常值范围(normal range),医学上常把绝大多数正常人的某指标值范围称为该指标的正常值范围。绝大多数:可以是90%、95%、99%等等,最常用的是95%。正常人:不是指健康人,而是指排除了影响所研究指标的疾病和有关因素的同质人群。又称参考值范围,是指特定健康人群的解剖、生理、生化等各种数据的波
10、动范围。习惯上是确定包括95%的人的界值。27. 正偏态和负偏态分布:频数分布可分为对称分布和非对称分布两种类型。非对称分布又称为偏态分布,是指观察值偏离中央的分布。当尾部偏向数轴正侧(或右侧)时,称正偏态(或右偏态)分布,如人体中一些重金属元素的分布等。反之,尾部偏向数轴负侧(或左侧)时,则称为负偏态(或左偏态)分布。28. 统计推断(statistic inference):从总体中随机抽取一定含量的样本进行研究,目的是通过样本的信息判断总体的特征,这一过程称为统计推断。29. 标准误(standard error, SE):在统计理论上将样本统计量的标准差称为标准误,用来衡量抽样误差的大
11、小。据此,样本均数的标准差称为标准误。30. 参数估计(parameter estimation):由样本信息估计总体参数。它包括两种:点估计(point estimation)和区间估计(interval estimation)。31. 点估计(point estimation):直接用样本统计量作为对应的总体参数的估计值。32. 区间估计(interval estimation):按一定的概率或可信度(1-)用一个区间估计总体参数所在范围,这个范围称作可信度1-的可信区间(confidence interval, CI),又称置信区间。这种估计方法称为区间估计。33. 95%可信区间含义:
12、如果重复若干次样本含量相同的抽样,每个样本均按同一方法构建95%可信区间,则在这些可信区间中,理论上有95个包含了总体参数,还有5个未估计到总体均数。34.类错误(typeerror):统计学上规定,拒绝了实际上成立的H0,这类“弃真”的错误称为型错误或第一类错误,型错误的概率用表示。35.类错误(typeerror):统计学上规定,不拒绝实际上不成立的H0,这类“存伪”的错误称为型错误或第二类错误,型错误的概率用表示。36. 检验效能(power of a test):又称把握度,即两总体确有差别,按水准能发现它们有差别的能力。37. 参数检验:总体分布已知,对其中一些未知参数进行估计或检验
13、。这类统计推断的方法叫参数统计或参数检验。参数检验:假定比较数据服从某分布,通过参数的估计量(, s)对比较总体的参数()作检验,统计上称为参数法检验(parametric test)。如t、u检验、方差分析。38. 非参数检验:适用于任意分布(distribution free)的统计方法,这种方法称为非参数统计。这种假设检验方法,比较的是分布而不是参数,故称为非参数检验。非参数检验:是指在统计检验中不需要假定总体分布形式和用参数估计量,直接对比较数据的分布进行统计检验的方法,称为非参数检验(nonparametric test).39. 率(rate):又称频率指标,用以说明某现象发生的频
14、率或强度。常以百分率(%)、千分率()、万分率(1/万)、十万分率(1/10万)等表示。其计算公式为:40. 构成比(proportion):又称构成指标,它说明一种事物内部各组成部分所占的比重或分布,常以百分数表示,其计算公式为:41. 比(ratio):又称相对比,是A、B两个有关指标之比,说明A为B的若干倍或百分之几,它是对比的最简单形式。其计算公式为:比=A/B。二、问答题和简答题1. 常见的三类误差是什么?应采取什么措施和方法加以控制?答:常见的三类误差是:(1)系统误差:在收集资料过程中,由于仪器初始状态未调整到零、标准试剂未经校正、医生掌握疗效标准偏高或偏低等原因,可造成观察结果
15、倾向性的偏大或偏小,这叫系统误差。要尽量查明其原因,必须克服。(2)随机测量误差:在收集原始资料过程中,即使仪器初始状态及标准试剂已经校正,但是,由于各种偶然因素的影响也会造成同一对象多次测定的结果不完全一致。譬如,实验操作员操作技术不稳定,不同实验操作员之间的操作差异,电压不稳及环境温度差异等因素造成测量结果的误差。对于这种误差应采取相应的措施加以控制,至少应控制在一定的允许范围内。一般可以用技术培训、指定固定实验操作员、加强责任感教育及购置一定精度的稳压器、恒温装置等措施,从而达到控制的目的。(3)抽样误差:即使在消除了系统误差,并把随机测量误差控制在允许范围内,样本均数(或其它统计量)与
16、总体均数(或其它参数)之间仍可能有差异。这种差异是由抽样引起的,故这种误差叫做抽样误差,要用统计方法进行正确分析。2. 抽样中要求每一个样本应该具有哪三性?答:从总体中抽取样本,其样本应具有“代表性”、“随机性”和“可靠性”。(1)代表性: 就是要求样本中的每一个个体必须符合总体的规定。(2)随机性: 就是要保证总体中的每个个体均有相同的几率被抽作样本。(3)可靠性: 即实验的结果要具有可重复性,即由科研课题的样本得出的结果所推测总体的结论有较大的可信度。由于个体之间存在差异, 只有观察一定数量的个体方能体现出其客观规律性。每个样本的含量越多,可靠性会越大,但是例数增加,人力、物力都会发生困难
17、,所以应以“足够”为准。需要作“样本例数估计”。3. 什么是两个样本之间的可比性?答:可比性是指处理组(临床设计中称为治疗组)与对照组之间,除处理因素不同外,其他可能影响实验结果的因素要求基本齐同,也称为齐同对比原则。4. 标准正态分布(u分布)与t分布有何异同?相同点:集中位置都为0,都是单峰分布,是对称分布,标准正态分布是t分布的特例(自由度是无限大时)不同点:t分布是一簇分布曲线,t 分布的曲线的形状是随自由度的变化而变化,标准正态分布的曲线的形状不变,是固定不变的,因为它的形状参数为1。5. 标准差与标准误有何区别和联系?区别:(1)含义不同: s描述个体变量值(x)之间的变异度大小,
18、s越大,变量值(x)越分散;反之变量值越集中,均数的代表性越强。标准误是描述样本均数之间的变异度大小,标准误 越大,样本均数与总体均数间差异越大,抽样误差越大;反之,样本均数越接近总体均数,抽样误差越小。(2)与n的关系不同: n增大时,s(恒定)。标准误减少并趋于0(不存在抽样误差)。(3)用途不同: s:表示x的变异度大小,计算cv,估计正常值范围,计算标准误等:参数估计和假设检验。联系: 二者均为变异度指标,样本均数的标准差即为标准误,标准差与标准误成正比。6. 应用相对数时的注意事项有哪些?要注意绝对数与相对数结合应用;要注意观察单位样本数不宜过小;要注意分子分母正确选用;要注意率与比
19、的正确应用;要注意平均率的计算方法;要注意资料的可比性;率和构成比比较时作假设检验。7. 简述直线回归与直线相关的区别。(1)资料要求上不同:直线回归分析适用于应变量是服从正态分布的随机变量,自变量是选定变量;直线相关分析适用于服从双变量正态分布的资料。(2) 两种系数的意义不同:回归系数是表明两个变量之间数量上的依存关系,回归系数越大回归直线越陡峭,表示应变量随自变量变化越快;相关系数是表明两个变量之间相关的方向和紧密程度的,相关系数越大,两个变量的关联程度越大。8. 何谓抽样误差?分别写出均数的抽样误差和率的抽样误差的描述指标及计算公式。答:总体中的个体间存在变异,在进行抽样研究时,样本的
20、统计量不等于总体参数,这种误差称为抽样误差。均数的抽样误差:常用样本均数的标准差 (简称标准误)反映均数抽样误差的大小。 (理论值), (估计值)。率的抽样误差:常用率的标准误反映率的抽样误差的大小。 (理论值), (估计值)。9. 假设检验的理论依据是什么?请简述假设检验的基本步骤。答:假设检验的理论依据是小概率事件原理,步骤为:(1)根据研究目的建立假设,确定检验水准(2)根据样本统计量的抽样分布规律,选择适当的统计方法,计算检验统计量(3)确定P值,做出推断结论10. 方差分析的基本思想是什么?你所知道的其用途有哪些?答:方差分析的基本思想就是按研究目的和设计类型,将总变异的离均差平方和
21、SS和自由度v分别分解成若干部分,并求得各相应部分的变异;其中的组内变异或误差主要反映个体差异或抽样误差,其它部分的变异与之比较得出统计量F值,由F值的大小确定P值,并做出推断。 方差分析应用广泛,可用于:两个或多个样本均数间的比较;分析两个或多个因素间的交互作用;回归方程的线性假设检验;多元线性回归分析中偏回归系数的假设检验等。本章主要介绍完全随机设计资料的方差分析、配伍组设计资料的方差分析及重复测量数据的方差分析。11. 完全随机设计的两样本率比较时,如何正确选择统计分析方法(写出相应的计算公式)。(1)当总例数n40且所有格子的T5时,用c2检验的基本公式或四格表资料c2检验的专用公式;
22、当P 时,改用四格表资料的Fisher确切概率法。公式为: ,v=(行数-1)(列数-1) (2)当n40但有1T5时,用四格表资料c2检验的校正公式;或改用四格表资料的Fisher确切概率法的连续性校正法:,(3)当n40,或T1时,用四格表资料的Fisher确切概率法。12. 什么是医学参考值范围?估计医学参考值范围如何正确选用统计方法?答:医学参考值范围是指所谓“正常人”的解剖、生理、生化等指标的波动范围,亦称正常值范围。如95的参考值范围包括了95的观察值,而有5的观察值不在这一范围内。估计医学参考值范围确定方法:(1)正态分布法:适用于正态或近似正态分布的资料双侧界值;单侧上界;单侧
23、下界 (2)对数正态分布法:适用于对数正态分布的资料双侧界值;单侧上界;单侧下界 (3)百分位数法:用于偏态资料双侧界值(P2.5, P97.5);单侧上界P95;单侧上界P513. 什么是假设检验中的两类错误?什么是检验效能?其大小与哪些因素有关?答:假设检验中的第一类错误是指“拒绝了实际上成立的H0假设”时所犯的错误,当H0成立时犯第一类错误的概率等于检验水准。假设检验中的第二类错误是指“不拒绝实际上不成立的H0假设”时所犯的错误,其概率通常用表示,其大小与抽样误差大小及设定的检验水准有关。 1-为假设检验的检验效能,也就是两个总体确实有差别时检出该差别的能力;14. c2检验的基本思想是
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 医学 统计学 复习资料 2011 19
限制150内