医学统计学习题答案 .doc
习题答案第一章 思考题答案1. 某医生收治200名患者,随机分成2组,每组100人。一组用A药,另一组用B药。经过2个月的治疗,A药组治愈了90人,B组治愈了85名患者,请根据现有结果评议下列说法是否正确,为什么? a) A药组的疗效高于B药组。(对,但不提倡这样说,原因是容易被误解)b) A药的疗效高于B药。(不对,这是针对总体而言的)2. 某校同一年级的A班和B班用同一试卷进行一次数学测验。经过盲态改卷后,公布成绩:A班的平均成绩为80分,B班的平均成绩为81分,请评议下列说法是否正确,为什么?a) 可以称A班的这次考试的平均成绩低于B班,不存在抽样误差。(对)b) 通过这次考试的平均成绩,说明B班的数学平均水平高于A班。(不对,一次考试只是一次抽样的结果)c) 对于评价两个班级的数学平均水平而言,这次考试成绩只是一次抽样观察结果,所以存在抽样误差,不能仅凭这次考试的平均分差异推断两个班级的平均水平的高低。(对) d) 对于研究两个班级的这次考试成绩而言,A班所有学生的这次考试成绩构成了一个总体A,B班所有学生的这次考试成绩构成了一个总体B。(对)3. 请根据变量和资料分类的定义,评议下列说法是否正确,为什么? a)如果变量取值中含有小数点,则该变量为连续型变量。(不对,离散型变量取值也可以定义为取值含有小数点) b)如果资料为离散型变量的取值,则该资料一定为分类资料。(不对,如白细胞计数,这是离散型的资料,但不具有分类性质) c)某研究者观察某个患者的24小时的心电图,发现该患者在这24小时中共有90个早博,并记为90个早博/24小时,故该资料也有量纲。根据定义,应认为该资料为计量资料。(本质上这是个体计数资料,但因为不具有分类意义,所以通常按计数资料进行统计分析)第二章 习题的答案1. 是非题(1) 不论数据呈什么分布,都可以用算术均数和中位数表示其平均水平。(错 )(2) 少数几个数据比大多数数据大几百倍,一般不宜用算术均数表示其平均水平。( 对)(3) 只要单位相同,用s和用CV来表示两组资料的离散程度,结论是完全一样的。(错 )(4) 四分位数间距也是描述连续分布数据离散度的指标。( 对 )(5) 描述200人血压的分布,应画直方图。(对,频数图 )2. 简答题(1) 简述计量资料频数分布表的作用。(见教材)(2) 如果资料取对数后呈对称分布,你认为应如何进行统计描述。用几何级数描述平均水平,用取对数后均数±取对数后的标准差描述取对数后的分布(3) 请在MEDLINE数据库上,查阅一下IQR是哪些英文词的缩写,在何种情况下,会用到这个指标,这时中文翻译应该是什么?IQR是Inter-quartile range的缩写,可以翻译为四分位数范围或四分位数间距,前者是由低四分位数和高四分位数构成的一个区间,后者是由高四分位数与低四分位数的差.(4) 简述OR与RR之间的关系和各自的适用范围。当患病率很低时,OR近似于RR,对于总体而言,OR=1<=>RR=1,OR>1<=>RR>1并且OR<1<=>RR<1。3. 选择题(1) 中位数是表示变量值 A 的指标。A 平均水平 B 变化范围 C 频数分布 D 相互间差别大小 (2) 对于最小组段无下限或最大组段无上限的频数分布表资料,宜用下列哪些指标进行统计描述?C A 中位数,极差 B 中位数,四分位数间距 C 中位数,四分位数范围 D 中位数,标准差 (3)描述年龄(分8组)与疗效(有效率)的关系,应画 A 。A线图 B. 圆图 C. 直方图 D. 百分条图(4) 算术均数比中位数( B )。A抽样误差更大 B更充分利用数据信息 C更适用于偏态分布资料 D更适用于分布不明确资料(5) 计算几何均数时,采用以e为底的自然对数ln(X)和采用以10为底的常用对数lg(X),所得计算结果( C )。A只能采用ln(X) B只能采用lg(X)C都可以,并且结果相同 D都可以,但结果不相同 (6) 一个变量的所有观察值同加上一个任意常数后,( D )均不变。A算术均数B几何均数 C中位数D标准差(7) 比较身高和体重两组数据的相对变异大小,应采用( C )。A方差B标准差 C变异系数 D四分位间距(8) 一个变量的所有观察值同乘以一个非零常数后,( D )均不变。A算术均数B几何均数 C中位数 D取对数后标准差(9) 采用(D )描述横断面调查资料中的职业与糖尿病患病率的关系。A散点图 B圆图 C线图 D直条图(10)( B )可以用来描述儿童年龄与儿童每年呼吸道感染次数的的关系。A散点图 B线图 C圆图 D直方图第三章 习题1. 是非题(1) 二项分布越趋向Poisson分布时,也越趋向正态分布。( 错 )(2) 从同一新生儿总体(无限总体)中随机抽样200人,其中新生儿窒息人数服从二项分布。(对 )(3) 在n趋向无穷大、总体比例趋向于0,且np保持常数时的二项分布的极限分布是Poisson分布。(对 )(4) 某一放射物体,以一分钟为单位的放射性计数为50,40,30,30,10,如果以5分钟为时间单位,其标准差为 。( 错,应为 )(5) 一个放射性物体一分钟脉冲数为20次,另一个放射性物体一分钟脉冲数为50次。这两种物体混合后,其一分钟脉冲数的总体均数估计值为70次。( 对 ) (6) 一个放射性物体平均每分钟脉冲数为5次(可以认为服从Poisson分布),用X表示连续观察20分钟的脉冲数,则X也服从Poisson分布。(对 )(7) 一个放射性物体平均每分钟脉冲数为5次(可以认为服从Poisson分布),用X表示连续观察20分钟的脉冲数,则X的总体均数和总体方差均为100次。(对)(8) 用X表示某个放射性物体的每分钟脉冲数,其平均每分钟脉冲数为5次(可以认为服从Poisson分布),用Y表示连续观察20分钟的脉冲数,则可以认为Y近似服从正态分布,但不能认为X近似服从正态分布。(对 )2. 简答题(1) 如果X的总体均数为m,总体标准差为s,令Ya+bX,则可以证明:Y的总体均数为a+bm,标准差为bs。如果X服从m40的Poisson分布,请问:Y=X/2的总体均数和标准差是多少?(2) 设X服从m40的Poisson分布,请问:Y=X/2是否服从Poisson分布?为什么?不服从Poisson分布,不是Poisson分布的取值,而且Y的总体方差也不等于总体均数(3) 设X服从m60的Poisson分布,可以认为X近似服从正态分布。令Y=X/20,试问:是否可以认为Y也近似服从正态分布?对,因为正态分布的随机变量除以一个非0常数仍服从正态分布(4) 简述正态分布、二项分布、Poisson分布三者间的关系。如果Y服从二项分布,当n很大时,p很小时,np保持常数,则Y近似服从Poisson分布如果Y服从二项分布,当n很大,np>5,n(1-p)>5,则Y近似服从正态分布如果Y服从总体均数为m的Poisson分布,当m很大时,Y近似正态分布。(5) 简述确定医学参考值范围时应注意什么?抽样人群的入选标准和排除标准,保证对象确实为符合正常人根据指标的特点和参照影响这个指标的患者的指标范围是什么,确定单侧范围还是双侧范围根据资料的分布情况,确定选用参数的百分位数(正态分布方法)还是非参数的百分位数法(P分位数法)3. 选择题(1) 理论上,二项分布是一种(B)A. 连续性分布 B. 离散分布 C. 均匀分布 D. 标准正态分布(2) 在样本例数不变的情况下,下列何种情况时,二项分布越接近对称分布。(C)A. 总体比例越大 B. 样本比例P越大 C. 总体比例越接近0.5 D. 总体比例越小(3) 标准正态分布曲线下中间95%的面积所对应的横轴的范围是(B ) A. -到+1.96 B. -1.96到+1.96 C. -到2.58 D. -2.58到+2.58 (4) 医学上认为人的尿氟浓度以偏高为不正常。若正常人的尿氟浓度X呈对数正态分布,Y = lgX , G为X的几何均数,尿氟浓度的95%参考值范围的界值计算公式是(A)A. lg 1 (+1.64 sY) B. G±1.96sx C. G+1. 64sx D. lg -1 (+1.96 sY ) 第四章习题答案 3)请考察说法是否正确,并说明理由(1)当样本量很大时,偏态分布的资料近似服从正态分布。(错,资料的分布与样本量无关,样本均数的分布才与样本量有关)(2)服从自由度为n-1的t分布。错,不一定服从服从自由度为n-1的t分布,只有当X的总体均数为m0时,服从自由度为n-1的t分布。(3)出现的概率为0.05错,只有当X的总体均数为m0时(4)出现是一个小概率事件错,只有当X的总体均数为m0时(5)一次抽样,一般不会出现错,只有当X的总体均数为m0时(6)当样本量很大时,偏态分布的资料,其样本均数近似服从正态分布。对(7)若H0:mm0为真时,服从自由度为n-1的t分布。对(8)若H1:m¹m0为真时,出现的概率可能很大。对(9)若H1:m¹m0为真时,一次抽样,很可能出现。对4)如果X服从N(m,s2),,则可以证明:Y也服从均数为,标准差为的正态分布。现假定以下的X服从N(5,22)分布,请回答下列问题:(1)的理论均数和标准差(数理统计中称为期望值)是多少?,所以U1的总体均数,标准差=,所以理论均数为0和理论标准差为1(2)的理论均数和标准差是多少?,对于相差一个常数,对应均数也相差一个常数,标准差不变,故理论均数为1和理论标准差为1(3)设,则的理论均数和标准差是多少?理论均数为0和理论标准差为15) 设X服从N(m,22)分布,记,。H0:m5 H1:m8,请问:(1) H0成立时,的概率是多少?(提示:H0为真时,) P(U>1.64|H0为真时)=0.05(2) H1成立时,的概率是多少?(提示:H1为真时,并且 )对于<=>对于H1:m8为真而言,所以 由此可见,同为的概率,对于H0为真而言,这是一个小概率事件,但对H1而言,发生的概率几乎等于1,这是非常大的概率。6)请回忆一下数学证明题中反证法思想和步骤,并比较假设检验的方法和步骤与反证法有何异曲同工之处。反证法是建立假设,直至推导结果为矛盾而命题得到证明,假设检验是建立假设,利用小概率事件原理,对于一次随机抽样而言,一般不会出现小概率事件,但当H0为真时,一次随机抽样的结果为小概率事件,而对于H0非真时,一次随机抽样的结果为很可能出现的事件,由此推断H0非真。7) 选择题(1) 关于假设检验,下列哪个说法正确( D )。A单侧检验的检验效能优于双侧检验B采用单侧检验还是双侧检验取决于t值大小C若值大于0.05,可认为成立 D若值小于0.05,可以推断不成立(2) 在假设检验中,如果H1为真时,分别取以下检验水准,哪个水准的第二类错误最小( A )。A BC D(3) 在假设检验中,a0.05,可能发生的情况是(C )。A当,可能犯I型错误 B当,可能犯II型错误 C当,可能犯I型错误D. 犯I型错误的原因是样本量太小(4) 在假设检验中,下列哪个说法是正确的(B )。AH0为真时,样本量越大,犯I错误的概率就越小。B样本量无论多大,H0为真时,犯I错误的概率为0.05。CH0为真时,样本量越大,犯II错误的概率就越小。DH0为真时,犯I错误的概率=P值。(5) 在正态总体中随机抽一个样本量为16的样本,分别计算其均数和方差,则下列哪一个是错误的( C )。A. 的概率为0B. 的概率为0C. 服从自由度为15的t分布,其对称峰的位置为0。(提示:只有m10时才对)D. 的概率为0.025。8)下面是18例冠心病患者高密度脂蛋白(HDL,g/L)的测定结果,试估计冠心病患者高密度脂蛋白的总体均数及其95%可信区间。0.30,0.43,0.26,0.34,0.57,0.49,0.35,0.22,0.33,0.37,0.28,0.35,0.40,0.36,0.42,0.28,0.41,0.30,95%可信区间为(0. ,0.)9)已知健康成年男子坐骨神经的传导速度是呈正态分布的,平均传导速度为65cm/msec。现有16名有毒物质接触史并确诊为甲基汞中毒的男性患者,他们的坐骨神经传导速度平均为55cm/msec,标准差为7cm/msec。根据上述资料能否说明甲基汞中毒患者的坐骨神经传导速度比正常人低?试估计甲基汞中毒的男性患者坐骨神经传导速度均数的95%可信区间,并以此说明可信区间的涵义。ttesti 16 55 7 65One-sample t test- | Obs Mean Std. Err. Std. Dev. 95% Conf. Interval-+- x | 16 55 1.75 7 51.26996 58.73004-Degrees of freedom: 15 Ho: mean(x) = 65 Ha: mean < 65 Ha: mean = 65 Ha: mean > 65 t = -5.7143 t = -5.7143 t = -5.7143 P < t = 0.0000 P > |t| = 0.0000 P > t = 1.0000P<0.0001,95%可信区间为(51.26996,58.73004),故可以认为甲基汞中毒患者的坐骨神经传导速度比正常人低。由样本得到总体均数的95%可信区间可能包含样本的总体均数(正确),也可能不包含其总体均数(不正确)。如果在样本所在的总体中,随机100个样本,每个样本都可以得到一个总体均数的95%可信区间,故可以得到100个的95%可信区间,平均而言,其中95个95%可信区间包含样本所对应的总体均数,故可以理解为样本所得到的95%可信区间所给出的总体均数范围能包含总体均数的正确率为95。第六章1)是非题× × × × × × × ×3)选择题A C D C C D第七章1)是非题× (按常规看,不考虑单双侧) 3)选择题C D A A