《样本含量的估计(公卫执业医师《医学统计学》辅导)(完整版)实用资料.doc》由会员分享,可在线阅读,更多相关《样本含量的估计(公卫执业医师《医学统计学》辅导)(完整版)实用资料.doc(135页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、样本含量的估计(公卫执业医师医学统计学辅导)(完整版)实用资料(可以直接使用,可编辑 完整版实用资料,欢迎下载)公卫执业医师医学统计学辅导:样本含量的估计一、估计样本含量的意义及条件我们在第一节里曾提到重复的原则。所谓重复,是指各处理组(对照在实验研究中也被看作是一种处理,而且是必不可少的)的受试对象都应有一定的数量,例数不能太少,所以在抽样调查、临床观察或实验研究中,首先总要考虑样本含量(或叫样本大小)问题。样本太小,使应有的差别不能显示出来,难以获得正确的研究结果,结论也缺乏充分的依据;但样本太大,会增加实际工作中的困难,对实验条件的严格控制也不易做到,并且造成不必要的浪费。所以这里所说的
2、样本含量估计,系指在保证研究结论具有一定可靠性的条件下,确定最少的观察或实验例数。但是,样本含量又是个比较复杂的问题。要讲清在各种情况下估计样本含量的方法和原理,那是很繁杂的。而且,不同的参考书上介绍的计算公式和工具表往往不一样,以致同一问题所得的结果也可能有出入。所以,不论按哪种公式或工具表求得的结果,也只能是个近似的估计数。估计样本含量,必须事先明确一些条件与要求:(一)根据研究目的与资料性质,要先知道一些数据。例如要比较几组计数资料,先要知道百分数或率;要比较几组计量资料,先要知道平均数及标准差。这些数据可从以往的实践,预备试验的结果、兄弟单位的经验或文献资料里得来。(二)确定容许误差。
3、由于抽样误差的影响,用样本指标估计总体指标常有一定的误差,因而要确定一个样本指标与总体指标相差所容许的限度。此值要求越小,所需例数就越多。(三)确定把握度(1)。是第二型错误的概率;而1的意思是:如果两组确有差别,则在每100次实验中平均能发现出差别来的概率。把握度可用小数(或百分数)表示,一般取0.99、0.95、0.90、0.80、0.50.要求把握度越高,则所需例数直多。(四)确定显著性水平,即第一型错误的概率()。这就是希望在=0.05的水准上发现差别,还是希望在=0.01的水准上发现差别。越少,所需例数越多。此外,估计样本含量时还应当根据专业知识确定用单侧检验或双侧检验。同一实验,若
4、既可用单侧检验又可用双侧检验,则前者所需例数要少些。二、用计算法估计样本含量我们运用前面学过的某些假设检验公式,就可以进行样本含量的计算。下面仅举两例略作介绍。这里的公式仅适用于=0.05,1=0.50.而且都是双侧检验。(一)两个率比较时样本含量的计算 令n为每组所需例数,P1、P2为已知的两个率(用小数表示),P为合并的率,当设两组例数相等时,即P=(P1+P2)/2.q=1=p,则性气管炎患者,近控率甲药为45%,乙药为25%.现拟进一步试验,问每组需观察多少例,才可能在=0.05的水准上发现两种疗法近控率有显著相差?本例P1=0.45,P2=0.25,P=(0.45+0.25)2=0.
5、25,q=1-0.35=0.65,代入式11.1每组需观察46人,两组共观察92人,注意:例数问题不同于一般数学计算中的四舍五入,凡是有小数的值,应一律取稍大于它的正整数,如本例45.5取46,若为45.1也应取46.(二)个别比较t检验样本含量的计算 令n为所需样本数,S为差数的标准差,X为差数的均数,t0.050为t值表上相当于P=0.05的t值,4为n足够大时t20.05=1.962的数,则例11.6 用某药治疗胃及十二指肠溃疡病人,服药四周后胃镜复查时,患者溃疡面平均缩小0.2cm2,标准差为0.4cm2,假定该药确能使溃疡面缩小或愈合,问需多少病人作疗效观察才能在=0.05的水准上发
6、出用药前后相差显著?本例X0.2,S0.4,先代入式(11.2)由于n30,故用式(11.3)重算。当n16,16-115,t0.05=2.131,当n19(略大于18.16),19-118,t0.05=2.101故至少需用18人作疗效观察。三、用查表法估计样本含量当要求平均有80%、90%以上的机会能发出相差显著或非常显著时,计算公式比较复杂,数理统计上已编制成工具表,一查便得,附表19只是其中的一部分。我们仍以前面的例题来介绍这些表的用法。(一)两个率比较时所需样本含量 对于两个率的比较,单侧检验可查附表19(1),双侧检验查附表19(2)仍用例11.5来说明。本例 P1=45%,P2=2
7、5%,=45%-25%=20%,设=0.05,把握度为0.80. 如果已知甲药疗效不可能低于乙药,可用单侧检验,查附表19(1)。我们从“较小率”栏中找到25横行,再从上方找到=20直行,基相交处,读上行数字得69,即每组最少需要69例,两组共需138例。如果两个率(或百分数)都超过50%,怎样使用这个表呢?假定甲组阳性率是80%,乙组阳性率是65%,两组阳性率相差15%.这时先求两组的阴性率,于是甲组阴性率为20%,乙组阴性率为35%,两组阴性率相差仍为15%.若用双侧检验,我们查附表19(2),从“较小率”栏找到20横行,再从上方找到=15直行,其相交处上行数字为135,即每组需检查135
8、例(两组共270例)将有80%的机会在=0.05的水准上发现两组阳性率相差显著。若表中查不到题中的“较小率”及,可用最接近的值或内插法求n,但宁可使n偏大,以免估计的样本含量偏少。(二)个别比较t检验所需的样本含量 这是配对比较,应查附表20.使用该表时,先要求出差数的总体均数与总体标准差之比,即=/,当与未知时,可分别用X与S作为估计值。仍用例11.6来说明,本例X=0.2,S=0.40,故=/=0.2/0.4=0.5.若设=0.05,1=0.90,用双侧检验,查附表得20,得n=44,即需观察44例病人。若设=0.05,1=0.50,则n=18,同计算法结果一致。(三)两个均数比较所需样本
9、含量 应查附表21.先要求出两总体均数之差与总体标准差这比,即=(1-2)/。若1及2未知时,可分别以X1及X2估计之;未知时,可以合并标准差S估计之。例11.7 某职业病防治所用两种疗法治疗矽肺患者,一个疗程后,患者血清粘蛋白下降值甲疗法平均为2.6(mg%),乙疗法平均为2.0(mg%,)两种疗法下降值之合并标准差为1.3(mg%)。若发现两组疗效相差显著,每组至少应观察多少病人?本例X1=2.6,X2=2.0,S=1.3,故 =(1-2)/=(2.6-2.0)/1.3=0.46.若设=0.05,1=0.50,用双侧检验,查附表21,=0.46查不到。在这种情况下,可用邻近而略小的值代替,
10、或用内插法估计。本例若查=0.45,得n=39,即每组需要39例,两组共需78例。若用内插法计算,当=0.45时所需例数是39,=0.50时所需例数是32,所以=0.46时所需例数是:答案是:每组需要至少观察38例,两组共需观察76例。第十章 双样本假设检验及区间估计双样本统计,除了有大样本、小样本之分外,根据抽样之不同,还可分为独立样本与配对样本。所谓独立样本,指双样本是在两个总体中相互独立地抽取的。所谓配对样本,指只有一个总体,双样本是由于样本中的个体两两匹配成对而产生的。配对样本就不是相互独立的了。第一节 两总体大样本假设检验1 大样本均值差检验为了把单样本检验推广到能够比较两个样本的均
11、值的检验,必须再一次运用中心极限定理。下面是一条由中心极限定理推广而来的重要定理:如果从N(1,12)和N(2,22)两个总体中分别抽取容量为n1和n2的独立随机样本,那么两个样本的均值差()的抽样分布就是N(12,+)。与单样本的情况相同,在大样本的情况下(两个样本的容量都超过50),这个定理可以推广应用于任何具有均值1和2 以及方差12和22的两个总体。当n1和n2逐渐变大时,()的抽样分布像前面那样将接近正态分布。 大样本均值差检验的步骤有:(1) 零 假 设H0:12D0备择假设H1: 单侧 双侧 H1:12D0 H1:12D0 或 H1:12D0(2)否定域:单侧Z,双侧Z/2。(3
12、)检验统计量 Z 如果12和22未知,可用S12和S22代替。 (4)判定 2 大样本成数差检验 与单样本成数检验中的情况一样,两个成数的差可以被看作两个均值差的特例来处理(但它适用各种量度层次)。于是,大样本成数检验的步骤有:(1) 零 假 设H0:p1p2D0备择假设H1: 单侧 双侧 H1:p1p2D0 H1:p1p2D0 或 H1:p1p2D0(2)否定域:单侧Z,双侧Z/2。(3)检验统计量 Z 其中:为总体1的样本成数;为总体2的样本成数。 当p1和p2未知,须用样本成数和进行估算时,要分两种情况讨论。第二节 两总体小样本假设检验与对单总体小样本假设检验一样,本书对两总体小样本假设
13、检只讨论总体满足正态分布的情况。1 小样本均值差检验设两总体分别满足正态分布N(1,12)和N(2,22),与单总体小样本的情况相似,对总体均值差,根据12和22是否已知,也须采用不同的统计量。 A12和22已知B12和22未知,但假定它们相等。 C12和22未知,但不能假定它们相等2 小样本方差比检验检验方差比所用统计量为 F F(1,1) 方差比检验,比起前面所介绍的检验有一个不同点,那就是无论是单侧检验还是双侧检验,F的临界值都只在右侧。其原因是我们总是把和中的较大者放在分子上,以便使用者掌握。因此有 F 1或者F 1 第三节 配对样本的假设检验配对样本,是两个样本的单位两两匹配成对,它
14、实际上只能算作一个样本,也称关联样本。1 单一实验组的假设检验 关于配对样本的假设检验,我们通过单一实验组的实验来加以理解。单一实验组实验是对同一对象在某种措施实行前后进行观察比较的一种简单实验,它只有实验组而没有控制组。或者说,同一个组在实施实验刺激之前是实验中的“控制组”,在实施实验刺激之后就成了“实验组”。 对于单一实验组这种“前后”对比型配对样本的假设检验,我们的做法是,不用均值差检验,而是求出每一对观察数据的差,直接进行一对一的比较。如果采用“前测”“后测”两个总体无差异的零假设,也就是等于假定实验刺激无效。于是,问题就转化为每对观察数据差的均值d 0的单样本假设检验了。 2一实验组
15、与一控制组的假设检验 单一实验组实验的逻辑,是把实验对象前测后测之间的变化全部归因于实验刺激。在社会现实生活进行的实际实验中,对象前测后测之间的变化,有时除了受到实验刺激外,还受到其他社会因素的作用。因而,配对样本的一实验组与一控制组之假设检验,要设法把实验变量的作用和额外变量的作用区分开来,然后就像对待单一实验组实验一样,把问题转化为零假设d0的单样本检验来处理。 3对实验设计与相关检验的评论 第四节 双样本区间估计双样本区间估计和双样本假设检验的联系是很紧密的。双样本区间估计,即是为均值差或成数差设置置信区间的方法,这需要我们汇合单样本区间估计和双样本假设检验两方面的知识。1 12和22已
16、知,对均数差的区间估计()Z/2,() + Z/2 2 12和22未知,对均值差的区间估计对于大样本,12和22未知,可以用S12和S22替代,然后用上式求出均值差的置信区间即可。对于大样本,12和22未知,可以用S12和S22替代,然后用(1017)式求出均值差的置信区间即可。对于小样本,12和22未知,两样本均值差的抽样分布就不再服从Z分布,而是服从t分布了。此时 ()t/2(n1+ n2 2),() + t/2(n1+ n2 2) 如果不能假设1222,求算则要用 3大样本成数差的区间估计与单样本成数的区间估计一样,成数差区间估计可以被看作均值差的特例来处理(但它适用于各种量度层次)。
17、()Z/2,()+ Z/2 如果总体成数和未知,可用样本成数和代替,同时分两种情况讨论: A若能假设 ()Z/2,()+ Z/2 B若不能假设,根据(105)式,(1019)式变为 ()Z/2,()+ Z/2 4配对样本均值差的区间信计配对样本均值差的区间估计与独立样本均值差的区间估计不同,它实质上是d的单样本区间估计。 t/2(n1),+t/2(n1) 第19讲 正态总体参数的区间估计教学目的:理解区间估计的概念,掌握各种条件下对一个正态总体的均值和方差进行区间估计的方法。教学重点:置信区间的确定。教学难点:对置信区间的理解。教学时数: 2学时。教学过程:第六章 参数估计6.3正态总体参数的
18、区间估计1. 区间估计的概念我们已经讨论了参数的点估计,但是对于一个估计量,人们在测量或计算时,常不以得到近似值为满足,还需估计误差,即要求知道近似值的精确程度。因此,对于未知参数,除了求出它的点估计外,我们还希望估计出一个范围,并希望知道这个范围包含参数真值的可信程度。 设为未知参数的估计量,其误差小于某个正数的概率为,即 或 这表明,随机区间包含参数真值的概率(可信程度)为,则这个区间就称为置信区间,称为置信水平。定义 设总体的分布中含有一个未知参数。若对于给定的概率,存在两个统计量与,使得则随机区间称为参数的置信水平为的置信区间,称为置信下限,称为置信上限,称为置信水平。注(1)置信区间
19、的含义:若反复抽样多次(各次的样本容量相等,均为),每一组样本值确定一个区间,每个这样的区间要么包含的真值,要么不包含的真值。按伯努利大数定理,在这么多的区间中,包含真值的约占,不包含真值的约仅占。例如:若,反复抽样1000次,则得到的1000个区间中,不包含真值的约为10个。(2)置信区间的长度表示估计结果的精确性,而置信水平表示估计结果的可靠性。对于置信水平为的置信区间,一方面置信水平越大,估计的可靠性越高;另一方面区间的长度越小,估计的精确性越好。但这两方面通常是矛盾的,提高可靠性通常会使精确性下降(区间长度变大),而提高精确性通常会使可靠性下降(变小),所以要找两方面的平衡点。在学习区
20、间估计方法之前,我们先介绍标准正态分布的分位点概念。设,若满足条件,则称点为标准正态分布的分位点。例如求。按照分位点定义,我们有,则,即。查表可得. 又由图形的对称性知。下面列出了几个常用的值:0.0010.0050.010.0250.050.103.0902.5762.3271.9601.6451.2822. 正态总体均值的区间估计设已给定置信水平为,总体,为一个样本,分别是样本均值和样本方差。(1)已知时,的置信区间 我们知道是的无偏估计,且有统计量 。由标准正态分布的上分位点的定义,有 即 这样,我们就得到了的一个置信水平为的置信区间 这样的置信区间常写成 例1 从某厂生产的滚珠中随机抽
21、取10个,测得滚珠的直径(单位:mm)如下:14.6 15.0 14.7 15.1 14.9 14.8 15.0 15.1 15.2 14.8若滚珠直径服从正态分布,并且已知(mm),求滚珠直径均值的置信水平为95%的置信区间。解 计算样本均值,置信水平=0.95,查表得(可利用查表)。由此得的置信水平为95%的置信区间为 即 注:置信水平为的置信区间并不是唯一的。以例1来说,给定,则又有 故 也是的置信水平为95%的置信区间,其区间长度为。而在对称区间上,区间长度为, 比非对称区间长度要短,较优。易知,像分布那样其概率密度的图形是单峰且对称的情况,当固定时,以对称区间其长度为最短,我们选用对
22、称区间。(2)未知时,的置信区间此时不能使用,因为其中包含了未知参数。考虑到是的无偏估计,将上述区间中的换成。我们已知统计量,可得即于是得到的一个置信水平为的置信区间 例2 在例1中,若未知,求滚珠直径均值的置信水平为95%的置信区间。解 计算样本均值,样本标准差;置信水平=0.95,自由度,查表得。 由此得的置信水平为95%的置信区间为 即 (14.92-0.138,14.92+0.138)=(14.782,15.058) 注 比较例1和例2中的置信区间,可以发现当未知时,的置信区间区间长度要比已知时的置信区间区间长度大,这表明当未知条件增多时,估计的精确程度变差,这也符合我们的直观感觉。3
23、. 正态总体方差的区间估计(1)已知时,的置信区间已知 但是分布的概率密度图形不是对称的,对于已给的置信水平,要想找到最短的置信区间是困难的。因此,习惯上仍然取对称的分位点和可得 即 于是得到方差的一个置信水平为的置信区间 例3 在例1中,若已知(mm),求滚珠直径方差的置信水平为95%的置信区间。解 已知,置信水平=0.95,自由度,查表得,。则方差的置信水平为95%的置信区间为 即 (2)未知时,的置信区间的无偏估计为,且统计量。选取分位点和可得 即 于是得到方差的一个置信水平为的置信区间 由此,我们还可以得到标准差的一个置信水平为的置信区间 注 在实际问题中,对做估计的时候,一般均是未知
24、的情况。因此,我们重点掌握未知条件下求的置信区间问题。例4 在例1中,若未知,求滚珠直径方差的置信水平为95%的置信区间。解 未知,计算样本方差,置信水平=0.95,自由度,查表可得,。则方差的置信水平为95%的置信区间为 即(0.0177,0.1243)區間估計與樣本數(一)1. 欲比較某一多事故路段加強執法前後違規超速車輛佔通過車輛數之比率,經抽樣調查發現,加強執法前違規之比率16%,加強執法後則降至7%,若兩次抽樣調查之樣本數皆為400,試求:(1) 加強執法前違規超速之比率的99%信賴區間。(2) 加強執法後違規超速之比率的99%信賴區間。(3) 加強執法後下降比率之99%信賴區間。2
25、. The 95% confidence interval estimate of the mean time taken to process a new insurance policy is days. Which one of the following statement is true?(A) Only 5% of all policies take less than 11 days or more than 12 days to process.(B) Only 5% of all policies take between 11 and 12 days to process.
26、(C) About 95 out of every 100 intervals similarly constructed from samples of same size will contain the true mean value.(D) The probability is 0.95 that lies between 11 and 12 days.(E) All of the above.3. Suppose 95% confidence interval for turns out to be (1000, 2100). To make more useful inferenc
27、es from the data, it is desired to reduce the width of the confidence interval. Which of the following will result in reduced interval width?(A) Increase the sample size.(B) Decreases the confidence level.(C) Increase the sample size and decrease the confidence level.(D) Increase the confidence leve
28、l and decrease the sample size.4. A market survey was conducted to estimate the proportion of home-makers who could recognize the brand name of a cleanser based on the shape and color of the container. Of the 1,400 home-makers, 420 were able to identify the brand name.(1) Using the 0.99 degree of co
29、nfidence, the population proportion lies within what interval?(2) What are the confidence limits?(3) Interpret your findings.5. A survey of 1,000 randomly sampled citizens found that 650 of these citizens would support a traffic policy. Assuming that the population is infinite, what is the 95% confi
30、dence interval for the percentage of support for the policy? (以數字寫出計算公式即可,不必算到最後的答案)6. NSYSU Bookstore decided to sample the dollar amount of individual morning and evening purchases. The manager believes that this information would help her or him develop a new marketing strategy. The data is given
31、 in the table below:MorningEvening Find a 95% confidence interval estimate for the difference between the average purchase amounts for the two times of day.7. In a random sample of 100 observations, . The 95.44% confidence interval foris(A) 0.122 to 0.278(B) 0.164 to 0.236(C) 0.134 to 0.266(D) 0.120
32、 to 0.2808. A random sample of 100 people was taken. Eighty of the people in the sample favored Candidate A. the 95% confidence interval for the true proportion of people who favors Candidate A is(A) 0.722 to 0.878(B) 0.762 to 0.838(C) 78.04 to 81.96(D) 62.469 to 97.5319. The mean weight of trucks t
33、raveling on a particular section of 1-475 is not known. A state highway inspector needs an estimate of the mean. He selects a random sample of 49 trucks passing the weighing station and finds the mean is 15.8 tons, with a standard deviation of the sample of 3.8 tons. What is the 95 percent interval
34、for the population mean?(A) 14.7 and 16.9(B) 13.2 and 17.6(C) 10.0 and 20.0(D) 16.1 and 18.1(E) None of the above10. A market survey was conducted to estimate the proportion of home-makers who could recognize the brand name of a cleanser based on the shape and color of the container. Of the 1,400 ho
35、me-makers, 420 were able to identify the brand name. Using the 0.99 degree of confidence, the population proportion lies within what interval?11. Given sample statistics of , s = 12 , n = 64 , the point estimate of the population mean and the 95 percent confidence interval are(A) Point estimate = 72
36、 and 95 percent confidence interval equal to (B) Point estimate = 72 and 95 percent confidence interval equal to (C) Point estimate = 70 and 95 percent confidence interval equal to (D) Point estimate = 70 and 95 percent confidence interval equal to (E) None of the above answer is correct.12. A call
37、center manager measures the standard deviation in waiting time for a random sample of 16 customers to be 80 (seconds). Assuming that the waiting times are normal, what is the 95 percent confidence interval for the population variance?(A) 2160.32 to 21533.25(B) 163.21 to 5493.10(C) 781.59 to 10118.64
38、(D) 5127.53 to 31045.77(E) None of the above answer is correct.第20讲 两个正态总体均值差与方差比的区间估计单侧置信区间教学目的:1. 使学生理解两个正态总体间主要参数之间的关系及有关统计量所服从的分布; 2. 使学生理解两个正态总体均值差与方差比的区间估计;3. 使学生理解有关单侧置信区间的问题。教学重点:两个正态总体均值差与方差比的区间估计。教学难点:由有关统计量的分布推导出均值差及方差比的区间估计。教学时数:2学时。教学过程:第六章 参数估计6.4两个正态总体均值差与方差比的区间估计1. 两个正态总体均值差的区间估计(1)
39、设总体,总体,设及已知,则有,得 对于已知置信水平,则有即所以两个总体均值差的置信区间为 (1)(2) 设总体,其中及未知,假定,由5.5定理7知样本函数其中对于已知的置信水平,有即故可得两个总体均值差的置信水平为的置信区间为 (2)例1 为了估计磷肥对某种农作物的增产作用,分别各选10块土地,分别做施肥和不施肥的试验,设施肥的亩产量,不施肥的亩产量。测得如下数据:,取置信水平为95%,求施肥和不施肥的平均亩产之差的置信区间。解 由题设知,并求得 ,由,查表得。故的置信区间为(,)=(60-20.7646,60+20.7646)=(39.2354,80,7646)2. 两个正态总体方差比的区间
40、估计 设总体,当和都未知时,由5.5定理4知故有 ,因此对于置信水平有即所以,两个总体方差比的置信水平为的置信区间为 (3)例2 已知两个正态总体,其中和未知,分别测得有关数据为,。试求方差比的置信水平为90%的置信区间。解 由题设知=1.2,=6.59 =由(3)式知,所求的置信区间为 ()=(0.182,10.944)6.6单侧置信区间前面所讨论的置信区间都是双侧的,但在实际问题中,有时只需要讨论单侧置信上限或单侧置信下限就可以了。定义 设总体X的分布中含有未知参数,对于给定的置信水平,若存在统计量,使得 =则称为的置信水平为的单侧置信下限。类似地,若存在统计量,使得 )=则称为的置信水平
41、为的单侧置信上限。设总体,其中都未知,由已学过的定理知,故有即所以,的置信水平为1的单侧置信下限为= (4)同理知,有 即 所以得的置信水平为的单侧置信上限为 (5)例3 已知电子元件的寿命X(小时)服从正态分布),其中和 都未知,随机抽取6个元件测试,得有关数据。已给置信水平为0.95,试分别求的单侧置信下限和 的单侧置信上限。解 由题设知。由(4)式知的置信水平为的单侧置信下限为 其中 ,代入得 4563.2 查表得 由(5)式知的置信水平为的单侧置信上限为 = 區間估計與樣本數(一)13. 欲比較某一多事故路段加強執法前後違規超速車輛佔通過車輛數之比率,經抽樣調查發現,加強執法前違規之比率16%,加強執法後則降至7%,若兩次抽樣調查之樣本數皆為400,試求:(1) 加強執法前違規超速之比率的99%信賴區間。(2) 加強執法後違規超速之比率的99%信賴區間。(3) 加強執法後下降比率之99%信賴區間。14. The 95% confidence interval estimate of the mean time taken to process a new insurance policy is days. Which one of the following statement is true?(A) Only 5% of all policies take less
限制150内