应用抽样技术课件第三章.ppt
第三章第三章 简单随机抽样简单随机抽样 本章要点本章要点 简单随机抽样是抽样中最基本、最成熟、也简单随机抽样是抽样中最基本、最成熟、也是最简单的抽样设计方式,是所有概率抽样方法是最简单的抽样设计方式,是所有概率抽样方法发展、比较的基础。发展、比较的基础。要求熟练掌握简单随机抽样的要求熟练掌握简单随机抽样的抽样方式和抽样方式和样本抽选方法样本抽选方法;熟知熟知总体均值、总体总值和总体比例总体均值、总体总值和总体比例的简的简单估计;单估计;掌握掌握样本量样本量的确定。的确定。2n从三皇五帝时的黄帝算起,直到从三皇五帝时的黄帝算起,直到19111911年清王朝灭亡,中年清王朝灭亡,中国经历了数千年的漫长历史时期,在这漫长的历史长河国经历了数千年的漫长历史时期,在这漫长的历史长河之中,先后经历了之中,先后经历了8383个王朝,个王朝,出现了出现了559559位帝王位帝王。在封。在封建皇朝,臣下叩见皇帝时,先要三呼建皇朝,臣下叩见皇帝时,先要三呼 万岁万岁,这,这 万岁万岁 二字,等于是皇帝的尊称,其实真是莫大的讽刺。有史二字,等于是皇帝的尊称,其实真是莫大的讽刺。有史以来,皇帝总是要比普通人短命得多,而且大都是开国以来,皇帝总是要比普通人短命得多,而且大都是开国的皇帝比较长寿,越到后来,就越是短命。的皇帝比较长寿,越到后来,就越是短命。研究目的:为了估计我国历史上的这研究目的:为了估计我国历史上的这559559位位帝王的平均寿命帝王的平均寿命,拟采用简单拟采用简单随机抽样方式随机抽样方式从历代帝王中抽选三十位作为样本。从历代帝王中抽选三十位作为样本。问题问题1 1:如何实现简单随机抽样?:如何实现简单随机抽样?问题问题2 2:如何做出具有一定可靠程度的区间估计?:如何做出具有一定可靠程度的区间估计?帝王寿命的抽样估计帝王寿命的抽样估计帝王寿命的抽样估计帝王寿命的抽样估计3第一节第一节 抽样方式抽样方式4 简单随机抽样也称纯随机抽样简单随机抽样也称纯随机抽样。(Simple Random Sampling)Simple Random Sampling)对于容量为对于容量为N N的总体,抽取样本量为的总体,抽取样本量为n n的样本,的样本,若全若全部可能的样本被抽中的概率都相等部可能的样本被抽中的概率都相等,则称这样的抽,则称这样的抽样为简单随机抽样。样为简单随机抽样。一、什么是简单随机抽样一、什么是简单随机抽样例:从全班例:从全班100名学生中名学生中选出出10人作人作为代表参加座代表参加座谈会,会,将每个学生的姓名写在同将每个学生的姓名写在同样质地、同地、同样大小的大小的纸条上,投条上,投入一个入一个纸箱中充分混合均匀。然后从箱中充分混合均匀。然后从纸箱中一箱中一张接一接一张共共抽出抽出10张纸条。条。这10张纸条和其他任何条和其他任何10张纸条,被抽中条,被抽中的机会都一的机会都一样。5根据抽样单位是否放回可分为根据抽样单位是否放回可分为 放回简单随机抽样(重复抽样)放回简单随机抽样(重复抽样)不放回简单随机抽样(不重复抽样)不放回简单随机抽样(不重复抽样)6(一)放回简单随机抽样(重复抽样)(一)放回简单随机抽样(重复抽样)重复抽样一般是重复抽样一般是考虑样本单位的顺序的,考虑样本单位的顺序的,可能的样本为可能的样本为 个,每个样本被抽中的概率个,每个样本被抽中的概率为为随机抽取随机抽取样本本单位位调查观测放回放回总体体继续随随机抽取机抽取特点:每次抽取都是从特点:每次抽取都是从N个总体单位中抽取,个总体单位中抽取,同一个单位有可能在同一个样本中重复出现同一个单位有可能在同一个样本中重复出现7n例:用重复抽样方法(考虑顺序)例:用重复抽样方法(考虑顺序)从从5个人(年龄为个人(年龄为34,38,42,46,50岁)中随机抽取岁)中随机抽取2人构成样人构成样本本,样本个数为样本个数为 个,如下个,如下:(34,34)(34,38)(34,42)(34,46)(34,50)(38,34)(38,38)(38,42)(38,46)(38,50)(42,34)(42,38)(42,42)(42,46)(42,50)(46,34)(46,38)(46,42)(46,46)(46,50)(50,34)(50,38)(50,42)(50,46)(50,50)每个样本被抽中的概率都是每个样本被抽中的概率都是1/2552=258(二)不放回简单随机抽样(不重复抽样)(二)不放回简单随机抽样(不重复抽样)不重复抽样一般是不考虑样本单位顺序的。不重复抽样一般是不考虑样本单位顺序的。样本个数:样本个数:每个样本被抽中的概率为每个样本被抽中的概率为 。随机抽取随机抽取样本本单位位调查观测继续抽抽取下一个取下一个特点特点:即同一个单位不能在样本中重复出现。:即同一个单位不能在样本中重复出现。9例:用不重复抽样方法(不考虑顺序)例:用不重复抽样方法(不考虑顺序)从从5个个人(年龄为人(年龄为34,38,42,46,50岁)岁)中中随机抽取随机抽取2人构成样本共人构成样本共 个样本。所有可能样本为:个样本。所有可能样本为:每个样本被抽中的概率都是每个样本被抽中的概率都是1/10(34,38)(34,42)(34,46)(34,50)(38,42)(38,46)(38,50)(42,46)(42,50)(46,50)10实践中一般实践中一般多采用不放回简单随机抽样(不考虑顺多采用不放回简单随机抽样(不考虑顺序)序),以下讨论如无特别说明,都指这一类简单随,以下讨论如无特别说明,都指这一类简单随机抽样。机抽样。由于在重复抽样中一个单位有可能在一套样本中重由于在重复抽样中一个单位有可能在一套样本中重复多次出现,造成信息的重复,因此,复多次出现,造成信息的重复,因此,在样本量一定的条件下,在样本量一定的条件下,不放回抽样提供的信息量不放回抽样提供的信息量大于放回抽样,其抽样效率更高大于放回抽样,其抽样效率更高。11二、简单随机样本的抽选方法二、简单随机样本的抽选方法n首先要将总体首先要将总体 N N 个单位从个单位从1到到 N N 编号编号,每个单位对,每个单位对应一个号;应一个号;n然后从所编的号中随机然后从所编的号中随机抽号抽号,如果抽到某个号,则,如果抽到某个号,则对应的那个单位入样,直到抽够对应的那个单位入样,直到抽够 n n 个单位为止。个单位为止。具体方法:具体方法:(一)抽签法(一)抽签法 (二)随机数法(二)随机数法 12(一)抽签法(一)抽签法 当当总体不大总体不大时采用。用时采用。用同质均匀的材料同质均匀的材料制作制作N N个签,并个签,并充分混合充分混合。按这两种方法抽到的按这两种方法抽到的n个单位的个单位的样本是等价样本是等价的,的,每个样本被抽到的概率都等于每个样本被抽到的概率都等于全样本抽选法全样本抽选法全样本抽选法全样本抽选法逐个抽选法逐个抽选法逐个抽选法逐个抽选法一次抽取一个签但不放回,接着一次抽取一个签但不放回,接着抽下一个签,直到抽够抽下一个签,直到抽够n个签为个签为止,签上号码所对应的单位入样止,签上号码所对应的单位入样 从从从从N N个签中一次抽取个签中一次抽取个签中一次抽取个签中一次抽取n n个,这个,这个,这个,这n n个个个个签上的号码即为入样的单位号码签上的号码即为入样的单位号码签上的号码即为入样的单位号码签上的号码即为入样的单位号码 方方方方法法法法13随随随随机机机机数数数数法法法法利用随机数表进行抽选利用随机数表进行抽选利用随机数表进行抽选利用随机数表进行抽选利用随机数骰子进行抽选利用随机数骰子进行抽选利用随机数骰子进行抽选利用随机数骰子进行抽选 利用摇奖机进行抽选利用摇奖机进行抽选利用摇奖机进行抽选利用摇奖机进行抽选 利用计算机产生的伪随机数进行抽选利用计算机产生的伪随机数进行抽选利用计算机产生的伪随机数进行抽选利用计算机产生的伪随机数进行抽选(二)随机数法(二)随机数法 当当总体较大总体较大时采用。时采用。141、利用、利用随机数表随机数表进行抽选。进行抽选。随机数表是一张由随机数表是一张由0,1,2,9这十个数字组成这十个数字组成的表,一般常用的是五位数的随机数字表。的表,一般常用的是五位数的随机数字表。10个数字在表中出现的顺序是随机的,每个数字都个数字在表中出现的顺序是随机的,每个数字都有同样的机会被抽中。有同样的机会被抽中。抽选时,可根据总体容量抽选时,可根据总体容量N N的位数决定在表中随机的位数决定在表中随机抽取相邻的几列数字。抽取相邻的几列数字。15(1)(2)(3)(4)(5)(6)(7)(8)(9)(10)13204469037296559211481034405820158477184857624650522382196070825928164208971074410903781530561959842538238394987664412867795961783463791609416424384843246831021792716358608938157956209671879554502091770559485676940221650141401413372310550937489564595298369500061958834309825070030054367481445978092771382772076464638113593255689822027138129352970250803355587140117964509409575334905935663631879530511052695293846475707167506137101523692053212203436144890208610594425924774955828359837883513478702079501352899061111818409519927932222754332793746214488722653641042126678568379648300230582200975600533176149814482427130593369834574023516854138448501152705692848104410914317229733477178703611581935037463192108537957051021595118883732693442991001429085214199935937602823664随机数表随机数表 若若若若N=99N=99,n=10n=10,哪些单位入样?,哪些单位入样?,哪些单位入样?,哪些单位入样?若若若若N=830N=830,n=8n=8,哪些单位入样?,哪些单位入样?,哪些单位入样?,哪些单位入样?若若若若N=327N=327,n=8n=8,哪些单位入样?,哪些单位入样?,哪些单位入样?,哪些单位入样?16 N m 1N10 1 11N100 2 101N1000 3随机数骰子是均匀材料制成的正随机数骰子是均匀材料制成的正20面体,面体,09共共10个数字随机出现在个数字随机出现在20个面上,每个数字出现个面上,每个数字出现2次。次。根据需要选取一定骰子数根据需要选取一定骰子数m,规定每种颜色的骰子,规定每种颜色的骰子所代表的位数。所代表的位数。例如,选用红、黄、蓝例如,选用红、黄、蓝3种颜色的骰子,规定红色种颜色的骰子,规定红色骰子出现的数字表示百位数,黄色骰子出现的数骰子出现的数字表示百位数,黄色骰子出现的数字表示十位数,蓝色骰子出现的数字表示个位数。字表示十位数,蓝色骰子出现的数字表示个位数。所有所有m个骰子的数字均为个骰子的数字均为0时,表示时,表示10m。2 2、利利利利用用用用随随随随机机机机数数数数骰骰骰骰子子子子抽抽抽抽选选选选 173、利用摇奖机进行抽选、利用摇奖机进行抽选 各类彩票的抽奖活动通常是各类彩票的抽奖活动通常是各类彩票的抽奖活动通常是各类彩票的抽奖活动通常是利用摇奖机来完成的,我们利用摇奖机来完成的,我们利用摇奖机来完成的,我们利用摇奖机来完成的,我们也可以借助这一方法完成简也可以借助这一方法完成简也可以借助这一方法完成简也可以借助这一方法完成简单随机样本的抽取单随机样本的抽取单随机样本的抽取单随机样本的抽取 184、利用计算机产生的、利用计算机产生的伪随机数伪随机数进行抽选进行抽选大多数统计软件都有现成的产生随机数的程序大多数统计软件都有现成的产生随机数的程序大多数统计软件都有现成的产生随机数的程序大多数统计软件都有现成的产生随机数的程序 利用计算机产生的随机数具有快捷、方便的特点。利用计算机产生的随机数具有快捷、方便的特点。利用计算机产生的随机数具有快捷、方便的特点。利用计算机产生的随机数具有快捷、方便的特点。但是利用计算机产生的随机数是伪随机数,并不能但是利用计算机产生的随机数是伪随机数,并不能但是利用计算机产生的随机数是伪随机数,并不能但是利用计算机产生的随机数是伪随机数,并不能保证其随机性,通常产生的伪随机数有循环周期。保证其随机性,通常产生的伪随机数有循环周期。保证其随机性,通常产生的伪随机数有循环周期。保证其随机性,通常产生的伪随机数有循环周期。一般不建一般不建一般不建一般不建议使用此种方法!议使用此种方法!议使用此种方法!议使用此种方法!19第二节第二节 总体均值与总体总值总体均值与总体总值的简单估计的简单估计20春秋晋文公春秋晋文公2929岁、战国秦孝公岁、战国秦孝公5656岁、秦朝秦始皇岁、秦朝秦始皇4949岁、新朝王岁、新朝王莽莽6868岁、东汉光武帝刘秀岁、东汉光武帝刘秀6363岁、东汉顺帝刘保岁、东汉顺帝刘保3030岁、西汉哀帝岁、西汉哀帝刘欣刘欣2525岁、魏文帝曹丕岁、魏文帝曹丕3939岁、昭烈帝刘备岁、昭烈帝刘备6161岁、吴大帝孙权岁、吴大帝孙权7171岁、西晋武帝司马炎岁、西晋武帝司马炎5555岁、东晋成帝司马衍岁、东晋成帝司马衍2222岁、南朝顺帝李岁、南朝顺帝李淮淮1212岁、金章宗完颜达葛岁、金章宗完颜达葛4040岁、元世祖忽必烈岁、元世祖忽必烈7979岁、北朝孝庄岁、北朝孝庄帝元子攸帝元子攸2424岁、隋炀帝杨广岁、隋炀帝杨广4949岁、唐太宗李世民岁、唐太宗李世民5151岁、唐武宗岁、唐武宗李炎李炎3232岁、南唐后主李煜岁、南唐后主李煜4242岁、北宋赵匡胤岁、北宋赵匡胤4949岁、北宋英宗赵岁、北宋英宗赵曙曙3535岁、南宋宁宗赵扩岁、南宋宁宗赵扩5757岁、辽太祖耶律阿保机岁、辽太祖耶律阿保机5555岁、元太祖岁、元太祖铁木真铁木真6565岁、元文宗图帖木尔岁、元文宗图帖木尔2828岁、明太祖朱元璋岁、明太祖朱元璋7070岁、明熹岁、明熹宗朱由校宗朱由校2323岁、清圣祖玄烨岁、清圣祖玄烨6868岁、清光绪帝载恬岁、清光绪帝载恬3737岁。岁。如何根据以上数据,以如何根据以上数据,以95%95%的概率保证程度,对我国的概率保证程度,对我国559559位帝王位帝王的平均寿命作出估计?的平均寿命作出估计?从我国历史上的从我国历史上的559559位帝王中用随机数表选取了以位帝王中用随机数表选取了以下三十位,他们的寿命如下下三十位,他们的寿命如下:帝王寿命帝王寿命的抽样估计的抽样估计21有关指标与符号有关指标与符号指指 标标 总总 体体 样样 本本 总值总值均值均值比例比例有限总有限总体方差体方差无限总无限总体方差体方差22一、总体均值的简单估计一、总体均值的简单估计(一)(一)简单估计量简单估计量的定义的定义n总体均值总体均值 的简单估计量为样本均值:的简单估计量为样本均值:n 23(二(二)简单估计量简单估计量 的期望与方差的期望与方差对于对于简单随机抽样(不放回),简单随机抽样(不放回),是是 的无偏估计,的无偏估计,即有即有 f=f=n n/N N 为抽样比为抽样比;1-f 1-f 为有限总体校正系数。为有限总体校正系数。的方差的方差:由于每个单位的入样概率都是由于每个单位的入样概率都是n/Nn/N,不放回简单随机不放回简单随机抽样是等概率抽样。抽样是等概率抽样。24 是是 的无偏估计的无偏估计。样本方差样本方差 是总体方差是总体方差S S2 2的无偏估计量,所以的无偏估计量,所以 由于总体方差由于总体方差S2未知,需用样本方差未知,需用样本方差 估计它估计它。25(三)放回简单随机抽样的简单估计(三)放回简单随机抽样的简单估计 对于对于放回简单随机抽样(考虑顺序放回简单随机抽样(考虑顺序),),是是 的无的无偏估计偏估计由于每次抽取时总体中任一单位都有由于每次抽取时总体中任一单位都有1/N1/N的概率被抽的概率被抽中,中,考虑样本单位顺序的放回简单随机抽样也是等考虑样本单位顺序的放回简单随机抽样也是等概率抽样。概率抽样。由于由于N往往很大,往往很大,N-1N,所以,所以26由于由于样本方差样本方差 是总体方差是总体方差 的无偏估计量的无偏估计量,所以,所以 可得到可得到 的无偏估计量的无偏估计量27这说明除非这说明除非 n n=1,否则在相同的样本量下,否则在相同的样本量下,放回简单随放回简单随机抽样的方差总是大于不放回的方差,机抽样的方差总是大于不放回的方差,即它的抽样效率即它的抽样效率一般比不放回简单随机抽样的低。一般比不放回简单随机抽样的低。根据抽样设计效应定义:根据抽样设计效应定义:放回简单随机抽样的放回简单随机抽样的 为:为:28n【例例3.1】在某区在某区10000户家庭中,按简单随机抽样户家庭中,按简单随机抽样抽取抽取400户,调查每个月的人均伙食费(单位:元)户,调查每个月的人均伙食费(单位:元)。经计算:。经计算:n若对该地区平均每人每月的伙食费做估计,则抽若对该地区平均每人每月的伙食费做估计,则抽样标准误是多少?样标准误是多少?29n1、计算估计量、计算估计量 和样本方差和样本方差 n2、计算抽样标准误、计算抽样标准误n3、计算置信区间、计算置信区间 (1)根据给定的)根据给定的 1-1-,找到相应的,找到相应的 t 值值 (2)计算抽样极限误差)计算抽样极限误差 (3)确定总体均值的估计区间)确定总体均值的估计区间估计总体均值的步骤估计总体均值的步骤30【例例3.23.2】为了估计我国历史上的这为了估计我国历史上的这559559位帝王的平均寿命位帝王的平均寿命,随机随机选取了以下三十位选取了以下三十位,他们的寿命如下他们的寿命如下:春秋晋文公春秋晋文公2929岁、战国秦孝公岁、战国秦孝公5656岁、秦朝秦始皇岁、秦朝秦始皇4949岁、新朝王莽岁、新朝王莽6868岁、东汉光武帝刘秀岁、东汉光武帝刘秀6363岁、东岁、东汉顺帝刘保汉顺帝刘保3030岁、西汉哀帝刘欣岁、西汉哀帝刘欣2525岁、魏文帝曹岁、魏文帝曹丕丕3939岁、昭烈帝刘备岁、昭烈帝刘备6161岁、吴大帝孙权岁、吴大帝孙权7171岁、西岁、西晋武帝司马炎晋武帝司马炎5555岁、东晋成帝司马衍岁、东晋成帝司马衍2222岁、南朝岁、南朝顺帝李淮顺帝李淮1212岁、金章宗完颜达葛岁、金章宗完颜达葛4040岁、元世祖忽岁、元世祖忽必烈必烈7979岁、北朝孝庄帝元子攸岁、北朝孝庄帝元子攸2424岁、隋炀帝杨广岁、隋炀帝杨广4949岁、唐太宗李世民岁、唐太宗李世民5151岁、唐武宗李炎岁、唐武宗李炎3232岁、南岁、南唐后主李煜唐后主李煜4242岁、北宋赵匡胤岁、北宋赵匡胤4949岁、北宋英宗赵岁、北宋英宗赵曙曙3535岁、南宋宁宗赵扩岁、南宋宁宗赵扩5757岁、辽太祖耶律阿保机岁、辽太祖耶律阿保机5555岁、元太祖铁木真岁、元太祖铁木真6565岁、元文宗图帖木尔岁、元文宗图帖木尔2828岁、岁、明太祖朱元璋明太祖朱元璋7070岁、明熹宗朱由校岁、明熹宗朱由校2323岁、清圣祖岁、清圣祖玄烨玄烨6868岁、清光绪帝载恬岁、清光绪帝载恬3737岁。岁。如何根据以上数据,以如何根据以上数据,以95%95%的概率保证程度,对的概率保证程度,对我国我国559559位帝王的平均寿命作出估计?位帝王的平均寿命作出估计?31【例例例例3.33.33.33.3】从某区从某区从某区从某区400400400400户个体户饮食店中简单随机抽取户个体户饮食店中简单随机抽取户个体户饮食店中简单随机抽取户个体户饮食店中简单随机抽取10101010进行月营业额调查,样本资料如下:进行月营业额调查,样本资料如下:进行月营业额调查,样本资料如下:进行月营业额调查,样本资料如下:月均营业额月均营业额(万元)(万元)户数户数10以下以下102020303040405050以上以上合计合计2410166240要求在要求在要求在要求在95959595的概率保证下,估计的概率保证下,估计的概率保证下,估计的概率保证下,估计全体饮食店全体饮食店全体饮食店全体饮食店月均营业额月均营业额月均营业额月均营业额.32 总体总值为总体均值的总体总值为总体均值的N N倍倍,即,即 所以,总体总值的简单估计量就是所以,总体总值的简单估计量就是N倍的样本均倍的样本均值,即值,即 二、总体总值的简单估计二、总体总值的简单估计33的无偏估计为的无偏估计为 简单估计量的性质简单估计量的性质34【例例例例3.43.43.43.4】从某区从某区从某区从某区400400400400户个体户饮食店中简单随机抽取户个体户饮食店中简单随机抽取户个体户饮食店中简单随机抽取户个体户饮食店中简单随机抽取10101010进行月营业额调查,样本资料如下:进行月营业额调查,样本资料如下:进行月营业额调查,样本资料如下:进行月营业额调查,样本资料如下:月均营业额月均营业额(万元)(万元)户数户数10以下以下102020303040405050以上以上合计合计2410166240要求在要求在要求在要求在95959595的概率保证下,估计的概率保证下,估计的概率保证下,估计的概率保证下,估计全体饮食店的全体饮食店的全体饮食店的全体饮食店的月营业总额。月营业总额。月营业总额。月营业总额。35第三节第三节 总体比例的简单估计总体比例的简单估计36 设总体中有设总体中有N N个单位,其中符合规定特征的单位数个单位,其中符合规定特征的单位数为为 ;不符合规定特征的单位数为;不符合规定特征的单位数为 。具有某种特征的单位比例为:具有某种特征的单位比例为:不具有该种特征的单位的比例为:不具有该种特征的单位的比例为:对总体比例的估计就是对总体均值估计的特例,对总体比例的估计就是对总体均值估计的特例,对总体中具有规定特征的单位的总个数对总体中具有规定特征的单位的总个数 的估计的估计是对总体总值估计的一个特例。是对总体总值估计的一个特例。一、问题的提法一、问题的提法 37总体方差为:总体方差为:38二、总体比例的简单估计量及其性质二、总体比例的简单估计量及其性质设样本容量为设样本容量为 n n,其中具有某种特征的有,其中具有某种特征的有 个个 样本比例样本比例(样本均值)(样本均值)样本比例样本比例 p p 是总体比例是总体比例 P P 的简单估计量的简单估计量;总体中具有某种属性的单位数总体中具有某种属性的单位数 的简单估计量的简单估计量是是39估计量的性质:估计量的性质:1、p p是是 P P的无偏估计的无偏估计。即有:。即有:2、p p 的方差为:的方差为:3、的无偏估计量是的无偏估计量是 ,即,即40当当 都比较大时,可依正态分布给出都比较大时,可依正态分布给出 及及 的的 近似近似置信区间置信区间为:为:41【例例3.5】某超市新开张一段时间之后,为改进销售服务环某超市新开张一段时间之后,为改进销售服务环境,欲调查附近几个小区居民到该超市购物的满意度。境,欲调查附近几个小区居民到该超市购物的满意度。该超市与附近几个小区的居委会取得联系,在总体中按该超市与附近几个小区的居委会取得联系,在总体中按简单随机抽样抽取了一个简单随机抽样抽取了一个200人的样本,调查发现对该人的样本,调查发现对该超市购物环境表示满意或基本满意的居民有超市购物环境表示满意或基本满意的居民有130位。位。现要估计对该超市购物环境持肯定态度居民的比例,并现要估计对该超市购物环境持肯定态度居民的比例,并在置信度在置信度95%下,给出估计的置信区间。下,给出估计的置信区间。42【例例3.6】Do you believe first-sight love?要求在要求在95.45的概率保证程度下,估计大学生中相信一见的概率保证程度下,估计大学生中相信一见钟情的人所占比重。钟情的人所占比重。43【例例例例3.73.73.73.7】某高校一学生调研小组对本专业某高校一学生调研小组对本专业某高校一学生调研小组对本专业某高校一学生调研小组对本专业400400400400名学生的手名学生的手名学生的手名学生的手机消费情况进行了抽样调查,简单随机不重复调查了机消费情况进行了抽样调查,简单随机不重复调查了机消费情况进行了抽样调查,简单随机不重复调查了机消费情况进行了抽样调查,简单随机不重复调查了50505050名名名名学生,所得资料如下:学生,所得资料如下:学生,所得资料如下:学生,所得资料如下:月消费额月消费额(元)(元)人数人数30以下以下3050508080100100以上以上合计合计2141610850要求在要求在要求在要求在95.4595.4595.4595.45的概率保证下,估的概率保证下,估的概率保证下,估的概率保证下,估计该专业学生中月消费额在计该专业学生中月消费额在计该专业学生中月消费额在计该专业学生中月消费额在80808080元元元元以上的学生人数。以上的学生人数。以上的学生人数。以上的学生人数。44第四节第四节 样本量的确定样本量的确定45 样本量的确定主要受两个方面因素的影响和制约:样本量的确定主要受两个方面因素的影响和制约:1 1、对抽样估计量、对抽样估计量精度的要求精度的要求。一、确定样本量主要考虑的因素一、确定样本量主要考虑的因素精度要求越高,意味着要求的抽样误差越小,而精度要求越高,意味着要求的抽样误差越小,而要使抽样误差小,所需要的样本量就越大。要使抽样误差小,所需要的样本量就越大。总体内部的差异大小、总体容量的大小、所使用的估计量、总体内部的差异大小、总体容量的大小、所使用的估计量、回答率回答率等都是影响抽样估计精度的因素,从而也是影响样本等都是影响抽样估计精度的因素,从而也是影响样本量的因素。量的因素。46 2 2、实际调查运作实际调查运作的限制。的限制。如:如:调查的经费、允许调查持续的时间、调查人员调查的经费、允许调查持续的时间、调查人员数量数量 实践中样本量的确定是在多种约束条件下进行的折实践中样本量的确定是在多种约束条件下进行的折衷过程。衷过程。由于大部分限制约束条件不便于量化,确定样本量由于大部分限制约束条件不便于量化,确定样本量的计算公式时往往的计算公式时往往只在抽样精度与调查费用两者之只在抽样精度与调查费用两者之间权衡。间权衡。47采用两种不同的方式来确定样本容量:采用两种不同的方式来确定样本容量:1、在总费用一定的条件下使精度最高在总费用一定的条件下使精度最高;2、在满足、在满足一定精度要求的条件下使费用最小一定精度要求的条件下使费用最小。求得一定费用下求得一定费用下求得一定费用下求得一定费用下可调查的最大样可调查的最大样可调查的最大样可调查的最大样本量本量本量本量求得一定精度下所需求得一定精度下所需求得一定精度下所需求得一定精度下所需的最小样本量的最小样本量的最小样本量的最小样本量48 n对于简单随机抽样,对于简单随机抽样,费用为样本量的线性函数费用为样本量的线性函数:费用与样本量的关系费用与样本量的关系若若C,C0与与c给定,则给定,则最大样本量最大样本量n就确定了。就确定了。总费用总费用总费用总费用固定费用:固定费用:固定费用:固定费用:与样本量无关与样本量无关与样本量无关与样本量无关设计费设计费分析费分析费办公费办公费管理费管理费场租费场租费等等访问员费访问员费交通费交通费礼品费礼品费电话费电话费等等调查一个单位的调查一个单位的调查一个单位的调查一个单位的平均可变费用平均可变费用平均可变费用平均可变费用49对于简单随机抽样,样本量与精度的关系:对于简单随机抽样,样本量与精度的关系:精度与样本量的关系精度与样本量的关系对精度的要求通常用抽样极限误差对精度的要求通常用抽样极限误差 来表示来表示估计量的估计量的标准差标准差SE 是样本量是样本量n的函数的函数。只要给定只要给定 ,即可求得所需的最低样本量,即可求得所需的最低样本量n。50二、估计总体均值(总值)的样本量二、估计总体均值(总值)的样本量无限总体或无限总体或放回抽样下放回抽样下当给定抽样极限误差时:当给定抽样极限误差时:在一定的精度要求下如何计算样本量?在一定的精度要求下如何计算样本量?51不放回抽样下,不放回抽样下,若若N很大,当很大,当 n0/N 5,则则n可以近似等于可以近似等于n0。显然,显然,nn0 ,在同样精度要求下,不放回抽,在同样精度要求下,不放回抽样所需要的样本量小于放回抽样样所需要的样本量小于放回抽样不放回抽样下不放回抽样下52总体方差总体方差 可以通过以往对同类问题调查积累的可以通过以往对同类问题调查积累的经验来估计经验来估计,也可以通过,也可以通过预调查预调查来估计,或通过来估计,或通过其其他调查他调查方法和方法和定性分析定性分析方法获得。方法获得。53【例例3.73.7】某市拟对全市居民家庭生活收支某市拟对全市居民家庭生活收支情况进行调查,要求保证情况进行调查,要求保证95.45%95.45%的可靠程度,的可靠程度,允许误差不超过允许误差不超过0.20.2万元。据去年的调查,万元。据去年的调查,户年收入方差为户年收入方差为1.61.6,至少应抽多少户?,至少应抽多少户?若允许误差不超过若允许误差不超过0.10.1万元,应抽多少户?万元,应抽多少户?54三、估计总体比例的样本量确定三、估计总体比例的样本量确定在在放回抽样放回抽样(或无限总体或无限总体)下,给定允许误差时,简单下,给定允许误差时,简单随机抽样的样本量:随机抽样的样本量:不放回抽样下不放回抽样下显然,在同样精度要求下,不放回抽样所需要的样本显然,在同样精度要求下,不放回抽样所需要的样本量小于放回抽样量小于放回抽样不放回抽样下,若不放回抽样下,若N很大,很大,如如n0/N0.05,则则n可以可以近似等于近似等于n0。55总体比例总体比例P P可以通过以往对同类问题调查积累的可以通过以往对同类问题调查积累的经经验来估计验来估计,也可以通过,也可以通过预调查预调查来估计。来估计。在没有经验数据可以利用时,可取在没有经验数据可以利用时,可取P=0.5P=0.5来得到样来得到样本量的一个保守估计(本量的一个保守估计(P=0.5P=0.5时方差时方差 PQ PQ 达到最大达到最大值)。值)。56n【例例3.8】估计估计3200件产品中优等品的比例,已件产品中优等品的比例,已知小规模试抽样的优等品比例为知小规模试抽样的优等品比例为45。以。以95%的置信度允许估计量的绝对误差不超过的置信度允许估计量的绝对误差不超过4%,确定所需的样本量。确定所需的样本量。n解:解:57n【例例3.9】某销售公司希望了解全部某销售公司希望了解全部3000家客户对该公家客户对该公司的综合满意度,决定用电话调查方法来进行一个简司的综合满意度,决定用电话调查方法来进行一个简单随机抽样调查。单随机抽样调查。n销售公司希望以销售公司希望以95%的把握保证最大误差为的把握保证最大误差为10%,但,但对总体比例对总体比例P无法给出一个大致的范围。无法给出一个大致的范围。n这时应该调查多少个客户?这时应该调查多少个客户?n解:解:58【例例3.103.10】某企业对一批总数为某企业对一批总数为50005000件的产件的产品进行质量检查,过去几次同类调查所得的品进行质量检查,过去几次同类调查所得的产品合格率分别为产品合格率分别为9898、9595、9696。为了。为了使合格率的允许误差不超过使合格率的允许误差不超过22,在,在9595的的概率保证程度下,应抽查多少件产品?概率保证程度下,应抽查多少件产品?【分析分析分析分析】因为共有三个过去的合格率的资料,为保证推断因为共有三个过去的合格率的资料,为保证推断因为共有三个过去的合格率的资料,为保证推断因为共有三个过去的合格率的资料,为保证推断的可靠程度,保守的做法是选其中方差最大者,或最接近的可靠程度,保守的做法是选其中方差最大者,或最接近的可靠程度,保守的做法是选其中方差最大者,或最接近的可靠程度,保守的做法是选其中方差最大者,或最接近0.50.50.50.5的那个的那个的那个的那个P P P P值,即取值,即取值,即取值,即取P=95P=95P=95P=95。59 1.1.估计精度越高越好吗估计精度越高越好吗?简单随机抽样下估计比例时所需样本量与绝对允许误差简单随机抽样下估计比例时所需样本量与绝对允许误差 (当(当经验值经验值P=0.5P=0.5时)时)样本量样本量 允许误差允许误差 50 14%50 14%100 10%100 10%500 4.5%500 4.5%1000 3.2%1000 3.2%10000 0.98%10000 0.98%样本量设计中的误区样本量设计中的误区10001000左右的样本量可以让误差范围保持左右的样本量可以让误差范围保持在在3 3左右。在此基础上再提高精度要求,左右。在此基础上再提高精度要求,所需样本量和由此带来的费用会极大地所需样本量和由此带来的费用会极大地提高,因此样本量设计中不能一味提高提高,因此样本量设计中不能一味提高精度要求,这样做并不值得。精度要求,这样做并不值得。精精度度n n602.2.样本量与总体规模样本量与总体规模 N N 有关吗?按照总体容量成有关吗?按照总体容量成比例的方法确定样本量合适吗?比例的方法确定样本量合适吗?例:简单随机抽样估计例:简单随机抽样估计P P,置信度置信度95%95%,允许误差,允许误差5%5%,经验数据经验数据P=0.5P=0.5条件下条件下 50 45 100 80 500 218 1000 278 5000 357 10000 370 100000 383 1000000 384 10000000 384所需所需样本量样本量(n)总体总体规模规模(N)由此可知,在精度要求相同条件下,在杭州市由此可知,在精度要求相同条件下,在杭州市进行一项调查和在全国进行一项调查,样本量进行一项调查和在全国进行一项调查,样本量的差别并不大。的差别并不大。总体规模越大,进行抽样调查的效率越高。总体规模越大,进行抽样调查的效率越高。61思考与练习思考与练习n1.抽样比的计算公式为(抽样比的计算公式为()。)。A.f=(n-1)/(N-1)B.f=n/NC.f=(n-1)/N D.f=(N-n)/Nn2.通常所讨论的简单随机抽样指的是(通常所讨论的简单随机抽样指的是()。)。A.放回的简单随机抽样放回的简单随机抽样B.放回无序随机抽样放回无序随机抽样C.不放回有序随机抽样不放回有序随机抽样D.不放回的简单随机抽样不放回的简单随机抽样 62n3.下面给出的四个式子中,错误的是(下面给出的四个式子中,错误的是()A.B.C.D.E E(n n1 1)=N=N1 1n4.假设考虑了有效回答率之外所有其他因素假设考虑了有效回答率之外所有其他因素的初始样本量为的初始样本量为400,而而估估计有效回答率为计有效回答率为80%,那么样本量应定为(,那么样本量应定为()。)。A.320 B.500 C.400 D.48063n 4.影响样本容量的因素包括影响样本容量的因素包括().总体规模总体规模 .(目标目标)抽样误差抽样误差 .总体方差总体方差 .置信度置信度 .有效回答率有效回答率n5.简单随机抽样的实施方法简单随机抽样的实施方法().抽签法抽签法 .利用统计软件直接抽取法利用统计软件直接抽取法 .随便抽取法随便抽取法.随机数法随机数法 .主观判断法主观判断法64【思考思考思考思考】海关报关单