样本容量的确定课件.ppt
《样本容量的确定课件.ppt》由会员分享,可在线阅读,更多相关《样本容量的确定课件.ppt(88页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、样本量的确定样本量的确定北 京 广 播 学 院 新 闻 传 播 学 院调 查 统 计 研 究 所二零零一年五月二零零一年五月沈 浩1ppt课件第第2页页SSI本讲主要内容本讲主要内容如何计算简单随机抽样的样本量确定如何计算简单随机抽样的样本量确定如何实现分层抽样中各层样本单位数的分配如何实现分层抽样中各层样本单位数的分配2ppt课件第第3页页SSI样本容量的确定样本容量的确定样本量样本量=费用费用+精度精度 (函数)(函数)确定样本容量,需要处理好预定的精度与现有经确定样本容量,需要处理好预定的精度与现有经费,同时也要考虑资源和时间等限制条件,最终的样费,同时也要考虑资源和时间等限制条件,最终
2、的样本量确定是在上述因素之间的权衡关系。本量确定是在上述因素之间的权衡关系。3ppt课件第第4页页SSI分层抽样分配样本的标准分层抽样分配样本的标准1.总的样本容量事先确定总的样本容量事先确定2.估计值要求达到的精度预先给定估计值要求达到的精度预先给定4ppt课件第第5页页SSI影响调查样本容量的因素影响调查样本容量的因素调查估计值所希望达到的精度调查估计值所希望达到的精度调查估计值所能允许的误差。调查估计值所能允许的误差。估计量的抽样方差较小,估计值是精确的估计量的抽样方差较小,估计值是精确的估计值的精度越高,所需的样本容量就越大估计值的精度越高,所需的样本容量就越大影响精度的因素也同样影响
3、着样本容量的大小影响精度的因素也同样影响着样本容量的大小所研究指标在总体中的变异程度所研究指标在总体中的变异程度总体的大小总体的大小样本设计和所使用的估计量样本设计和所使用的估计量无回答率无回答率5ppt课件第第6页页SSI客户提供的经费能支持多大容量的样本客户提供的经费能支持多大容量的样本整个调查持续的时间有多长整个调查持续的时间有多长调查需要多少访员调查需要多少访员能招聘到的访员有多少能招聘到的访员有多少除了估计值的精度以外,调查实际操作的限制条件除了估计值的精度以外,调查实际操作的限制条件也许是影响样本容量的最大因素。也许是影响样本容量的最大因素。6ppt课件第第7页页SSI 1 1给定
4、精度水平下样本容量的确定给定精度水平下样本容量的确定 样本容量的大小与调查估计值所要求的精度紧密相关样本容量的大小与调查估计值所要求的精度紧密相关数据是通过抽样而不是普查收集的,就会产生抽样误差。数据是通过抽样而不是普查收集的,就会产生抽样误差。精度是由抽样方差来测量的。精度是由抽样方差来测量的。随着样本容量的增加,调查估计值的精度也会不断提高。随着样本容量的增加,调查估计值的精度也会不断提高。7ppt课件第第8页页SSI标准误差标准误差误差界限误差界限变异系数变异系数抽样方差的几种计量方法抽样方差的几种计量方法抽样调查中样本容量的确定,也经常会使抽样调查中样本容量的确定,也经常会使用一种或多
5、种这样的计量方法来对精度进行说用一种或多种这样的计量方法来对精度进行说明。明。8ppt课件第第9页页SSI非抽样误差非抽样误差非抽样误差会对调查估计值的精度产生显著的影响非抽样误差会对调查估计值的精度产生显著的影响非抽样误差的大小与样本容量的大小却没有很大的关系非抽样误差的大小与样本容量的大小却没有很大的关系确定样本容量,就不必将这些误差作为影响因素加以考虑确定样本容量,就不必将这些误差作为影响因素加以考虑为确保调查结果的准确性,应该消除非抽样误差,至少应尽为确保调查结果的准确性,应该消除非抽样误差,至少应尽可能使之最小化可能使之最小化9ppt课件第第10页页SSI由于我们将在某一给定误差界限
6、下,阐述样本容由于我们将在某一给定误差界限下,阐述样本容量确定的过程,所以有必要复习一下置信区间的概念。量确定的过程,所以有必要复习一下置信区间的概念。对于具有正态分布的估计量来说,对于具有正态分布的估计量来说,95%的置信区的置信区间意味着在同样的条件下,反复抽样间意味着在同样的条件下,反复抽样100次所得的次所得的100个样本中,有个样本中,有95个样本的估计值所确定的区间包含总个样本的估计值所确定的区间包含总体真值,这个区间以样本的估计值为中心,半径为体真值,这个区间以样本的估计值为中心,半径为1.96倍的标准误差倍的标准误差。置信区间置信区间10ppt课件第第11页页SSI2 2误差界
7、限误差界限误差界限是标准误差的倍数误差界限是标准误差的倍数标准误差是估计量抽样方差的平方根标准误差是估计量抽样方差的平方根乘数因子取决于在调查估计中所希望乘数因子取决于在调查估计中所希望达到的置信水平(或称置信度)达到的置信水平(或称置信度)11ppt课件第第12页页SSI对于估计值对于估计值t,在给定其标准误差在给定其标准误差 t的情况下的情况下,置信区间的公式可以表示为:置信区间的公式可以表示为:(t-z tt+z t)这里这里z t是误差界限,是误差界限,z是对应于某一置是对应于某一置信水平的标准正态分布的分位点值信水平的标准正态分布的分位点值该该z值可从标准正态分布表中查得,大多值可从
8、标准正态分布表中查得,大多数统计学教材中都附有这样的统计表数统计学教材中都附有这样的统计表12ppt课件第第13页页SSI常用的z值包括v对于对于90%的置信度,对应的的置信度,对应的z z值为值为1.64v对于对于95%的置信度,对应的的置信度,对应的z z值为值为1.96v对于对于99%的置信度,对应的的置信度,对应的z z值为值为2.5613ppt课件第第14页页SSI 3 3多大的抽样方差是可接受的多大的抽样方差是可接受的调查估计值能容忍多大的不确定性?。调查估计值能容忍多大的不确定性?。常用的常用的95%的置信度、的置信度、5%的误差界限对我们的的误差界限对我们的调查目标是否适宜调查
9、目标是否适宜估计值是否需要更高(或更低)精度估计值是否需要更高(或更低)精度如果调查结果将用于进行一项有重大意义或有较大风险的决策,如果调查结果将用于进行一项有重大意义或有较大风险的决策,那么,估计值可能需要较高的精度;那么,估计值可能需要较高的精度;如果我们只是简单地希望取得所研究总体某个特征的感性认识,如果我们只是简单地希望取得所研究总体某个特征的感性认识,那么,稍低一点的精度就可以满足要求了那么,稍低一点的精度就可以满足要求了14ppt课件第第15页页SSI多大抽样方差是可以接受多大抽样方差是可以接受 是否需要对调查的子总体(或称作域)进行估计?是否需要对调查的子总体(或称作域)进行估计
10、?调查结果可能需要包括一些细分的数据调查结果可能需要包括一些细分的数据这些数据称为子总体估计值(或域估计值)这些数据称为子总体估计值(或域估计值)为使数据满足调查要求,应该确定合适的精度为使数据满足调查要求,应该确定合适的精度 与调查估计值有关的抽样方差有多大?与调查估计值有关的抽样方差有多大?15ppt课件第第16页页SSI对于不同的子总体,对精度的要求可能有所不同对于不同的子总体,对精度的要求可能有所不同例如,在一次全国范围的抽样调查中,对国家层次的数据,例如,在一次全国范围的抽样调查中,对国家层次的数据,调查主办者可能需要调查主办者可能需要3%的误差界限;但对于省级层次的估计的误差界限;
11、但对于省级层次的估计值,值,5%的误差界限可能就可以满足要求;的误差界限可能就可以满足要求;而对于省级以下层次的估计值,而对于省级以下层次的估计值,10%的误差界限可能就足的误差界限可能就足够了。够了。16ppt课件第第17页页SSI在这种情况下,通常对每个研究域都进行分层,在这种情况下,通常对每个研究域都进行分层,并单独计算各层的样本容量并单独计算各层的样本容量将各个研究域中所有层的样本容量相加,便得到将各个研究域中所有层的样本容量相加,便得到了调查所需的总样本容量了调查所需的总样本容量17ppt课件第第18页页SSI调查估计值有关的抽样方差有多大调查估计值有关的抽样方差有多大v为达到调查结
12、果要求的精度,最小的调查估计值是什为达到调查结果要求的精度,最小的调查估计值是什么?假设我们进行比例估计。其中,一些指标的比例么?假设我们进行比例估计。其中,一些指标的比例可能是可能是P=50%或更高,但是其它指标的比例则可能较或更高,但是其它指标的比例则可能较低,如低,如P=5%或者或者P=10%v事实上,事实上,P可以是可以是P=0到到P=1.0之间的任一数值。在确之间的任一数值。在确定调查估计值所需的精度时,应该考虑当某个既定精定调查估计值所需的精度时,应该考虑当某个既定精度达到时所得的最小估计值。如果最小的估计值是度达到时所得的最小估计值。如果最小的估计值是P=5%,那么误差界限就应该
13、小于那么误差界限就应该小于5%。18ppt课件第第19页页SSI例如:例如:某公司决定,如果公司所在的地区中,至少有某公司决定,如果公司所在的地区中,至少有P=4%的人的人群对某一种产品存在需求,那么该公司就决定生产这种产品。群对某一种产品存在需求,那么该公司就决定生产这种产品。因此,该公司的市场调研部准备对当地的居民一项调查,以便因此,该公司的市场调研部准备对当地的居民一项调查,以便估计他们在这种产品上的消费需求。估计他们在这种产品上的消费需求。对于对于P=4%5%水平左右的调查估计值就不太合适,应规水平左右的调查估计值就不太合适,应规定更小的误差界限,如小于或等于定更小的误差界限,如小于或
14、等于0.01、0.02等,等,这时候这时候置置信区间应该是(信区间应该是(0.050.01)或(或(0.050.02)。)。19ppt课件第第20页页SSITable1样本容量和在样本容量和在P=0.5时运用简单随机抽样估计时运用简单随机抽样估计P值得到的误差界限值得到的误差界限样本容量误差界限500.141000.105000.04510000.03220ppt课件第第21页页SSI最佳的解决办法最佳的解决办法不应为追求最小的误差界限而选择最大可能的样本不应为追求最小的误差界限而选择最大可能的样本可以接受一个较大的误差界限,同时有效地利用现有资源可以接受一个较大的误差界限,同时有效地利用现有
15、资源在此基础上,获得具有相对较高精度的估计结果在此基础上,获得具有相对较高精度的估计结果采用一个较小的样本而不是大样本而节省下来的费用,采用一个较小的样本而不是大样本而节省下来的费用,可以用来修正其它影响调查结果精度的因素可以用来修正其它影响调查结果精度的因素例如减少无回答率(如回访拒答者、实施小型的试点调查、例如减少无回答率(如回访拒答者、实施小型的试点调查、培训访员,等等),这样做可能更有效率培训访员,等等),这样做可能更有效率21ppt课件第第22页页SSI4 4总体的变异程度总体的变异程度 调查总体中,我们所研究的项目或指标,对于不调查总体中,我们所研究的项目或指标,对于不同的个人、住
16、户或企业,得到的估计结果可能会有很同的个人、住户或企业,得到的估计结果可能会有很大的不同。虽然我们不能控制这种变异性,但它的大大的不同。虽然我们不能控制这种变异性,但它的大小却影响到了给定精度水平下,研究项目所必需的样小却影响到了给定精度水平下,研究项目所必需的样本容量。本容量。22ppt课件第第23页页SSI我们来看假设有一个首次开展的调查,试图估我们来看假设有一个首次开展的调查,试图估计对某企业提供的服务持满意态度的顾客比例。对计对某企业提供的服务持满意态度的顾客比例。对“顾客满意顾客满意”这一指标,设置两个可能的值:满意这一指标,设置两个可能的值:满意或者不满意。或者不满意。23ppt课
17、件第第24页页SSI表表2列出了持满意和不满意态度的顾客可能占的比例的组合列出了持满意和不满意态度的顾客可能占的比例的组合1100%满意0%满意290%满意10%满意380%满意20%满意470%满意30%满意560%满意40%满意650%满意50%满意740%满意60%满意830%满意70%满意920%满意80%满意1010%满意90%满意110%满意10%满意24ppt课件第第25页页SSI要精确地测量总体中具有高度变异性或不要精确地测量总体中具有高度变异性或不经常出现的特征是很困难的。经常出现的特征是很困难的。要对这样的变量提供精确的估计值,需要要对这样的变量提供精确的估计值,需要较大的
18、样本容量。较大的样本容量。当研究的特征具有最大的变异程度时,调当研究的特征具有最大的变异程度时,调查需要的样本容量也最大。查需要的样本容量也最大。对于只取两个值的特征,则当这两个值在对于只取两个值的特征,则当这两个值在总体中以总体中以5050的比例出现时,特征的变的比例出现时,特征的变异程度最大。异程度最大。总体的变异程度总体的变异程度 25ppt课件第第26页页SSI如果所研究特征的真实变异程度大于确定如果所研究特征的真实变异程度大于确定样本容量时我们估计的变异程度,那么,样本容量时我们估计的变异程度,那么,调查估计值的精度就会低于期望的精度。调查估计值的精度就会低于期望的精度。相反,如果所
19、研究特征的真实变异程度与相反,如果所研究特征的真实变异程度与我们所估计的变异程度相比要小,那么,我们所估计的变异程度相比要小,那么,与调查目标所要求的估计值相比,抽样调与调查目标所要求的估计值相比,抽样调查得到的估计值会更加精确。查得到的估计值会更加精确。26ppt课件第第27页页SSI确保达到调查要求的精度确保达到调查要求的精度对某一特征的总体变异程度进行保守估计对某一特征的总体变异程度进行保守估计如果事先不知道调查中要测量特征变异程度的如果事先不知道调查中要测量特征变异程度的数据,假定研究特征具有最大的变异程度数据,假定研究特征具有最大的变异程度对于只有两个可能取值的变量,应该假设总体对于
20、只有两个可能取值的变量,应该假设总体中该变量的变异程度为两个取值中该变量的变异程度为两个取值5050平分。平分。建议在计算所需样本容量建议在计算所需样本容量27ppt课件第第28页页SSI多个测量的指标多个测量的指标抽样调查时,测量指标(或称项目,特征)抽样调查时,测量指标(或称项目,特征)通常不止一个,有时数目是很大的通常不止一个,有时数目是很大的每个指标的变异程度可能都不相同每个指标的变异程度可能都不相同对某一指标来说足够大的样本,对变异程度对某一指标来说足够大的样本,对变异程度较大的另一个指标来说可能就有些偏小较大的另一个指标来说可能就有些偏小为确保样本容量对所有的研究指标都足够大,为确
21、保样本容量对所有的研究指标都足够大,应该根据具有最大变异程度或被认为最重要应该根据具有最大变异程度或被认为最重要的那个指标,确定样本容量。的那个指标,确定样本容量。28ppt课件第第29页页SSI 5.5.总体的大小总体的大小 总体所起的作用视它规模的大小而有所差异总体所起的作用视它规模的大小而有所差异 小规模总体的大小将起重要作用小规模总体的大小将起重要作用 对于中等规模的总体,其作用中等重要对于中等规模的总体,其作用中等重要 大总体的规模对样本容量确定则不起作用大总体的规模对样本容量确定则不起作用在样本容量确定的过程中在样本容量确定的过程中29ppt课件第第30页页SSI表表3:显示了不同
22、规模的总体在显示了不同规模的总体在P=0.5时,使用简单随机时,使用简单随机抽样,且以误差界限为抽样,且以误差界限为0.05、置信度为、置信度为95%的标准估计的标准估计P所需的样本容量所需的样本容量总体规模所需的样本量5044100805002221,0002865,00037010,000385100,0003981,000,00040010,000,00040030ppt课件第第31页页SSI 对对于于小小规规模模总总体体,通通常常必必须须调调查查较较大大比比例例的的样样本本,以以取取得得所所期期望望的的精精度度。因因此此,实实际际操操作作中中,对对小小规规模模总总体体经经常常采采用用普
23、普查查而而不不是抽样调查。是抽样调查。31ppt课件第第32页页SSI计计算算样样本本容容量量时时,通通常常假假定定采采用用的的抽抽样样方方式式为为简简单单随随机机抽抽样样(SRS)。所所以以,如如果果样样本本容容量量计计算算公公式式假假定定为为简简单单随随机抽样。机抽样。6 6样本设计和估计量样本设计和估计量v分层抽样得到的估计值通常比相同规模的简单随机抽分层抽样得到的估计值通常比相同规模的简单随机抽样更精确,或者至少样更精确,或者至少一样精确。一样精确。v整群抽样得到的估计值,其精度通常低于使用同一估整群抽样得到的估计值,其精度通常低于使用同一估计量进行估计时的简单随机抽样的估计值的精度计
24、量进行估计时的简单随机抽样的估计值的精度32ppt课件第第33页页SSI设计效果因子设计效果因子一般来说,当样本容量的计算公式假定为简单随机抽样一般来说,当样本容量的计算公式假定为简单随机抽样SRS,但使用的是更复杂的选样方式时,达到既定精度所需的样本容量应但使用的是更复杂的选样方式时,达到既定精度所需的样本容量应该乘以该乘以设计效果设计效果因子因子。设计效果设计效果=对于同样规模的样本容量,给定样本设计下对于同样规模的样本容量,给定样本设计下估计量的抽样方差对简单随机抽样估计量的估计量的抽样方差对简单随机抽样估计量的抽样方差的比率。抽样方差的比率。q对于简单随机抽样设计,设计效果对于简单随机
25、抽样设计,设计效果=1q对于分层抽样设计,设计效果对于分层抽样设计,设计效果 1q对于整群抽样设计,设计效果对于整群抽样设计,设计效果 133ppt课件第第34页页SSI 7 7回答率回答率所有的调查都会遇到无回答的困扰即:所有的调查都会遇到无回答的困扰即:由于某些原因,不能获得被抽中样本单位的信息由于某些原因,不能获得被抽中样本单位的信息当一个被调查单位的所有或几乎所有的数据都缺当一个被调查单位的所有或几乎所有的数据都缺失时,我们就称之为完全无回答(或称单位无回答)失时,我们就称之为完全无回答(或称单位无回答)某次调查的回答率是用调查得到的有效问卷数占某次调查的回答率是用调查得到的有效问卷数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 样本 容量 的确 课件
限制150内