《第9章抽样与抽样估计.ppt》由会员分享,可在线阅读,更多相关《第9章抽样与抽样估计.ppt(44页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第9章抽样与抽样估计现在学习的是第1页,共44页一、随机抽样与非随机抽样一、随机抽样与非随机抽样(一)随机抽样又称概率抽样(一)随机抽样又称概率抽样 随机抽样是按随机抽样是按随机原则随机原则从全部研究对象中抽从全部研究对象中抽取样本进行观察,并根据样本的实际数据对总体取样本进行观察,并根据样本的实际数据对总体的的数量特征数量特征作出具有一定作出具有一定可靠程度可靠程度的估计和推的估计和推算算。只抽取部分单位进行调查只抽取部分单位进行调查。1 1 抽样调查中常用的基本概念抽样调查中常用的基本概念现在学习的是第2页,共44页随机抽样最基本的组织方式有:随机抽样最基本的组织方式有:1.1.简单随机抽
2、样简单随机抽样 2.2.分层随机抽样分层随机抽样 3.3.整群抽样整群抽样 4.4.系统抽样系统抽样(二)非随机抽样又称非概率抽样(二)非随机抽样又称非概率抽样 是从研究目的出发,根据调查者的经验是从研究目的出发,根据调查者的经验、判判断或基于方便的原则,从总体中有意识地抽取断或基于方便的原则,从总体中有意识地抽取样本。样本。现在学习的是第3页,共44页二二、重复抽样与不重复抽样、重复抽样与不重复抽样(一)(一)重复抽样:也叫放回抽样。重复抽样:也叫放回抽样。(二)(二)不重复抽样:也叫无放回抽样。不重复抽样:也叫无放回抽样。一个单位可能中选多次一个单位可能中选多次每次抽单位,概率固定,都为每
3、次抽单位,概率固定,都为1/N1/N。一个单位最多中选一次一个单位最多中选一次每次抽单位,概率不同,逐渐增加每次抽单位,概率不同,逐渐增加现在学习的是第4页,共44页三三、总体分布、总体分布 样本分布和抽样分布样本分布和抽样分布(一)总体分布(指总体标志值的分布)总体:总体:也称全及总体。指所要认识的研究对象全体。总体也称全及总体。指所要认识的研究对象全体。总体单位总数用单位总数用“N”“N”表示。表示。针对总体分布的指标称全及指标,也叫总体参数。针对总体分布的指标称全及指标,也叫总体参数。常用的参数有:总体平均数、总体成数常用的参数有:总体平均数、总体成数P P、总体、总体标准差标准差现在学
4、习的是第5页,共44页NXXNii122)(KiiKiiiFFXX1122)(NXXNii12)(KiiKiiiFFXX112)(总体指标的计算公式总体指标的计算公式现在学习的是第6页,共44页样本:样本:也称抽样总体,是抽出的单位组成的整体。也称抽样总体,是抽出的单位组成的整体。样本单位总数用样本单位总数用“n”“n”表示。表示。(二)样本分布 针对样本计算的指标为抽样指标,针对样本计算的指标为抽样指标,也叫统计量也叫统计量(估计量)估计量)。其值随样本的不同而不同,是个随。其值随样本的不同而不同,是个随机变量。机变量。抽样估计就是通过统计量的值去估计参数的值。抽样估计就是通过统计量的值去估
5、计参数的值。常用的统计量有:样本平均数、样本成数常用的统计量有:样本平均数、样本成数p p、样本、样本标准差标准差S S现在学习的是第7页,共44页nxnxxxxn21fxfffffxfxfxxnnn212211ffxffxffxffxinnii2211或样本指标的计算公式样本指标的计算公式样本均值样本均值现在学习的是第8页,共44页nxxs22)(ffxxs22)(nxxs2)(ffxxs2)(ffxxs22)(ffxxs2)(样本方差和标准差的计算公式样本方差和标准差的计算公式现在学习的是第9页,共44页 1N0NNNP1属性总体的全及指标属性总体的全及指标现在学习的是第10页,共44页
6、。n1nnnp1%1P%3p属性总体的样本指标属性总体的样本指标现在学习的是第11页,共44页利用样本统计量对总体某些性利用样本统计量对总体某些性质或数量特征进行推断。质或数量特征进行推断。随机原则随机原则总体参数总体参数统计量统计量推断估计推断估计参数估计参数估计检验检验假设检验假设检验抽样分布抽样分布抽样估计和推断的过程抽样估计和推断的过程现在学习的是第12页,共44页(一)抽样误差(一)抽样误差 抽样抽样误差,是指抽样调查中所产生的误差,是调查误差,是指抽样调查中所产生的误差,是调查得结果与总体真实值之间的差异。按误差来源不同分得结果与总体真实值之间的差异。按误差来源不同分登记性误差和代
7、表性误差两类。登记性误差和代表性误差两类。登登记记误误差差系系统统性性误误差差统统计计误误差差代代表表性性误误差差实实际际误误差差随随机机误误差差抽抽样样平平均均误误差差四四、抽样误差、抽样误差现在学习的是第13页,共44页 1.1.登记性误差,指在调查和汇总过程中由于测登记性误差,指在调查和汇总过程中由于测量、登记、计算等方面的差错或被调查者提供量、登记、计算等方面的差错或被调查者提供虚假资料而造成的误差。它在任何调查中均存虚假资料而造成的误差。它在任何调查中均存在。而且调查范围越大,调查单位越多,产生在。而且调查范围越大,调查单位越多,产生登记性误差的可能性也越大。登记性误差的可能性也越大
8、。2.2.代表性误差,指样本推断总体时,由于样本结代表性误差,指样本推断总体时,由于样本结构与总体结构不一致而产生的误差。又分系统误差构与总体结构不一致而产生的误差。又分系统误差与随机误差两种。与随机误差两种。(一)抽样误差(一)抽样误差现在学习的是第14页,共44页 (2 2)随机误差也叫偶然误差。它是由偶然性随机误差也叫偶然误差。它是由偶然性因素引起的代表性误差。它不可避免,但可计因素引起的代表性误差。它不可避免,但可计算与控制。抽样估计中的抽样误差,就是指这算与控制。抽样估计中的抽样误差,就是指这种随机误差。种随机误差。在计算抽样误差时,常常假设不存在登记性在计算抽样误差时,常常假设不存
9、在登记性误差和系统误差。误差和系统误差。(1 1)系统误差是非随机因素引起的误差,它)系统误差是非随机因素引起的误差,它系统性偏高或偏低,也称偏差。系统性偏高或偏低,也称偏差。(一)抽样误差(一)抽样误差现在学习的是第15页,共44页(二)(二)抽样平均误差抽样平均误差 1.1.抽样误差是指由于抽样的随机性而产生的那一抽样误差是指由于抽样的随机性而产生的那一部分代表性误差(随机性误差),不包括部分代表性误差(随机性误差),不包括 登记性误差登记性误差,也不包括可能发生的偏差。,也不包括可能发生的偏差。主要有两种主要有两种:实际抽样误差实际抽样误差,抽样平均误差。抽样平均误差。(1 1)实际抽样
10、误差:指某一样本指标与总体参)实际抽样误差:指某一样本指标与总体参数之间的离差数之间的离差例例8-2-18-2-1:从从1 1、2 2、3 3中抽中抽2 2个(重复),参数个(重复),参数取总体平均数取总体平均数 (等于(等于2 2),则实际抽样误差),则实际抽样误差如下:如下:X现在学习的是第16页,共44页例例8-2-1样本样本 样本统计量样本统计量实际抽样误差实际抽样误差(-)(1 1、1 1)1 1-1-1(1(1、2 2)1.51.5-0.5-0.5(1 1、3 3)2 20 0(2 2、1 1)1.51.5-0.5-0.5(2 2、2 2)2 20 0(2 2、3 3)2.52.5
11、0.50.5(3 3、1 1)2 20 0(3 3、2 2)2.52.50.50.5(3 3、3 3)3 31 1xxX现在学习的是第17页,共44页 (2)(2)抽样平均误差抽样平均误差 是指所有可能的样本指标与总体指标间的平均差是指所有可能的样本指标与总体指标间的平均差异程度,即样本统计量的标准差,也称抽样分布的异程度,即样本统计量的标准差,也称抽样分布的标准差。标准差。在实际工作中,在实际工作中,抽样实际误差是无法知道的,而抽样实际误差是无法知道的,而抽样平均误差则可以计算。所以,我们在讨论抽样抽样平均误差则可以计算。所以,我们在讨论抽样误差时,误差时,通常指的是通常指的是抽样平均误差。
12、抽样平均误差。计算抽样平均误差,得从抽样分布谈起计算抽样平均误差,得从抽样分布谈起(二)(二)抽样平均误差抽样平均误差现在学习的是第18页,共44页 抽样分布抽样分布:是指样本指标的概率分布是指样本指标的概率分布,由样本指,由样本指标的可能取值与之相应的频数或频率组成标的可能取值与之相应的频数或频率组成。(二)(二)抽样平均误差抽样平均误差 对于抽样分布,可计算其均值和方差等来反映该对于抽样分布,可计算其均值和方差等来反映该分布的中心和离散趋势。分布的中心和离散趋势。均值的抽样平均误差公式:均值的抽样平均误差公式:成数的抽样平均误差公式:成数的抽样平均误差公式:xmxmiix2)1(pmPmi
13、p2)1(M M表示所有可能的样本个数。表示所有可能的样本个数。现在学习的是第19页,共44页影响抽样平均误差的因素影响抽样平均误差的因素 1.1.总体方差或标准差。总体各单位在被研究总体方差或标准差。总体各单位在被研究变量上的差异程度差异越大,误差越大。变量上的差异程度差异越大,误差越大。2.2.样本容量样本容量n n的大小。抽取的单位数越多,误的大小。抽取的单位数越多,误差越小。差越小。3.3.抽样方法。重复抽样的误差大于不重复抽样的误抽样方法。重复抽样的误差大于不重复抽样的误差。差。4.4.抽样组织的方式。抽样组织的方式。当一个总体给定后,总体各单当一个总体给定后,总体各单位在被研究变量
14、上的差异程度也随之确定。所以在选位在被研究变量上的差异程度也随之确定。所以在选定抽样方式和方法后,要缩小抽样平均误差,必须保定抽样方式和方法后,要缩小抽样平均误差,必须保证足够多的样本容量证足够多的样本容量n n。现在学习的是第20页,共44页 又叫又叫抽样绝对误差或最大允许误差。抽样绝对误差或最大允许误差。(三)(三)抽样极限误差抽样极限误差 均值的抽样绝对误差公式:均值的抽样绝对误差公式:成数的抽样绝对误差公式:成数的抽样绝对误差公式:xXx pPp 现在学习的是第21页,共44页 1.1.抽样误差系数抽样误差系数 是以抽样极限误差除以总体均值或成数来定义的,是以抽样极限误差除以总体均值或
15、成数来定义的,分别用分别用 和和r rp p表示。即表示。即(四)(四)抽样误差系数和抽样估计精度抽样误差系数和抽样估计精度 2.2.抽样估计精度抽样估计精度 简称精度。分别用简称精度。分别用 和和 表示抽样平均数和成数表示抽样平均数和成数的精度,则的精度,则XrxxPrppxrxApAxxrA 1pprA 1现在学习的是第22页,共44页 2.2.样本平均数的平均数样本平均数的平均数 等于总体平均数。等于总体平均数。2 2 抽样估计原理抽样估计原理-大数定律及中心极限定理大数定律及中心极限定理一、大数定律及中心极限定理的基本内容一、大数定律及中心极限定理的基本内容 1.1.从正态总体中抽取的
16、样本,无论样本容量从正态总体中抽取的样本,无论样本容量n n的的大小,样本平均数的分布一定是正态的。大小,样本平均数的分布一定是正态的。3.3.样本平均数的方差样本平均数的方差 等于总体方差除以等于总体方差除以n n。nx2XxE)()(xE2x 4.4.如果总体分布未知或是非正态分布,随着样本如果总体分布未知或是非正态分布,随着样本容量容量n n的增大(一般认为的增大(一般认为n30n30就是大样本了),样本就是大样本了),样本平均数的分布趋近于正态分布。平均数的分布趋近于正态分布。现在学习的是第23页,共44页(二)总体均值的区间估计(二)总体均值的区间估计 1.1.总体方差已知时,总体均
17、值在总体方差已知时,总体均值在1-1-的置信度下的置信的置信度下的置信区间为:区间为:xX 3 3 总体平均数和总体成数的估计总体平均数和总体成数的估计一、总体均值的估计一、总体均值的估计(一)总体均值的点估计(一)总体均值的点估计),(2/2/nZxnZxxxtnZ2/式中,式中,现在学习的是第24页,共44页 t t叫概率度。叫概率度。一个概率度对应一个概率保证程度一个概率度对应一个概率保证程度F(t)F(t),同时可通过查正态分布表得到对应的,同时可通过查正态分布表得到对应的t t与与F(t)F(t)。常用常用t t 值及其对应概率值及其对应概率 99.73%99.73%3 3 95.4
18、5%95.45%2 2 68.27%68.27%95%95%1 1 1.96 1.96概率概率F F(t t)概率度(概率度(t t)现在学习的是第25页,共44页 当当n n趋近于无穷大时,趋近于无穷大时,t t分布趋近于正态分布,因分布趋近于正态分布,因此,在实际运用中,当此,在实际运用中,当n30n30时,仍然用正态分布近时,仍然用正态分布近似。似。2.2.总体方差未知时,总体均值的区间估计总体方差未知时,总体均值的区间估计(二)总体均值的区间估计(二)总体均值的区间估计 总体方差未知时,用样本方差代替总体方差,总体均值在总体方差未知时,用样本方差代替总体方差,总体均值在1-1-的置信度
19、下的置信区间为:的置信度下的置信区间为:),()1(2/)1(2/nstxnstxnn的值分布得到的通过查自由度为)1(2/t1-nnt现在学习的是第26页,共44页 例例8-3-28-3-2:某农场进行小麦产量抽样调查,小麦播种总面:某农场进行小麦产量抽样调查,小麦播种总面积为积为1 1万亩,采用不重复简单随机抽样,从中抽选了万亩,采用不重复简单随机抽样,从中抽选了100100亩作亩作为样本进行实割实测,测得样本平均亩产为样本进行实割实测,测得样本平均亩产400400斤,方差斤,方差144144斤斤。以。以95.45%95.45%的可靠性推断小麦平均亩产的区间。的可靠性推断小麦平均亩产的区间
20、。解:解:N=10000 n=100 9545.0,144,4002tFx(1 1)计算抽样平均误差)计算抽样平均误差 斤19.110000100110014412Nnnx实例实例现在学习的是第27页,共44页(2 2)计算抽样极限误差)计算抽样极限误差斤38.219.12xtx(3 3)计算总体平均数的置信区间)计算总体平均数的置信区间上限:上限:斤38.40238.2400 xx下限:下限:斤62.39738.2400 xx即:以即:以95.45%95.45%的可靠性估计该农场小麦平均亩产量在的可靠性估计该农场小麦平均亩产量在397.62397.62斤至斤至402.38402.38斤之间斤
21、之间.实例实例现在学习的是第28页,共44页 例例8-3-4:8-3-4:对一批电子元件进行耐用性能的检查,随机重置对一批电子元件进行耐用性能的检查,随机重置抽样方法选取抽样方法选取100100件作耐用测试,所得结果的分组资料如下件作耐用测试,所得结果的分组资料如下:100100合计合计 18185500550050005000以上以上 5050450045004000500040005000 3030 350035003000400030004000 2 2 2500250030003000以下以下件数(件数(f f)组中值(组中值(x x)耐用时数(小时)耐用时数(小时)试以试以95.45
22、%95.45%的把握程度估计这批产品的平均耐用时数的把握程度估计这批产品的平均耐用时数.实例实例现在学习的是第29页,共44页解解:(1)(1)计算样本平均数和样本标准差计算样本平均数和样本标准差)(73110018)43405500(2)43402500(4340100434000222小时)(小时)ffxxsfxfx实例实例现在学习的是第30页,共44页(2)(2)计算极限误差计算极限误差(小时)小时2.1461.7322%45.95)()(1.73100731tttFnsx(3)(3)估计区间的下限:估计区间的下限:43404340146.2=4193.8146.2=4193.8小时小时
23、;估计区估计区间的上限:间的上限:43404340146.2=4486.2146.2=4486.2小时。所以,这批电子小时。所以,这批电子元件的平均耐用时数在元件的平均耐用时数在4193.84193.8小时至小时至4486.24486.2小时之间,小时之间,可靠程度为可靠程度为95.45%95.45%。区间估计区间估计实例实例现在学习的是第31页,共44页 1.1.重复抽样下重复抽样下p208p208(一)总体成数与样本成数(一)总体成数与样本成数二、总体成数的估计二、总体成数的估计 总体成数:总体成数:NNP1 样本成数:样本成数:nnp1总体成数的标准差:总体成数的标准差:)1(PPP样本
24、成数的标准差:样本成数的标准差:)1(ppsp(二)样本成数(二)样本成数p p的分布特征的分布特征 2.2.不不重复抽样下重复抽样下p208p208)1(ppsp)1)(1(Nnppsp现在学习的是第32页,共44页 1.1.重复抽样下重复抽样下(三)总体成数的估计(三)总体成数的估计pPsZ2/2.2.不不重复抽样下重复抽样下)1(ppsp)1)(1(NnppspPpppp Ppp 现在学习的是第33页,共44页 例例8-3-3 8-3-3:某纱厂某时期内生产了:某纱厂某时期内生产了1010万个单位的纱,按纯随机抽样方式万个单位的纱,按纯随机抽样方式抽取抽取20002000个单位检验,结果
25、合格率为个单位检验,结果合格率为95%95%,试以,试以95%95%的把握程度估计全部纱合的把握程度估计全部纱合格品率的区间。格品率的区间。100000N2000n%95p%51 p 95.0tF96.1tNnnppp11%48.010000020001200005.095.0%94.0%48.096.1ppt区间下限:区间下限:%06.940094.095.0pp区间上限:区间上限:%94.950094.095.0pp解:解:实例实例现在学习的是第34页,共44页 例例8-3-18-3-1:设成人身高的达标值为:设成人身高的达标值为165165厘米。从厘米。从一批成年人中随机抽一批成年人中随
26、机抽7 7人,得身高分别为人,得身高分别为155155、160160、165165、170170、175175、180180、185185(厘米)。(厘米)。要求:以要求:以95.45%95.45%的概率保证度求平均身高的概率保证度求平均身高的置信区间;的置信区间;以以99.73%99.73%的概率保证度求身高达标率的概率保证度求身高达标率的置信区间。的置信区间。实例实例现在学习的是第35页,共44页 解:解:x=170=17010 xn71078.3F F(t t)=95.45%=95.45%,则则t=2t=2xtx56.7278.3所以,所以,(厘米)(厘米)(厘米)(厘米)厘米厘米实例实
27、例)56.7170,56.7170(置信区间:置信区间:即平均身高即平均身高95.45%95.45%的置信区间为的置信区间为(162.44,177.56)(162.44,177.56)现在学习的是第36页,共44页p75%43.71nppp172857.07143.0=17.07%ptp%21.513%07.17所以,所以,F F(t t)=99.73%=99.73%,则则t=3t=3实例实例)21.5143.71,21.5143.71(置信区间:置信区间:即身高达标率即身高达标率99.73%99.73%的置信区间为的置信区间为(20.22%,100%)(20.22%,100%)现在学习的是第
28、37页,共44页4 4 必要的样本容量必要的样本容量一、平均数的样本容量一、平均数的样本容量(一)重复抽样下的样本容量(一)重复抽样下的样本容量(二)不重复抽样下的样本容量(二)不重复抽样下的样本容量2222/nxxznZ得根据22222/2nN1zzxxNNNnNnZ较大时,得在根据现在学习的是第38页,共44页不重复抽样:不重复抽样:n=n=pPP21z2 PPzpNPPzN12212二、二、成数的样本容量成数的样本容量重复抽样下:重复抽样下:n=n=现在学习的是第39页,共44页解:解:xn222z202502222=625=625(户)(户)例例8-3-68-3-6:根据历史资料,某市
29、职工家庭年收入的根据历史资料,某市职工家庭年收入的标准差为标准差为250250元现再次调查收入状况,要求在元现再次调查收入状况,要求在95.45%95.45%的把握度下平均年收入的允许误差不超过的把握度下平均年收入的允许误差不超过2020元,问应抽多少户家庭调查?元,问应抽多少户家庭调查?实例实例现在学习的是第40页,共44页 例例8-3-78-3-7:调查一批零件的合格率,根据过去的:调查一批零件的合格率,根据过去的资料,合格率为资料,合格率为97%97%。如果要求误差不超过。如果要求误差不超过1%1%,把握,把握程度为程度为95%95%,问需抽多少个零件检查?,问需抽多少个零件检查?解:解
30、:pPPtn21201.096.12203.097.0=1118=1118(件)(件)实例实例现在学习的是第41页,共44页影响必要样本容量的因素影响必要样本容量的因素1.1.概率保证程度概率保证程度2.2.总体各单位在被研究标志上的差异程度总体各单位在被研究标志上的差异程度4.4.不同的抽样方法不同的抽样方法5.5.不同的抽样组织方式不同的抽样组织方式 最后,要考虑调查的人力、物力、财力的许最后,要考虑调查的人力、物力、财力的许可情况可情况3.3.允许误差范围允许误差范围现在学习的是第42页,共44页样本容量和样本个数的区别样本容量和样本个数的区别1.1.样本容量:样本容量:一个样本包含的单
31、位数。用一个样本包含的单位数。用 “n”“n”表示。一般要求表示。一般要求 n n 30302.2.样本个数:样本个数:从一个全及总体中可能抽取从一个全及总体中可能抽取的样本数目。的样本数目。现在学习的是第43页,共44页一、判一、判 断断 对对 错错1.1.样本统计量是一个随机变量。(样本统计量是一个随机变量。()2.2.抽样极限误差总是大于抽样平均误差。抽样极限误差总是大于抽样平均误差。()3.3.在抽样推断中,作为推断的总体和和为观察对象的样本都是在抽样推断中,作为推断的总体和和为观察对象的样本都是 确定的、唯一的。确定的、唯一的。()4.4.在其它条件不变的情况下,提高抽样估计的可靠程度,可以提高抽样在其它条件不变的情况下,提高抽样估计的可靠程度,可以提高抽样估计的精确度。估计的精确度。()5.5.在其它条件固定时,重复抽样的抽样误差比不重复抽样的在其它条件固定时,重复抽样的抽样误差比不重复抽样的 抽样误差小。抽样误差小。()6.6.从全部总体单位中按照随机原则抽取部分单位组成样本,只可能组成从全部总体单位中按照随机原则抽取部分单位组成样本,只可能组成一个样本一个样本 。()现在学习的是第44页,共44页
限制150内