抽样技术课后答案15404.docx
第二章习题2.1判断下列抽样方法是否是等概的:(1) 总体编号164,在099中产生随机数r,若r=0或r>64则舍弃重抽。(2) 总体编号1664,在099中产生生随机数r,rr处以64的的余数作为抽抽中的数,若若余数为0则则抽中64.(3) 总体200000210000,从11000中中产生随机数数r。然后用用r+199999作为被被抽选的数。解析:等概抽样样属于概率抽抽样,概率抽抽样具有一些些几个特点:第一,按照照一定的概率率以随机原则则抽取样本。第第二,每个单单元被抽中的的概率是已知知的,或者是是可以计算的的。第三,当当用样本对总总体目标进行行估计时,要要考虑到该样样本被抽中的的概率。 因此此(1)中只只有1644是可能被抽抽中的,故不不是等概的。(22)不是等概概的【原因】(33)是等概的的。2.2抽样理论论和数理统计计中关于样本本均值的定义义和性质有哪哪些不同?解析:抽样理论论和数理统计计中关于样本本均值的定义义和性质的不不同抽样理论概率统计定义性质1. 期望2. 方差 1. 期望 2. 方差 2.3为了合理理调配电力资资源,某市欲欲了解500000户居民民的日用电量量,从中简单单随机抽取了了300户进进行,现得到到其日用电平平均值9.55(千瓦时),206.试估计该市居民用电量的95%置信区间。如果希望相对误差限不超过10%,则样本量至少应为多少?解:由已知可得得,N=500000,nn=300, 该该市居民用电电量的95%置信区间为为=4750000±1.96*413088.19即为(3940035.955,5559964.055)由相对误差公式式10%可得即n862欲使相对误差限限不超过100%,则样本本量至少应为为8622.4某大学110000名名本科生,现现欲估计爱暑暑假期间参加加了各类英语语培训的学生生所占的比例例。随机抽取取了两百名学学生进行调查查,得到P=0.35,是是估计该大学学所有本科生生中暑假参加加培训班的比比例的95%置信区间。解析:由已知得得: 又有有: 该大学所有本科科学生中暑假假参加培训班班的比例955%的置信区区间为:代入数据计算得得:该区间为为0.28843,0.41572.5研究某小小区家庭用于于文化方面(报报刊、电视、网网络、书籍等等)的支出,NN=200,现现抽取一个容容量为20的的样本,调查查结果列于下下表:编号文化支出编号 文化支出1200111502150121603170131804150141305160151006130161807140171008100181809110191701024020120估计该小区平均均的文化支出出,并给出置置信水平955%的置信区区间。解析:由已知得得: 根根据表中数据据计算得: 该小区平均文文化支出的995%置信区区间为:即是是:1322.544 ,156.456故估计该小区平平均的文化支支出=1444.5,置信信水平95%的置信区间间为1322.544 ,156.456。2.6某地区3350个乡为为了获得粮食食总产量的估估计,调查了了50个乡当当年的粮食产产量,得到=1120(吨吨),据此此估计该地区区今年的粮食食总产量,并并给出置信水水平95%的的置信区间。解析:由题意知知:=11220 置置信水平955%的置信区区间为: 代入数据得得:置信水平95%的置信区间间为:10079.8772,11660.87222.7某次关于于1000个个家庭人均住住房面积的调调查中,委托托方要求绝对对误差限为22平方千米,置置信水平955%,现根据据以前的调查查结果,认为为总体方差,是是确定简单随随机抽样所需需的样本量。若若预计有效回回答率为700%,则样本本量最终为多多少?解析:简单随机机抽样所需的的样本量 由由题意知: 代代入并计算得得: 故知:简单随机机抽样所需的的样本量为661,若预计计有效回答率率为70%,则则样本量最终终为872.8某地区对对本地1000家化肥生产产企业的尿素素产量进行调调查,一直去去年的总产量量为21355吨,抽取110个企业调调查今年的产产量,得到,这这些企业去年年的平均产量量为。试估计计今年该地区区化肥总产量量。解析:由题可知知,,则,该地区化肥肥产量均值的的比率估计量量为 该地区区化肥产量总总值Y的比率率估计量为 所以,今年该地地区化肥总产产量的估计值值为24266吨。2.9如果在解解决习题2.5的问题时时可以得到这这些家庭月总总支出,得到到如下表:单位:元编号文化支出总支出编号文化支出总支出120023001115016002150170012160170031702000131802000415015001413014005160170015150160061301400161001200714015001718019008100120018100110091101200191701800101401500201201300全部家庭的总支支出平均为11600元,利利用比估计的的方法估计平平均文化支出出,给出置信信水平95%的置信区间间,并比较比比估计和简单单估计的效率率。解析:由题可知知 又又 故故平均文化支支出的95%的置信区间间为代入数据得(1146.3229±1.96*1.8922) 即为1442.6211,150.0372.10某养牛牛场购进了1120头肉牛牛,购进时平平均体重1000千克。现现从中抽取110头,记录录重量,3个个月后再次测测量,结果如如下:单位:千克编号原重量现重量1951502971553871404120180511017561151857103165810216099215010105170用回归估计法计计算120头头牛现在的平平均重量,计计算其方差的的估计,并和和简单估计的的结果进行比比较。解:由题可知, 故有 所以总体体均值的回归归估计量为 其方方差估计为: =1.097而 = =19.4554显然所以,回归估计计的结果要优优于简单估第三单元习题答答案(仅供参参考)1解:(1)不不合适(2)不合适(3)合适(4)不合适2将800名名同学平均分分成8组,在在每一级中抽抽取一名“幸运星”。3根据表中调调查数据,经经计算,可得得下表:hnhNhWhfhyhNhyhsh21102560.30330.039111.22867.294.42104200.49760.023825.510710302.53101680.19910.0595203360355.6总计30844116937.22Yst=1Nh=13Nhyh=20.1V(yst)=h=1LWh2sh2nh-h=1LWhsh2N =9.76681-0.2962 =9.47719V(yst)=3.07777(2)置信区间间为95%相相对误差为110%,则有有按比例分配的总总量:n=h=1LWhsh2V+NVh=1LWhsh2=185.444071885n1=nW1=56,n2=92,n3=337按内曼分配:nn=(h=1LWhsh2)2V+1Nh=1LWhsh2=1755n1=33,n2=999,n3=434根据调查数数据可知:hWhPh10.180.920.210.93330.140.940.080.86750.160.93360.220.967Pst=h=1LWhPh=0.9244根据各层层权Wh及及抽样比fh的结结果,可得V(Pst)=1N2h=14Nh2(1-fh)pnqnnh-1=0.00003966981V(Pst)=1.99%估计量的标准差差为1.999%,比例为为9.24%按比例分配:nn=26633n1=479,n2=5559,n3=3373,n4=2240,n5=4426,n6=5586内曼分配:n=2565n1=536,n2=5520,n3=4417,n4=3304,n5=3396,n6=33925解:由题意意,有Y=h=1LyWn=75.799购买冷冻食品的的平均支出为为75.799元又由V(y)=1-fnh=1LWhsh2+1n2h=1L(1-Wh)sh2又n=h=1Lnh/WhV(y)=53.8086V(y)=7.3354495%的置信区区间为600.63,990.95。7解:(1)对对(2)错(3)错(4)错(5)对8解:(1)差差错率的估计计值y=143×70%+257×300%=0.0027估计的方差v(y)=h=1LWh21-fhnhsh2=3.1967×10-4标准差为S(y)=0.01179。(2)用事后分分层的公式计计算差错率为为y=h=1LWh(1mhi=1mhyhi)=0.033估计的方差为;v(y)=hWh2Sh2mh-1NhWhSh2=2.57226×10-49解:(1)所所有可能的样样本为:第一层第二层x1y1x2y23,50,38,156,93,100,68,256,155,103,615,259,15(2)用分别比比估计,有r1=0.4,r2=0.65,所所以用分别比比估计可计算算得Y=6.44。用联合比估计,有有r1=0.5,r2=0.6255,所以用联联合比估计可可计算得Y=66.5。第四章习题4.1 邮局欲估计每个个家庭的平均均订报份数,该该辖区共有44000户,划划分为4000个群,每群群10户,现现随机抽取44个群,取得得资料如下表表所示:群各户订报数11,2,1,33,3,2,11,4,1,111921,3,2,22,3,1,44,1,1,222032,1,1,11,1,3,22,1,3,111641,1,3,22,1,5,11,2,3,1120试估计平均每户户家庭订报份份数及总的订订报份数,以以及估计量的的方差。解:由题意得到到,故(份)(份)(份)于是由以上的计计算结果得到到平均每户的的订报份数为为1.8755,估计量方方差为0.0003918875。该辖辖区总的订阅阅份数为75500,估计计量方差为662700。4.2 某工业系统准备备实行一项改改革措施。该该系统共有887个单位,现现采用整群抽抽样,用简单单随机抽样抽抽取15个单单位做样本,征征求入选单位位中每个工人人对政策改革革措施的意见见,结果如下下:单位总人数赞成人数1514226253349404734551016364831765388493097354106145115851125229136546144937155542(1) 估计该系统同意意这一改革人人数的比例,并并计算估计标标准误差。(2) 在调查的基础上上对方案作了了修改,拟再再一次征求意意见,要求估估计比例的允允许误差不超超过8%,则则应抽取多少少个单位做样样本?解:题目已知,1)由已知估计计同意改革的的比例此估计量的标准准差为4.3 某集团的财务处处共有48个个抽屉,里面面装有各种费费用支出的票票据。财务人人员欲估计办办公费用支出出的数额,随随机抽取了其其中的10个个抽屉,经过过清点,整理理出办公费用用的票据,得得到下表资料料:抽屉编号票据数费用额(,百元元)1428322762338454631125729661258724758145893267104180要求以95%的的置信度估计计该集团办公公费用总支出出额度置信区区间(=0.05)。解:已知N=448, n=10, ff=, 由题题意得,则办公费用的总总支出的估计计为(元)群总和均值(元元)= 182.443590.4= 727655.44=269.75507则的置信度为995%的置信信区间为35532.811.962669.75007,即33004.0089,40061.5111.4.4 为了便于管理,将将某林区划分分为386个个小区域。现现采用简单随随机抽样方法法,从中抽出出20个小区区域,测量树树的高度,得得到如下资料料:区域编号数目株数平均高度(尺)区域编号数目株数平均高度(尺)1426.211606.32515.812526.73496.713615.94554.914496.15475.215576.0 6586.916634.97434.317455.38595.218466.79485.719626.110416.120587.0 估计整个林区树树的平均高度度及95%的的置信区间。解:由已知得,整体的平均高度度方差估计值标准方差在置信度95%下,该林区区的树木的平平均高度的置置信区间为4.5 某高校学生会欲欲对全校女生生拍摄过个人人艺术照的比比例进行调查查。全校共有有女生宿舍2200间,每每间6人。学学生会的同学学运用两阶段段抽样法设计计了抽样方案案,从2000间宿舍中抽抽取了10间间样本宿舍,在在每间样本宿宿舍中抽取33位同学进行行访问,两个个阶段的抽样样都是简单随随机抽样,调调查结果如下下表:样本宿舍拍照人数样本宿舍拍照人数126120703181429151100试估计拍摄过个个人艺术照的的女生比例,并并给出估计的的标准差。解:题目已知,在置信度95%下,p的置置信区间为=4.6 上题中,学生会会对女生勤工工助学月收入入的一项调查查中,根据以以往同类问题题的调查,宿宿舍间的标准准差为=3226元,宿舍舍内同学之间间的标准差为为=188元元。以一位同同学进行调查查来计算,调调查每个宿舍舍的时间为11分钟,为了了调查需要做做各方面的准准备及数据计计算等工作,所所花费的时间间为是4小时时,如果总时时间控制在88小时以内,则则最优的样本本宿舍和样本本学生是多少少?解:由已知条件件得到以下信信息:(元)(元)(分分钟)(分钟钟)(分钟)由此得到,因而取最优的,进进一步计算由于总时间的限限制,由关系系式得到计算方程得到,因因而取则最优的样本宿宿舍数为200间,最优样样本学生数为为2。4.7 某居委会欲了解解居民健身活活动情况,如如果一直该居居委会有5000名居民,居居住在10个个单元中。现现先抽取4个个单元,然后后再样本单元元中分别抽出出若干居民,两两个阶段的抽抽样都是简单单随机抽样,调调查了样本居居民每天用于于健身锻炼的的时间结果如如下(以100分钟为1个个单位):单元居民人数样本量健身锻炼时间13244,2,3,6624552,2,4,33,633643,2,5,8845464,3,6,22,4,6试估计居民平均均每天用于锻锻炼的时间,并并给出估计的的标准差。(1) 简单估计量(2) 比率估计量(3) 对两种估计方法法及结果进行行评价。解:(1)简单单估计 = =16550,则, 又,所以分别计算所以,所以标准差(2) 比率估估计其中(3)简单估计计标准差,比比率估计标准准差比率估计更好第五章不等概抽抽样习题答案案5.1解: 分析题目目可知“代码法”与“拉希里法”都是PPSS抽样(放回回的与规模大大小成比例的的不等概抽样样)的实施方方法,而此题题需要用此两两种方法进行行不放回抽样样,故需进一一步进行改进进:即采用重重抽法抽取,如如果抽到重复复单元,则放放弃此样本单单元,重新抽抽取,直到抽抽到规定的样样本量且所有有样本党员不不重复:(1) 代码法:由=可可假设=100000000,则M=M列成数据表表为:PSUM累计M代码1110110111021855618666111186666362999816651866788166547821615988181666115988115752452351261599822351226673983309109235127309100977658038568930911038568898389814246703856904246770940772465442424671465444210228764883184654434883118113721492039488319492033912249715170104920405170110134065455766451701155766641414804572468557665572466815557757804557246957804451670784648829578046648822917696357184646488307184664183465075311471846575311141969492822606753115822600620365908592968226078592996213385389304985929789304492216959910008893050910000823906691907491000991907742421795940869919075940866925591851000054494087010000054我们看到抽取的的范围比较大大,所以我们们利用计算机机中的随机数数表来抽取,第第一个随机数数为4447703, 66154322, 7911937, 9211813 , 7382207, 1766266, 4057706 9354770, 9116904, 578911按照范围我我们可以知道道抽取的PSSU9, PSU116, PPSU19, PSUU24, PSU118, PPSU2, PSU88 PSUU24 PSU233 PPSU2,我我们看到第22组和24组组重复抽取了了,故进行重重新抽取,抽抽到4组和66组;综上所述,抽取取的样本为22,4,6,88,9,166,18,119,23,224组(2)拉希里法法:M=788216,NN=25,在在1, 25和1, 778216中分别产生生(n,m): (13,338678),MM=406554386778,入样; (8, 577644),M=338981<<577644,舍弃,重重抽; (23,113365),MM=90666<133665,舍弃,重重抽; (19,338734),MM=694992387334,入样;以此类推,当得得到重复入样样情况时,同同上重新抽取取,得到抽取取结果为:2,3,5,66,7,122 ,13,116, 199,24组5.2解:由数据可得:t=20, t,t=38, t=24, t=21; 结合t值数据,我我们可以推得得Z的值Z=,Z=0.16,Z=0.32,ZZ=0.2,ZZ=0.122,由公式样本1,20.27376691,30.21740051,40.28307791,50.24382262,30.16625512,40.21314422,50.24382263,40.60390033,50.5354664,50.24382265.3 解:设:=1,则有有:,得到下下表:i累计代码10.104104104110420.192192296105296630.138138434297434440.06262496435496650.05252548497548860.147147695549695570.08989784696784480.03838822785822290.057578798238799100.12112110008801000011000先在1,10000中产产生第一个随随机数为7331,再在1,1000里面产生第第二个随机数数为103,最后后在1,11000中中产生第三个个随机数为9982,则它它们所对应的的第7、1、10号单元被被抽中。5.4 解: 利利用汉森-赫维茨估计计量对总体总总值进行估计计: =203118.85.5解:由题题可知=2+9+3+2+1+66=23 由得下表:i指标值包含概率120.17390.087290.78260.3913330.26090.1304420.17390.087510.0870.0435660.52170.2609由上表显然有1/2,于是是我们可以采采用布鲁尔方方法:经计算可得下表表:样本1,20.00681,30.01531,40.00971,50.00461,60.03972,30.16072,40.10462,50.05122,60.36133,40.01533,50.00743,60.0624,50.00464,60.03975,60.0191附注:(1) (2)样本1,20.03401.26131,30.01330.21741,40.00760.1741,50.00380.13051,60.02270.34792,30.0510.52172,40.0340.47832,50.0170.43482,60.10210.65223,40.01130.21743,50.00570.17393,60.0340.39134,50.00380.13054,60.02270.34795,60.01130.3044验证: 另外:代入数据,经计计算得到:5.6 解:i11071.432951.83531.6742125422平均63.61.78由题可计算出:(1)i11050101.43294591.8352551.67421022542042 =11.5所以有:=100.06255(2)由定义有: 所以得到下表:i15.14825.741.4326.4832.41.836.01230.061.6747.236257.2362 所以有下表: i1129651.844.61.4321846.873.8725.71.831717.268.6885.31.6742041.281.6486.3252041.281.6486.32(3)结合题目已知条条件,我们选选择的包含概概率与成正比比: (第i项被选中)i17/181025.718.4925/18932.45.7633/18530041/182363652/1843636254.71由以上计算结果果可以看出:,比估计在在样本量很小小的情况下即即使是最小的的方差也远比比另外两种估估计的方差大大,而简单估估计又比PPPS汉森-赫维茨估计计略好。5.7 解解:已知 nn=2 m=5 设公司总总人数为 由于于这个样本是是自加权的,所所以有: (分分钟) (分分钟) 所以以该公司职工工上班交通平平均所需时间间为34分钟。 (分分钟)5.8 说明明:解:由题可知:(吨)所以,全集团季季度总运量为为4952999.4吨.的一个无偏估计计为:因为 =2.3306 所以以 =224997.8所以置信度955%的置信区区间为4772894.6 , 55178900.2 第6章第2题证明:将总体体平方和按照照全部可能的的系统样本进进行分解,可可以得到 + + + 根据的定定义,且,有有 令 则有证明:在样本本量相同的情情况下 立即可可得到当且仅仅当时,系统统抽样优于简简单随机抽样样。第3题解:,k取最最接近于5.7而不大于于5.7的整整数5,则将将该班同学编编号1400,随机起点点r=5,则则该样本单元元序号为5,110,15,220,25,330,35。,。 Sethii对称系统抽抽样:,入样样单元为:55,6,100,16,115,26,220 Singhh对称系统抽抽样:由于为为奇数,则从从两个断点开开始分层,最最后中间的半半层取中间位位置的单元,入样单元为:5,31,10,26,15,21,18第4题解:由题,N=360,kk=8,则nn=N/k=45取,,则可能样本如下下表:jr145样本均值样本内方差1000011000000110000000000000000000000000000000011111000.15560.13432000000001001111010000010001000000000000000001111111000.28890.21013000000000001111100000000000000000000000000001111111000.22220.17684000111000100110100000010000000000000000000001110000000.22220.17685000011000101111100000000000000000000000000000111111000.26670.20006000010000001110100000000000000000000000000001111001000.20000.16367000111110000000000000000000000001000000000001111110000.22220.17688000110110000000000000000000000001000000000111111110000.22220.1768由上表可得:总体均值总体方差平均样本内方差差则:运用简单随机抽抽样:n=445,显然:,说明等等距样本的精精确度较简单单随机样本的的精确度要高高。第5题答:欲估计汉汉族所占比例例,选择第种系统抽样样的方法好。按按照题给条件件排序,在户户口册中每55人中抽1人人,且平均每每户有5口人人,分布较均均匀,且如此此抽样,每户户人家基本均均有1人入样样。 男性性所占比例与与孩子所占比比例。采用简简单随机抽样样的方法较合合适,因为按按题条件排序序后,采用等等距抽样,若若抽得初始单单元为1,则则男生比例为为1,孩子比比例为0,如如此,则有较较大误差。第6题解:取Y=则总体比例P的的简单估计量量为=P=,即对对总体比例的的估计可化成成对总体均值值的估计。 估计男性所占比比例:则,取取Y=由题意,系统抽抽样 K=55,n=100,则所有可可能样本如下下表:12345678910群平均群内方差S111100100010.50.2778200011011100.50.2778300100001000.20.1778411010010010.50.2778500111111100.70.2334总体均值总体方差S,平均群内方差以行为“系统样样本”的系统抽样样:k=5,n=10简单随机抽样:n=10,ff=20%=0.2,说明简单随机机抽样精度较较高。 估计孩子所占比比例:取Y=由题意,系统抽抽样:k=55,n=100,则所有可可能样本如下下表:12345678910群平均群内方差S100001000100.20.1778200000011000.20.1778311100110010.60.2667411111110100.80.1778511011001100.60.2667总体均值总体方差S平均群内方差以行为“系统样样本”的系统抽样样:k=5,n=10简单随机抽样:n=10,ff=20%=0.2,说明简单随机机