统计学原理第五版讲稿.ppt
STAT关于统计学原理第关于统计学原理第五版五版第一页,讲稿共七十二页哦教学重点与难点:教学重点与难点:重点:抽样误差的特点及计算,总体参数的区间重点:抽样误差的特点及计算,总体参数的区间 估计法。估计法。难点:抽样平均误差的涵义与计算、区间难点:抽样平均误差的涵义与计算、区间 估计的原理及过程。估计的原理及过程。第二页,讲稿共七十二页哦教学方式与学时安排教学方式与学时安排内内 容容教学方式教学方式学时学时抽样推断的抽样推断的一般问题一般问题 讲讲 授授2H2H抽样误差抽样误差讲授、讨论讲授、讨论2H2H讲授、讨论讲授、讨论2H2H抽样的组织形式,抽样的组织形式,抽样必要数目的确定抽样必要数目的确定讲授、讨论讲授、讨论2H2H总学时总学时-8H8H思考练习题思考练习题抽样误差的影响因素抽样误差的影响因素样本容量的影响因素样本容量的影响因素第三页,讲稿共七十二页哦概念概念 抽样推断法又称为抽样调查法,简称抽样法抽样推断法又称为抽样调查法,简称抽样法 第四页,讲稿共七十二页哦特点特点 作用作用(见第二章)(见第二章)第五页,讲稿共七十二页哦。第六页,讲稿共七十二页哦 组成全及总体的每一个单位或分子组成全及总体的每一个单位或分子抽样单位,构成样本的每一个单位或分子抽样单位,构成样本的每一个单位或分子 jMjjjNiiFFXXNXX11,或第七页,讲稿共七十二页哦2b、总体方差总体方差 ,总体标准差,总体标准差 jMjjjNiiFFXXNXX122122)()(,或 1N0N设总体容量设总体容量N,具有某种性质,具有某种性质,不具有某种性质不具有某种性质 01NNN第八页,讲稿共七十二页哦NNP1PNNQ10101NNNNQP若品质标志表现为若品质标志表现为“是是”、“非非”两种,称两种,称是非标志是非标志,用,用1表表示示“是是”,用,用0表示表示“非非”,则是非标志可看成,则是非标志可看成(0,1)分布)分布,P是(是(0,1)分布的平均数。)分布的平均数。第九页,讲稿共七十二页哦PNNNNNfXfXP10101第十页,讲稿共七十二页哦PQPQPQQPPQNNNPNPffXXp22010212201)(PQNNPNPP12022)1()0(当当P=1/2时,达最大值时,达最大值412maxP 第十一页,讲稿共七十二页哦miimiiiniiffxxnxx111或样本指标是随机变量,不同样本有不同的样本指标是随机变量,不同样本有不同的样本指标样本指标 第十二页,讲稿共七十二页哦jMjjjNiiffxxsnxxs122122)(,)(或pnnqnnp1,01第十三页,讲稿共七十二页哦抽出抽出个体个体登记登记特征特征放回放回总体总体继续继续抽取抽取第十四页,讲稿共七十二页哦抽出抽出个体个体登记登记特征特征继续继续抽取抽取第十五页,讲稿共七十二页哦nNNNN共共n个个nNP第十六页,讲稿共七十二页哦nNCnnNC1第十七页,讲稿共七十二页哦将总体划分成互不重叠又穷尽的有限多个部分,每个部分将总体划分成互不重叠又穷尽的有限多个部分,每个部分称为抽样单元。称为抽样单元。抽样单元有若干个体组成,当然也可以只包含一个个体抽样单元有若干个体组成,当然也可以只包含一个个体。又叫抽样结构,一份包含所有抽样单元的名单或清册。在抽样又叫抽样结构,一份包含所有抽样单元的名单或清册。在抽样框中,每个抽样单元被编上一个号码。框中,每个抽样单元被编上一个号码。抽样框可以多种形式:除名单或清册外,还可以是一张地图或抽样框可以多种形式:除名单或清册外,还可以是一张地图或其他适当的形式其他适当的形式 第十八页,讲稿共七十二页哦调查结果与总体真实值之差。调查结果与总体真实值之差。抽样调查方式所产生的调查误差抽样调查方式所产生的调查误差调查误差:调查误差:抽样调查误差:抽样调查误差:抽样调查误差抽样调查误差=登记性误差登记性误差+系统性误差系统性误差+(抽样误差)代表性误差用部分推断总体而引用部分推断总体而引起的误差,可控制,起的误差,可控制,不可避免。不可避免。第十九页,讲稿共七十二页哦 一个总体有多个样本,每一个样本与总体之间有一个总体有多个样本,每一个样本与总体之间有一个离差,叫抽样实际误差。一个离差,叫抽样实际误差。例例5.1,设有设有4个工人,其每周工资分别为个工人,其每周工资分别为70,90,130,150元,元,从从4人中随机抽取人中随机抽取2人构成样本:人构成样本:元元,62.31110X可能产生的样本如下:可能产生的样本如下:第二十页,讲稿共七十二页哦重复抽样重复抽样 xxXx 样本变量样本变量样本平均样本平均平均数离差平均数离差1 12 23 34 45 56 67 78 89 9101011111212131314141515161670 7070 7070 9070 9070 13070 13070 15070 15090 7090 7090 9090 9090 13090 13090 15090 150130 70130 70130 90130 90130 130130 130130 150130 150150 70150 70150 90150 90150 130150 130150 150150 1507070808010010011011080809090110110120120100100110110130130140140110110120120140140150150-40-40-30-30-10-100 0-30-30-20-200 01010-10-100 0202030300 0101030304040合计合计176017600 0样本平均数样本平均数的平均数的平均数等于总体等于总体平均数平均数 元)(110161760)(MxxEX抽样实际抽样实际误差误差第二十一页,讲稿共七十二页哦不重复抽样不重复抽样 样本变量样本变量样本平均样本平均平均数离差平均数离差1 12 23 34 45 56 67 78 89 910101111121270 9070 9070 13070 13070 15070 15090 7090 70 90 130 90 13090 15090 150130 70130 70130 90130 90 130 150 130 150150 70150 70150 90150 90150 130 150 130 80 801001001101108080 110 110120120100100110110 140 140110110120120140 140 -30-30-10-100 0-30-30 0 01010-10-100 0 30 300 0101030 30 合计合计1320 0 0)(xEx xx元)(110121320)(MxxEX抽样实际误抽样实际误差差第二十二页,讲稿共七十二页哦用抽样平均数(或成数)的标准差来表示用抽样平均数(或成数)的标准差来表示 令:令:M M为全部样本数,为全部样本数,总体平均数,总体平均数,P总体成数。总体成数。X第二十三页,讲稿共七十二页哦 MiipPpM121 MiixXxM121第二十四页,讲稿共七十二页哦 nnx212NnNnx当总体很大,当总体很大,n很小,可代替不重复抽样很小,可代替不重复抽样 Nnn12当当N远远大于远远大于n时时 NnNnN11第二十五页,讲稿共七十二页哦NXXi22)(总体方差总体方差 1)(22nxxsinxxsi22)(总体方差不知,用样本方差总体方差不知,用样本方差如果如果n很大,也可以用很大,也可以用)代替,代替,分析:分析:2*是总体的差异程度,反映总体特征,其大小与样本是总体的差异程度,反映总体特征,其大小与样本大小无关;大小无关;*不重复抽样误差小于重复抽样误差;不重复抽样误差小于重复抽样误差;)1(1Nnn)1(1Nnn110Nn受样本大小影响,受样本大小影响,n n越大,越大,越小,越小,*第二十六页,讲稿共七十二页哦重复抽样重复抽样 xxXx 样本变量样本变量样本平均样本平均平均数离差平均数离差1 12 23 34 45 56 67 78 89 9101011111212131314141515161670 7070 7070 9070 9070 13070 13070 15070 15090 7090 7090 9090 9090 13090 13090 15090 150130 70130 70130 90130 90130 130130 130130 150130 150150 70150 70150 90150 90150 130150 130150 150150 1507070808010010011011080809090110110120120100100110110130130140140110110120120140140150150-40-40-30-30-10-100 0-30-30-20-200 01010-10-100 0202030300 0101030304040合计合计176017600 0 2)(xEx 离差平方离差平方160016009009001001000 09009004004000 01001001001000 04004009009000 01001009009001600160080008000第二十七页,讲稿共七十二页哦(元)110161760)(MxxEMXxx2)((元)36.22168000(元)36.22262.31nx第二十八页,讲稿共七十二页哦不重复抽样不重复抽样 样本变量样本变量样本平均样本平均平均数离差平均数离差1 12 23 34 45 56 67 78 89 910101111121270 9070 9070 13070 13070 15070 15090 7090 70 90 130 90 13090 15090 150130 70130 70130 90130 90 130 150 130 150150 70150 70150 90150 90150 130 150 130 80 801001001101108080 110 110120120100100110110 140 140110110120120140 140 -30-30-10-100 0-30-30 0 01010-10-100 0 30 300 0101030 30 合计合计1320 0 0)(xEx xx2)(xEx 离差平方离差平方9009001001000 09009000 01001001001000 09009000 010010090090040004000第二十九页,讲稿共七十二页哦(元)110121320)(MxxEMXxx2)((元)26.18124000(元)26.18)1424(21000)1(2NnNnx第三十页,讲稿共七十二页哦 nPPp1NnnPPNnNnPPp1111第三十一页,讲稿共七十二页哦例例5.2 要估计某地区要估计某地区100000名适龄儿童的入学率,名适龄儿童的入学率,随机从这一地区抽取随机从这一地区抽取500名儿童,检查有名儿童,检查有400 名儿童入学,求抽样误差。名儿童入学,求抽样误差。%80500400p%78.15002.08.0)1(nppp)1()1(Nnnppp%78.1)1000005001(5002.08.0或:或:第三十二页,讲稿共七十二页哦耐用时间耐用时间(小时)(小时)全面检测全面检测(件)(件)抽样复测抽样复测(件)(件)3000以下以下3000-40004000-50005000以上以上506009903602305018合计合计2000100第三十三页,讲稿共七十二页哦小时)(433020003605500.502500FXFX55511002000360)43305500(.50)43302500()(222FFXX小时重置抽样:24.741005511002nx小时(不重置抽样:36.72)20001001(100551100)12Nnnx第三十四页,讲稿共七十二页哦%5.972000502000P%56.1100025.0975.0)1(nPPp重置抽样:%52.1)20001001(100025.0975.0)1)1(NnnPPp(不重置抽样:第三十五页,讲稿共七十二页哦n第三十六页,讲稿共七十二页哦设:设:x抽样平均数极限误差抽样平均数极限误差 p抽样成数极限误差抽样成数极限误差 xXxpPp第三十七页,讲稿共七十二页哦xxXxXppPpPxxxXxpppPp或:或:第三十八页,讲稿共七十二页哦 通常以抽样误差通常以抽样误差为尺度来度量抽样极限为尺度来度量抽样极限误差误差的大小,它们的数量关系为:的大小,它们的数量关系为:t txxtppt第三十九页,讲稿共七十二页哦 抽样极限误差与把握程度的大小成正比,但和准确性的要求成反比。抽样极限误差与把握程度的大小成正比,但和准确性的要求成反比。第四十页,讲稿共七十二页哦例例5.4,调查某县的水稻产量调查某县的水稻产量,从,从150个村中抽个村中抽30个个村,若村,若=5公斤,若要求调查结果的把握程度在公斤,若要求调查结果的把握程度在95.45%,则:,则:1052xxt500 x10500 xxX若若公斤,则:公斤,则:公斤公斤 t=2即有即有95.45%的把握:的把握:xxxXx510490 X1050010500X第四十一页,讲稿共七十二页哦pPsxX,第四十二页,讲稿共七十二页哦若,则称为的无偏若,则称为的无偏估计量估计量)(E第四十三页,讲稿共七十二页哦若,则称为比更有效的估计量若,则称为比更有效的估计量2121n第四十四页,讲稿共七十二页哦q 为的无偏、有效、一致估计量;为的无偏、有效、一致估计量;q 为的无偏、有效、一致估计量;为的无偏、有效、一致估计量;q 为的无偏、有效、一致估计量。为的无偏、有效、一致估计量。xX1nSpP第四十五页,讲稿共七十二页哦1、在一定误差范围内,估计出一个可能区间、在一定误差范围内,估计出一个可能区间 xxxXxpppPp2、参数区间估计三要素、参数区间估计三要素 估计值(统计量的值、样本指标值)估计值(统计量的值、样本指标值)抽样误差抽样误差 概率度(置信度)概率度(置信度)xxtppt第四十六页,讲稿共七十二页哦例例5.5,某灯具厂生产日光灯管,某灯具厂生产日光灯管100000只,从中随机抽取只,从中随机抽取500只测定其寿命,分组资料如下:只测定其寿命,分组资料如下:按日光灯耐用时间按日光灯耐用时间分组(小时)分组(小时)组中值组中值x x日光灯只数日光灯只数f f850850以下以下850850950950950950105010501050105011501150115011501250125012501250以上以上80080090090010001000110011001200120013001300505010010015015011011070702020合合 计计500500试根据上述资料,以试根据上述资料,以95.45%的把握程度估计这的把握程度估计这100000只灯只灯管的平均耐用时间。管的平均耐用时间。第四十七页,讲稿共七十二页哦解:解:2%,45.95)(,500,100000ttFnNfxfx(小时)1046500523000ffxxs2)((小时)1345008983160(小时)699.5500134nsx或:或:(小时)979.5)1000005001(50032.17966)1(2Nnnsx第四十八页,讲稿共七十二页哦区间估计:区间估计:xxtxXtx621046621046X10581034 X有有95.45%的把握,的把握,总体平均数落在估计总体平均数落在估计区间内。区间内。置信度为置信度为95.45%的的置信区间。置信区间。第四十九页,讲稿共七十二页哦例例5.6,若灯管寿命低于,若灯管寿命低于850小时以下为不合格品,小时以下为不合格品,假设用不重复抽样抽取样本,试以假设用不重复抽样抽取样本,试以68.27%的把握程度,对这的把握程度,对这批灯管的不合格品率作区间估计。批灯管的不合格品率作区间估计。解:解:1%,27.68)(,50,500,1000001ttFnnN%10500501nnp)1()1(Nnnppp%34.1)1000005001(5009.01.0第五十页,讲稿共七十二页哦区间估计:区间估计:pptpPtp%34.11%10%34.11%10P%34.11%66.8 P置信度为置信度为68.27%的的置信区间。置信区间。第五十一页,讲稿共七十二页哦第五十二页,讲稿共七十二页哦又称又称完全随机抽样完全随机抽样或或纯随机抽样纯随机抽样,适用于均匀总体。,适用于均匀总体。*直接抽选法直接抽选法*抽签法抽签法*随机数码表法随机数码表法 第五十三页,讲稿共七十二页哦优越性优越性*提高样本代表性,提高样本指标对总体指标估计提高样本代表性,提高样本指标对总体指标估计 的准确性。的准确性。*分层抽样不仅可以得到总体指标的估计值,而且分层抽样不仅可以得到总体指标的估计值,而且 可以得到各层子总体指标的估计值。可以得到各层子总体指标的估计值。第五十四页,讲稿共七十二页哦总体总体N样本样本n等额抽取等额抽取等比例抽取等比例抽取最优抽取最优抽取2NkN1N1n2nkn抽取方式抽取方式 等比例分层抽样等比例分层抽样:kkNnNnNnNn2211各组应抽取的样本单位数的计算公式为:各组应抽取的样本单位数的计算公式为:nNNnii 第五十五页,讲稿共七十二页哦抽样误差的计算抽样误差的计算 2i)1(iipp先求出各层的方差先求出各层的方差(或(或)iiiNN22iiiiiiNNpppp)1()1(总体方差总体方差(或(或))1(2Nnnxn2)1()1(Nnnpppnpp)1(或或 或或 iN NNi为各层单位数,为各层单位数,第五十六页,讲稿共七十二页哦分层抽样的抽样平均误差与组间方差无关,分层抽样的抽样平均误差与组间方差无关,取决于组内方差的平均水平。取决于组内方差的平均水平。注意注意 应扩大组间方差,缩小组内方差应扩大组间方差,缩小组内方差 总方差总方差=组内方差组内方差+组间方差组间方差 分层抽样误差小于简单抽样误差分层抽样误差小于简单抽样误差第五十七页,讲稿共七十二页哦(总体单位按某一标志排序)(总体单位按某一标志排序)nNR 无关标志排队等距抽样无关标志排队等距抽样 抽样距离:抽样距离:起点起点RniRiRii)1(,2,第五十八页,讲稿共七十二页哦有关标志排队等距抽样有关标志排队等距抽样 中点等距法中点等距法 对称等距法对称等距法 第五十九页,讲稿共七十二页哦抽样误差的计算抽样误差的计算 2ini22先求出各距离的方差先求出各距离的方差总体方差总体方差)1(2Nnnxn2 或或 第六十页,讲稿共七十二页哦 群的划分群的划分 自然划分:自然划分:家庭,学校,村庄。家庭,学校,村庄。人为划分:人为划分:一打帽子,一箱钉子。一打帽子,一箱钉子。群内单位数可相同,可不同。群内单位数可相同,可不同。第六十一页,讲稿共七十二页哦rxxiRrxxRiR2)2(抽样误差的计算抽样误差的计算 N分为分为R群,每群群,每群M个单位,个单位,N=RM,随机抽取,随机抽取r群。群。RX2R表示群平均数,表示群平均数,表示群的方差表示群的方差)1(2RrrRx注注整群抽样取决于群间方差,与群内方差无关。整群抽样取决于群间方差,与群内方差无关。第六十二页,讲稿共七十二页哦第六十三页,讲稿共七十二页哦一、意义一、意义 1、合理确定抽样必要单位数,可以控制抽样误差。、合理确定抽样必要单位数,可以控制抽样误差。2、合理确定抽样必要单位数,可以在确保样本对总、合理确定抽样必要单位数,可以在确保样本对总 体的代表性的前提下,提高抽样调查的效率及经体的代表性的前提下,提高抽样调查的效率及经 济效益。济效益。二、确定抽样单位数的依据二、确定抽样单位数的依据 (或:影响抽样单位数的依据)(或:影响抽样单位数的依据)1、调查者对一项抽样推断的可靠程度和精确程度调查者对一项抽样推断的可靠程度和精确程度 的要求。的要求。(估计的概率保证程度,极限误差)(估计的概率保证程度,极限误差)第六十四页,讲稿共七十二页哦2、总体各单位的差异程度。总体各单位的差异程度。3、抽样组织形式。抽样组织形式。类型抽样和等距抽样比简单随机抽样需要的抽样单类型抽样和等距抽样比简单随机抽样需要的抽样单 位位数少,单个抽样比整群抽样需要的抽样单位数少数少,单个抽样比整群抽样需要的抽样单位数少 4、抽样方法。抽样方法。不重复抽样比重复抽样需要的抽样单位数少不重复抽样比重复抽样需要的抽样单位数少 5、另外,还要考虑人力、物力和财力的许可情况。另外,还要考虑人力、物力和财力的许可情况。三、计算公式三、计算公式 事先确定极限误差,根据抽样误差公式求事先确定极限误差,根据抽样误差公式求n第六十五页,讲稿共七十二页哦,nttxx22222xxtn,1nPPttpp22211PPPPPPtn第六十六页,讲稿共七十二页哦,12Nnnttxx22222222xxNNtNNtn,11NnnPPttppPPNPNPPPtNPPNtnpp11112222第六十七页,讲稿共七十二页哦第六十八页,讲稿共七十二页哦,2,5,25,10000tNx克克己知袋则在重复抽样条件下:1005252222222xtn袋袋在不重复抽样条件下:10001.99252510000252100002222222222tNNtnx第六十九页,讲稿共七十二页哦第七十页,讲稿共七十二页哦0651.0)93.01(93.01,3,3,5000:2PPtNpp己知件则在重复抽样条件下:65103.00651.0312222pPPtn件件在不重复抽样条件下:577004.5760651.0303.050000651.03500011222222PPtNPPNtnp第七十一页,讲稿共七十二页哦STAT感谢大家观看感谢大家观看第七十二页,讲稿共七十二页哦