《社会统计学(1206).pdf》由会员分享,可在线阅读,更多相关《社会统计学(1206).pdf(19页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、2012-11-111社会统计学社会统计学第六章参数估计第六章参数估计第一节抽样调查一、抽样调查的意义一、抽样调查的意义1、花费少,全面调查无法比拟。第六次人口普查经费近80亿2、迅速获取所需的信息。在许多情况下,争取时效对决策者来说往往更为重要。如果进行全面调查,等到结果出来时总体的情况可能已经发生了变化。即使可以按照全面调查的结果做出决策,也已经不适用了。3、许多研究总体太大,实际上不可能对其实行全面调查;4、总体中有些个别对象难以接触,无法进行全面调查;5、有些试验可能是毁坏性的,不可能进行全面调查。6、科学设计的抽样,不但其样本具有代表性,而且其误差也是可以控制的。认真仔细地实施的抽样
2、调查往往能获取更可靠的数据和更精确的结果。而全面调查往往容易草率,其结果其实不见得可靠。二、抽样调查的特点:1、按照随机原则,即按照概率,从总体中抽选样本;2、根据抽样数据对总体的数量特征做出估计;3、抽样误差可以事先计算并加以控制,而且可以通过增加样本量和改变抽样的组织形式来提高抽样估计的准确性。第二节统计推论统计推论适用于抽样调查资料的处理。统计推论就是根据样本资料对总体的特征进行推断,属于归纳推理的范畴。2012-11-112一、统计推论有两个特点第一,由于样本资料来源于总体,因此样本资料的特征在某种程度上能反映总体的特征。第二,由于社会资料的随机性,即抽样的结果不是惟一的,使得一次抽样
3、结果不能恰好等于总体的结果。更何况当总体参数不知道的情况下,即便碰上了我们也未必知道。这种“抽样结果与总体参数不一致”是随机现象在推论中所特有的,也是进行推论的难点所在。为了正确地处理局部(抽样)和总体之间的数量关系,以便做到正确地从抽样推论到总体,这就构成了统计推论所要介绍的内容。统计推论的理论基础是概率论(大数定理和中心极限定理)。二、统计推论的内容一是通过样本对总体的未知参数进行估计,简称参数估计;二是通过样本对总体的某种假设(例如参数或分布情况)进行检验,简称假设检验。社会调查的全过程贯穿了假设检验的步骤与方法,它归结为对于社会的某特点现象经过抽象层次的观察与研究,建立起一定的看法,进
4、而概括为概念、命题或理论。第三节基本概念1.总体(Population)2.样本(Sample)3.抽样(Sampling)4.抽样单位(Sampling Unit)5.抽样框(Sampling Frame)6.参数值(Parameter)7.统计值(Statistics)总体:构成它的所有元素的集合,而元素则是构成总体的最基本单元。在社会研究中,总体是由社会中的某些人组成的,这些个人便是构成总体的元素。比如:研究某省大学生择业倾向。-总体:该省全部大学生-元素:该省每一位大学生比如:某市居民家庭生活状况。-总体:该市所有居民家庭-元素:该市每一个家庭1、总体2012-11-113样本:从总体
5、中按一定方式抽取的一部分元素的集合。比如:从某省总数为12.8万大学生中,按一定方式抽取1000人进行调查,这1000人构成该总体的一个样本。2、样本抽样:从组成某个总体的所有元素的集合中,按一定的方式选择或抽取一部分元素(即抽取总体的一个子集)的过程。3、抽样抽样单位:一次直接抽样所使用的基本单位。抽样单位可以与元素相同也可以不相同。比如:从某省总数为12.8万大学生中抽取1000人。一次从中抽取1000人,抽样单位(个人)=元素(个人)先抽取40个班,而以这40个班的全部学生(如果恰好是1000)作为样本,则抽样单位(班级)元素(个人)4、抽样单位抽样框:抽样范围,一次直接抽样时总体中所有
6、抽样单位的名单。比如:从一所中学的全体学生中,直接抽取200人作为样本,则该学校全体学生的名单就是样本框。如果是先抽取部分班级,则样本框是全校班级的名单了。5、抽样框参数值:总体值,它是关于总体中某一变量的综合描述,或者说是总体中所有元素的某种特征的综合表现。总体值只能通过对总体每一个元素进行测量才能得到。6、参数值统计值(样本值):样本中某一个变量的综合描述。是从样本中计算出来的。是作为总体值的估计值。7、统计值2012-11-114概率与元素的规模大小成比例的抽样四、抽样误差和非抽样误差样本是总体的一部分,虽然有代表性,但是并不等于总体。因此用样本估计总体肯定会产生误差,这一类误差叫做抽样
7、误差。抽样误差越小,估计量的精度就越高。抽样误差一般用估计量的均方差或方差来表示,抽样误差是可以计算并且加以控制的。抽样误差举例反面案例:1936年美国总统大选的民意测验。文摘杂志寄出1000万张询问投票倾向的明信片,然后依据收回的200万份结果极其自信地预测共和党侯选人兰登将以领先15%的得票率战胜民主党侯选人罗斯福而当选下届总统。然而,选举结果使预测者们大失所望,得胜者是罗斯福,且得票率反超兰登20%!文摘杂志的声誉一扫而光,不久就因此而关门了。抽样误差举例为什么?非随机抽样,有偏,效度低邮件回收率太低20%,有偏,效度低对总体缺乏清楚的认识:抽样框是电话号码薄和汽车登记薄,总体是所有有钱
8、人,而选民并没有经济地位的限制。恰好1933年开始的经济大萧条,许多选民滑落到下等阶层,而民主党更多地代表下等阶层。非抽样误差非抽样误差指的是在抽样调查中由于人为的差错所造成的误差。例如,由于调查方法不当引起的被调查者的反映不真实;由于调查人员工作不认真而造成的登录错误;由于调查实施中的质量控制问题而造成的数据偏高或偏低等等,都是非抽样误差。这类误差是无法测量的,只能通过一定的措施尽量减少它们的出现。比如加强对调查人员的培训、提高调研人员的业务素质、采用正确的方法、明确地提出问题、设计有效度高的问卷等。2012-11-115四、简单随机抽样机样本。得到的样本叫做简单随称为简单随机抽样,所。这种
9、抽样方法被于每种被抽到的概率都等种不同的结果,个单元,使全部可能的一次抽取个抽样单元的总体中,简单随机抽样:从含有nNnNCCnN1社会统计学中介绍的统计推论都是指简单随机抽样而言。一般在无限总体(即总体中个体数是无限的)中的随机抽样或在有限总体(即总体中个体数是有限的)中的重复随机抽样(即每次抽样经观测后将抽到的个体放回,允许再次被抽到,又称回置抽取)所得的样本都是简单随机抽样。在社会抽样调查中,由于个体不会像产品那样源源不断地产生,因此其个数总是有限的,而抽样也不采用回置抽样,因此严格说这样的抽样并不满足简单随机抽样调查。但在研究的规模较大,例如企业、学校、城市乃至全国的情况下,样本容量n
10、比起总体N是很小的:n=样本均值常常用来估计总体均值,那么它接近总体均值的可能性如何?厘米之内的机会是多少在总体均值么样本均值名男子的随机样本,那厘米,如果抽取一个厘米,标准差均身高学的男子身高总体的平例:假定华南地区某大2X100.210169=n个厘米之内。总体均值的,可以认为样本均值在度因此我们有很高的置信化:之间的概率,先做标准厘米厘米与厘米之内,即在的在要求,标准误差期望值其中近似地服从正态分布,解:根据正态近似定理2%9595.0)96.196.1(P)171167(P1.961.02169171SE-XZ1.961.02169167SE-XZ1711672169X02.11002
11、.10SE169X=ZP1213 70=910SE13 1243.2671000-1000-910Z2.08,(=+)43.267P(X76.92)(2.08)1(2.08)10.98120.01882%,2%nnnnnP Z=+=L解法二:由中心极限定理,随机变量和的分布近似服从正态分布,其均值为,标准误差。将标准化因此,即超重的机会不会超过。(二)总体分布为正态分布(二)总体分布为正态分布(,2),),但方差但方差2为未知为未知总体分布为正态分布N(,2),但方差2为未知,则统计量服从自由度k为n-1的t分布。nsx对于抽样分布来说,样本量越大,标准误越小,概率曲线越尖陡。反过来,当样本量
12、很小的时候,标准误就将变得很大,概率曲线就会被拉伸和变得扁平。当样本量小于120的时候,曲线开始变扁平。当样本量小于30的时候,曲线的扁平就会特别明显。由小样本所形成的抽样分布曲线或者标准误是由样本标准差估算而得的抽样分布曲线叫做学生t分布或简称为t分布。t分布曲线近似于标准正态分布,也是对称的,但比标准正态曲线更扁平。2012-11-119当样本量小于120时,样本量越小,t分布曲线越扁平。当样本量大于120时,抽样分布曲线就与标准正态分布曲线非常接近了。t分布曲线的形态由自由度(df=n-1)决定。当样本规模等于或大于121时,z值和t值相等。(三)任意总体、大样本情况在大样本情况下,不管
13、总体是什么分布,的分布将接近正态分布。x二、样本方差s2的分布在总体为正态分布时,样本方差s2乘以满足自由度k=n-1的2分布。21n三、样本比例P的抽样分布这个统计量的分布。究样本比例和可靠度,我们还要研。为了计算估计的精度去估计应比例这时就要用样本中的相等等。拥护不同候选人的比例比例,美国选民总体中孩子”政策的总体中赞成“只生一个比如我国青年育龄夫妇。特性的比例估计总体关于某种来估计),还常常需要(这时可用样本均值体指标的均值但常常需要估计某种总在实际应用中,我们不PPX分布。也就越来越接近于正态波动得越来越小,它的分布围绕其目标的增加,随着波动。比例的标准误差围绕着总体以样本比例,的非常
14、简单随机样本中在容量为比例的正态近似定理:PnnPn)1(2012-11-1110预测的机会是多少?的概率是多少?即错误少数)样本(支持丁老师者占那么,抽取到以上倒霉是一个倒霉的样本。引入歧途,然这样的样本将把我们将报告丁老师失败。显,那么预测的结果,例如是以下的比例支持丁老师有半数意测验;如果样本中只的一个随机样本进行民个选民测当选人,抽取了假定在选举之前为了预而当选。丁老师因选票超过半数投了丁老师的票,最后的选民举,结果有年某学院区人大代表选例:301330%602003=n左右。降至率将,则求得错误预报的概如果加大样本量至不够大,较大,因为样本量显然,错报的可能性比。的机会约为即,错误预
15、报选举结果因此,标准化,先将波动。正态地)(以标准误差,围绕着根据正态近似定理,的概率。小于是的比例,我们要求的表示样本中支持张老师解:如果用%210030%131314.08686.01)12.1(1)12.1Pr()50.0Pr(12.10894.060.050.050.00894.030)60.01(60.0160.0%50=ZPSEPZPnP上述两个例子实际上也都是二项分布的问题,利用二项分布可以得到更精确的答案,但是如果没有更详细的二项分布表,利用公式计算起来将会复杂得多。所以,当n比较大时,我们常常利用正态近似定理来解决类似二项分布问题,并称之为二项分布的正态近似。第五节正态总体的
16、区间估计一、区间估计在进行参数估计时,由于总体真正的参数并不知道,因此无法知道由样本所计算的点估计值到底距离真实值有多少,也就是我们无法知道点估计值的精度如何。2012-11-1111为此我们想到改用一个范围或一个区间来对未知参数进行估计,比如说某村的月平均收入在800-1000元之间,显然这样的估计方法比之说某村的月平均收入是多少元,猜中的可能性要大得多,这就是区间估计。(一)区间估计的涵义区间估计是用一个置信区间来估计总体参数,并有一定把握性来推断总体参数落入这个区间。由于样本估计量存在偏差,所以采用区间估计来估计总体均值通常比采用点估计更可取。对于参数的区间估计,在给出区间估计的同时,还
17、必须指出所给区间包含未知参数的概率是多少。12(x,x,.x)Q,1()=1-,nQQQQP QQQQQ+我们用作为未知参数 的估计值,那么,区间包含参数 之概率为的关系表达式为:其中区间称作置信区间。区间的大小,反应了估计的准确性或精确性。1-称作置信概率、置信度或置信系数。它表示用置信区间估计的可靠性。称显著性水平。它表示用置信区间估计不可靠的概率。置信度与显著性水平之和为1。(二)置信区间与置信度之间的关系(二)置信区间与置信度之间的关系在样本容量一定的情况下,置信区间和在样本容量一定的情况下,置信区间和置信度是相互制约的。置信度愈大,即置信度是相互制约的。置信度愈大,即估计的可靠性愈大
18、,则相应的置信区间估计的可靠性愈大,则相应的置信区间也愈宽,估计得愈不精确。也就是说,也愈宽,估计得愈不精确。也就是说,置信度、置信区间与估计的精确性是成置信度、置信区间与估计的精确性是成反比的。反比的。121112221212(QQQ)=1-QQ(x,x,.x)QQ(x,x,.x)QQQnnP=是未知参数,对于确定总体,它是惟一的。但和是统计量,它是随着样本而变的随机变量。因此,对于不同的样本,区间是会变化的。2012-11-111212Q,Q这样的区间是一个随机区间,对于一次抽样所形成的样本,它的区间估计可能包含待估参数Q,也可能不包含待估的参数Q。包含与否是一个随机事件。而1-正是指出“
19、包含待估参数”这样随机事件的概率是多少。或者等价的是 指出了“不包含待估参数”这样随机事件的概率是多少。122121,(Q)=1-Q QQQPQPQ置信区间可以写作双侧区间也可以写作单侧区间或单侧区间与置信度之间的关系,可以写作或单侧区间和双侧区间所反映的内容是相同的,以下仅就双侧区间进行讨论。12(Q QQ)=1-10.9010.9510.99P=置信区间与置信度的关系表达式反映了区间估计精度和置信度之间的关系。对于置信度,一般是根据实际情况预先给定的。通常置信区间的标准有:10.90n当置信度取时,它表示如果独立重复地抽取很多样本,每次样本容量 保持不变的话,那么,平均而言,每100个样本
20、,其中有90个样本算出的区间估计是包含待估参数Q的。在样本容量一定的情况下,置信区间和置信度是相互制约的。置信度愈大(即估计的可靠性愈大),则相应的置信区间也愈宽(估计的愈不精确)。某班的考试成绩,如果估计区间为0100分,显然,这样的估计永远可靠。因为任何考试的结果,平均成绩都不会超过估计的范围。但从另一方面来说,这样的估计是毫无价值的。因为它的精度几乎为0,因此,必须把区间估计得小一些,这样做的结果,估计的精确程度是提高了,但换取的代价将是估错的可能性增加了,也就是可靠性或者置信度1-下降了。2012-11-1113二、正态总体均值的区间估计二、正态总体均值的区间估计(一)当(一)当2为已
21、知时为已知时(二)当(二)当2为未知时为未知时=+1)(22nzxnzxP=+1)(1,21,2nstxnstxPnn222/2/2/2(,)(0,1)NXNnP Z 如果总体分布满足。的区间估计,根据是否已知,分以下两种统计量进行讨论:(一)为已知根据对抽样分布的讨论,以下统计量满足标准正态分布:Z=对于 的双侧置信区间有(Z)=1-,或P(-ZZZ=1-/2/2/2/2/2/21,+1+1ZXPZZnP XZX ZnnXZX Znn=将统计量 代入上式有即区间,为待估参数、置信度为的双侧置信区间。2(,0.66)X=2.65.9.9例:设某企业女员工从事家务劳动时间服从正态分布N。根据三十
22、六人的随机抽样调查,每天平均从事家务劳动时间为:小时,求 的双侧置信区间(置信度取0 5和0 9两种)/2/2/2/2/2/2/2/2.9/20.025()1 0.0250.9751.96+0.662.44,2.8736(2).9/20.005()1 0.0050.9952.58+ZZXZX ZnnZZXZX Znn=解:(1)1-=0 5,所以代入置信区间公式,得=2.65 1.961-=0 9,所以代入置信区间公式,0.662.37,2.9336=,得=2.652.5822/2(1)Xt nSnP t(二)为未知当总体满足正态分布,但未知的情况,以下统计量满足自由度k=n-1的t分布:T=
23、对于 的双侧置信区间有(t)=1-2012-11-1114/2/2/2/2 +1+1TSSP XtX tnnSSXtX tnn=将统计量 代入上式有即区间,为待估参数、置信度为的双侧置信区间。22(,)25.5.6.9N 例:设某社区受教育程度服从正态分布,未知。根据人的随机抽样调查,平均受教育年限X=11 年,S=3 年,求 的双侧置信区间(1-=0 9)。/2/2/2.992.79692.80+3.69.48,13.5225tSSXtX tnn=解:1-=0,k=25-1=24代入置信区间公式,得=11.52.80例1:要估计某居民区人均日收听广播的时间,已知标准差为15分钟。现随机地抽取
24、25位居民,这25人的平均日收听广播时间为60分钟,求整个居民区平均日收听广播时间的95%置信区间。/260151560 1.96605.8854.12,65.882595%5466()XXZn=解1:已知,n=25,则=即,该居民区的平均日收听广播时间的置信区间为分钟例2:从某大企业中随机抽取5位员工,他们当月的奖金分别为:150元、360元、400元、240元、300元,计算全厂当月平均奖金的95%置信区间。2012-11-11150.025/22.776,29098.9998.992902.776290 122.905167.1,412.9XSSXtn=解2:因为n=5,df=n-1=4
25、,由t分布表得t再由下表求得,将以上各值代入公式,得:=也就是说,全厂当月平均奖金在167元至413元之间。三、正态总体方差的区间估计三、正态总体方差的区间估计11)1()1(22122222=ndfsnsnP第六节 大样本区间估计根据中心极限定理,对于随机变量分布的任何形式,只要n足够大,n个独立同分布的随机变量之和或均值的分布都将近似地服从正态分布。根据中心极限定理,当不知道总体分布的情况下,可以通过增加样本容量的方法,对总体均值进行区间估计。大样本一般指样本容量n30,而在社会科学中可取n50。本节主要内容:本节主要内容:差的区间估计四、大样本二总体成数)的估计体参数三、总体成数(二项总
26、差的区间估计二、大样本二总体均值的区间估计一、大样本总体均值p的区间估计一、大样本总体均值分位点为正态分布双侧区间的为样本容量,体标准差可用样本标准差代替总未知情况下,为总体标准差,当为置信度的点估计值,为总体均值式中:,的区间估计为或置信度为式为大样本均值区间估计公/2/2/2/2/2Z50nnS-1XnZXnZ-X1-1)nZXnZ-X(+=+P。其分布都将是正态分布,或,无论用为已知量,由于样本量)(或要求总体方差为正态分布,其次也不估计公式并不需求总体首先这里的大样本区间实际上是有所不同的。间公式没有区别。但似乎与正态总体均值区样本的均值区间估计,从公式的形式上看,大Sn5022012
27、-11-1116双侧置信区间。的年,求置信度为年,为:标准差及均受教育年限人的抽样调查结果,平根据知道。的总体分布、方差都不例:设某区受教育程度9.90.63.51150=SXSX1.812,9.1109.901.812,9.11050.638.52.51150.638.52.511.51150.638.52Z9.901nZXnZ-X50/2/2/2置信区间为的因此,置信度为,有,置信度,间估计公式:,所以可采用大样本区容量于样本体分布形式未知,但由解:根据题意,虽然总=+=+XnSn差的区间估计二、大样本二总体均值的点估计值。可以作为总体均值差于是样本均值差:,来自第二总体的样本:,来自第一
28、总体的样本:抽取一个随机样本:现从两总体中独立地各;第二个总体的参数为;第一个总体的参数为2121222211222211 XXSXSX布。的分布也将趋向正态分分布的原理,从正态组合的随机变量仍然服根据正态随机变量线性布。的分布都将趋向正态分和值本均体的原分布如何,其样第一个总体和第二个总,则不论容量;来自第二总体的样本容量果来自第一总体的样本样本对的数值变化。如各次也是随机变量。它随着显然样本均值差212121215050XXXXnnXX)(/221)(/221)(/22121)(/22121222121)(21212121212121Z)(Z-)(1-1)Z)(Z-)()(XXXXXXXX
29、XXXXXXXXXXPnnXXE+=+=,的区间估计为:或置信区间为的区间估计公式为差因此大样本二总体均值1212122212()122222121222221122/2()1XXXXnnSSSSZ=+其中为二总体均值差的点估计值。为置信度当和为未知情况下,可用样本方差和代替:;为正态分布双侧区间的分位点。2012-11-1117估计。两地平均成绩差的区间求置信度为名分;分;乙地名分;分;甲地果有:两地做了抽样调查,结,中学毕业生成绩的差别例:为了解甲、乙两地5.9010005050580040520111111=nSXnSX6.119,4.8105.90112.296.1)505520(,1
30、2.296.1)505520(Z)(Z-)(6.91Z5.9012.1210005080040)(/221)(/221/222222121222121)(212121为间估计即两地平均成绩差的区得,代入置信区间公式,解:根据题意,=+=+=+=+=XXXXXXXXXXnSnSnn)的估计体参数三、总体成数(二项总p-1)(,5)1(51,02/2/1=+=PPniiiZPpZPPpPpnnpnPnP的区间估计公式有:因此大样本总体成数分布,的分布可近似看做正态)和(大样本情况下根据中心极限定理,在的均值:)个满足二点分布(可以看做是样本成数分位点。为正态分布双侧区间的代替:未知情况下,可用当为
31、置信度,的点估计值为总体成数其中,的区间估计为:或置信度为2/2/2/)1(11ZPpPpnpppPZPZPPPP=+)。的置信区间(置信度为手机成数有户拥有手机,求该地拥其中户的随机抽查,例:设根据某地5.9060100p96.60,04.505.901100.40.606.91.60100.40.606.91.605.906.915.005.9014.016.010060601002/2/2/5.00)为的置信区间(所以该地拥有手机成数,得,值区间估计公式的代入置信度为,得,又因,;解:已知=+=pZPZPPZPqPmnPP2012-11-1118差的区间估计四、大样本二总体成数12112
32、21212ppnPnPPPpp如果有两个总体,它们都属于定类变量,则通过样本可以对总体间成数差进行点估计和区间估计。设:第一个总体的成数为第二个总体的成数为现从两总体中独立地各抽取一个随机样本:第一总体的样本容量为,样本成数为第二总体的样本容量为,样本成数为于是样本成数差为:可以作为总体间成数差的点估计值。121211112222121212121122()125(1)55(1)5()=(1-)(1-)PPPPn pnpn pnpPPPPE PPppppppnn=+显然,样本成数差也是随机变量,当样本分别满足;和;时,和都将趋向正态分布。因此的分布也将趋向正态分布。121212121212/2
33、1212/2()()12/212/2()()()()11()()PPPPPPPPppP PPZppPPZPPZPPZ+=+因此,大样本二总体成数差的区间估计公式为:或置信度为的区间估计为:,1212121122()1212121122/2()1(1-)(1-)PPPPppppppnnppPPpPpPZ=+其中为二总体成数差的点估计值。为置信度当 和 为未知情况下,可用样本成数 和 代替:;为正态分布双侧区间的分位点。例:甲乙两地各做1000户抽样调查。其中甲地拥有汽车为825户;乙地拥有汽车为760户。求置信度为0.95两地汽车拥有成数差的置信区间。12111 111112222222212112212/212112212/2128257600.8250.760100010005(1)(1)55(1)(1)5(1-)(1-)()(1-)(1-)()PPn pn PnpnPn pn PnpnPppppppPPZnnppppPPZnn=+解:,因为;所以可根据大样本置信区间公式求出,0.03,0.10.950.03,0.1=所以,置信度为的两地拥有汽车成数差区间估计为2012-11-1119
限制150内