抽样推断 (2)课件.ppt
关于抽样推断(2)第1页,此课件共48页哦第一节 抽样推断概述n一、抽样基本知识一、抽样基本知识n (一)全及总体和样本总体(一)全及总体和样本总体n1、全及总体和总体指标全及总体和总体指标n全全及及总总体体。简称总体(Population),是指所要研究的对象的全体,它是由所研究范围内具有某种共同性质的全部单位所组成的集合体。总体单位总数用N表示。(举例)n总总体体指指标标(参数)。在抽样估计中,用来反映总体数量特征的指标称为总体指标,也叫总体参数。研究目的一经确定,总体也唯一地确定了,所以总体指标的数值是客观存在的、确定的,但又是未知的,需要用样本资料去估计。第2页,此课件共48页哦n通常所要估计的总体指标有:通常所要估计的总体指标有:n 变量总体:变量总体:属性总体:属性总体:n总体平均数总体平均数 (或记为或记为)总体比例(成数)总体比例(成数)P Pn总体标准差总体标准差或方差或方差 总体比例标准差总体比例标准差P P或方差或方差P P n总体标志总量总体标志总量 (N )(N )总体中具有某一属性的单位总数总体中具有某一属性的单位总数 (NP)(NP)等。等。第3页,此课件共48页哦n2 2、样本总体和样本指标、样本总体和样本指标n 样样本本总总体体。简简称称样样本本(SampleSample),它它是是从从总总体体中中抽抽取取的的部部分总体单位的集合体分总体单位的集合体 。n 样样本本容容量量:样样本本中中所所包包含含的的个个体体的的数数量量,一一般般用用n n表表示示。在在实实际际工工作作中中,人人们们通通常常把把n30n30的的样样本本称称为为大大样样本本,而而把把n30n30的样本称为小样本的样本称为小样本。n 对对于于某某一一既既定定的的总总体体,由由于于抽抽样样的的方方式式方方法法不不同同,样样本本容容量量也可大可小,因而,也可大可小,因而,样本是不确定的、而是可变的样本是不确定的、而是可变的。n 样样本本指指标标(统统计计量量)。在在抽抽样样估估计计中中,用用来来反反映映样样本本总总体体数数量量特特征征的的指指标标称称为为样样本本指指标标,也也称称为为样样本本统统计计量量或或估估计计量量,是是根根据据样样本本资资料料计计算算的的、用用以以估估计计或或推推断断相相应应总总体体指指标标的的综合指标。综合指标。n 第4页,此课件共48页哦n常见的样本统计量有:常见的样本统计量有:n 变量总体:变量总体:属性总体:属性总体:n样本平均数样本平均数 样本比例(也称样本成数)样本比例(也称样本成数)p pn样本标准差样本标准差S S 或样本方差或样本方差S S 样本比例标准差样本比例标准差p p或方差或方差p p n n样本统计量样本统计量不含未知参数不含未知参数,它是随样本不同而不同的随机变量。,它是随样本不同而不同的随机变量。第5页,此课件共48页哦n(二)关于抽样方法(二)关于抽样方法 n 在实际应用中,抽样方法主要有两种,即概率抽样和非概率抽样。在实际应用中,抽样方法主要有两种,即概率抽样和非概率抽样。n 1 1、概概率率抽抽样样也也叫叫随随机机抽抽样样,是是指指按按随随机机原原则则抽抽取取样样本本。所所谓谓随随机机原原则则,就就是是排排除除主主观观意意识识的的干干扰扰,使使总总体体的的每每一一个个单单位位都都有有一一定定的的概概率率被被抽抽选选为为样样本本单单位位,每每个个单单位位能能否否入入选选是是随随机机的的。概概率率抽抽样样最最基基本本的的组组织织形形式式有有:简简单单随随机机抽抽样样、分分层层抽样、等距抽样和整群抽样。抽样、等距抽样和整群抽样。n 特特点点:概概率率抽抽样样能能有有效效地地避避免免主主观观选选样样带带来来的的倾倾向向性性误误差差(系系统统偏偏差差),使使得得抽抽样样估估计计和和推推断断得得以以建建立立在在概概率率论论和和数数理理统统计计的的科科学学理理论论之之上上。从从而而使使样样本本资资料料一一方方面面能能够够用用于于估估计计和和推推断断总总体体的的数数量量特特征征;另另一一方方面面可可以以计计算算和和控控制抽样误差,说明估计的可靠程度。制抽样误差,说明估计的可靠程度。n 作用作用:n(1 1)在不可能或不必要进行全面调查时,常常利用概率抽样来推断总体;)在不可能或不必要进行全面调查时,常常利用概率抽样来推断总体;n(2 2)利用概率抽样修正或补充全面调查的不足。)利用概率抽样修正或补充全面调查的不足。n 统计上所指的抽样一般都是指概率抽样统计上所指的抽样一般都是指概率抽样。第6页,此课件共48页哦n 2 2、非非概概率率抽抽样样也也叫叫非非随随机机抽抽样样,是是指指从从研研究究目目的的出出发发,根根据调查者的经验或判断,从总体中据调查者的经验或判断,从总体中有意识地有意识地抽取若干单位构成样本。抽取若干单位构成样本。n 重重点点调调查查、典典型型调调查查、配配额额抽抽样样(是是按按照照一一定定标标准准或或一一定定条条件件分分配配样样本本单单位位数数量量,然然后后由由调调查查者者在在规规定定的的数数额额内内主主观观地地抽抽取取样样本本)、方方便便抽抽样样(指指调调查查者者按按其其方方便便任任意意选选取取样样本本。如如商商场场柜柜台台售售货货员员拿拿着着厂厂家家的的调调查查表表对对顾顾客客的的调调查查)等等就属于非随机抽样。就属于非随机抽样。n 非非随随机机抽抽样样容容易易产产生生倾倾向向性性误误差差,并并且且误误差差不不能能计计算算和和控控制制 ,也就无法说明调查结果的可靠程度。,也就无法说明调查结果的可靠程度。第7页,此课件共48页哦n3 3、重复抽样和不重复抽样、重复抽样和不重复抽样n 在概率抽样的条件下,样本单位的抽选方法有重复和不重复两种。在概率抽样的条件下,样本单位的抽选方法有重复和不重复两种。n 重重复复抽抽样样,又又称称回回置置抽抽样样,是是指指从从总总体体的的N N个个单单位位中中,每每次次抽抽取取一一个个单单位位后后,再再将将其其放放回回总总体体中中参参加加下下一一次次抽抽选选,这这样样连连续续抽抽n n次次,即即得得到到一一个个样样本本。其其特特点点是是:样样本本是是由由n n次次相相互互独独立立的的连连续续试试验验构构成成的的,每每次次试试验验是是在在完完全全相相同同的的条条件件下下进进行行,每每个个单单位位中中选选的的机机会会在在各各次次都都完完全全相相等等。“重重抽抽”(考考虑虑顺序)可能的样本数目(从总体中可能抽取的样本个数,用顺序)可能的样本数目(从总体中可能抽取的样本个数,用M M表示)为:表示)为:N Nn n个。个。n 不重复抽样不重复抽样,也叫不回置抽样,是指抽中的单位不再放回总体中,也叫不回置抽样,是指抽中的单位不再放回总体中,下一个样本单位只能从余下的总体单位中抽取。其特点是:样本由下一个样本单位只能从余下的总体单位中抽取。其特点是:样本由n n次连续次连续抽取抽取的结果构成,实际上等于一次同时从总体中抽取的结果构成,实际上等于一次同时从总体中抽取n n个样本单位。个样本单位。n 可能的可能的样样本数目(考本数目(考虑顺虑顺序):序):N(N-1)(N-2)N(N-1)(N-2)(N-n+1)(N-n+1)个。个。第8页,此课件共48页哦n 举举例例:设设有有4 4名名学学生生的的月月消消费费支支出出分分别别为为:240240,280280,360360,400400元元。我我们们分别用分别用A A、B B、C C、D D替代。若从中抽取两个单位构成样本,则全部可能的样本数目为:替代。若从中抽取两个单位构成样本,则全部可能的样本数目为:n重复:重复:4 42 2=16=16个。它们是个。它们是 n AA AB AC AD;BA BB BC BD AA AB AC AD;BA BB BC BD n CA CB CC CD;DA DB DC DD CA CB CC CD;DA DB DC DDn不重复:不重复:43=1243=12。它们是。它们是 n AB AC AD;BA BC BDAB AC AD;BA BC BDn CA CB CD;DA DB DC CA CB CD;DA DB DC n 第9页,此课件共48页哦n(三)抽样框(略)三)抽样框(略)n n调调查查目目的的确确定定之之后后,抽抽样样总总体体(目目标标总总体体)也也就就随随之之确确定定了了。但但实实际际进进行行抽抽样样的的总总体体范范围围与与目目标标总总体体有有时时是是不不一一致致的的。所所以以,有有了了目目标标总总体体,还还必必须须明明确确实实际际进进行行抽抽样样的的总总体体范范围围和和抽抽样样单单位位,这这就就需需要要编编制制一一个个抽抽样样框框。抽抽样样框框是是包包括括全全部部抽抽样样单单位位的的名名单单框框架架。编编制制抽抽样样框框是是实实施施抽抽样样的的基基础础。抽抽样样框框的的好好坏坏通通常常会会直直接接影影响响到到抽抽样样调调查查的的随随机机性性和和调调查查效效果。果。第10页,此课件共48页哦 (四)抽样误差(四)抽样误差n n 统统计计调调查查误误差差,是是指指调调查查所所得得结结果果与与总总体体真真实实数数值值之之间间的的差差异异。在在抽抽样样调调查查中中,误误差差的的来来源源有有两两大大类类:登登记记性性误误差差和和代代表性误差。表性误差。n 登记性误差登记性误差。是任何一种统计调查都可能产生。是任何一种统计调查都可能产生。n 代代表表性性误误差差(1)(1)系系统统性性误误差差:是是由由于于非非随随机机因因素素引引起起的的 样样本本代代表表性性不不足足而而产产生生的的误误差差,表表现现为为样样本本估估计计量量的的值值系系统统性性偏偏高高或或偏偏低低,故也称偏差;故也称偏差;n (2)(2)随机误差随机误差:又称偶然性误差,是指:又称偶然性误差,是指遵循随机遵循随机原则抽样,但由于样本各单位的结构不足以代表总体各单位的原则抽样,但由于样本各单位的结构不足以代表总体各单位的结构而引起的样本估计量与总体参数之间的误差结构而引起的样本估计量与总体参数之间的误差。这就是抽样。这就是抽样估计中所谓的抽样误差估计中所谓的抽样误差 。第11页,此课件共48页哦n实际应用中,三个有密切联系而又相互区别的抽样误差的概念实际应用中,三个有密切联系而又相互区别的抽样误差的概念n 实际抽样误差实际抽样误差n 抽样平均误差抽样平均误差n 抽样极限误差。抽样极限误差。n1 1、实际抽样误差、实际抽样误差 n2 2、抽样平均误差(抽样标准误抽样平均误差(抽样标准误)n 抽抽样样平平均均误误差差是是反反映映抽抽样样误误差差一一般般水水平平的的指指标标(因因为为抽抽样样误误差差是是一一个个随随机机变变量量,它它的的数数值值随随着着可可能能抽抽取取的的样样本本不不同同而而或或大大或或小小,为为了了总总的的衡衡量量样样本本代代表表性性的的高高低低,就就需需要要计计算算抽抽样样误误差差的的一一般般水水平平)。通通常常用用样样本本估估计计量量的的标标准准差差来来反反映映所所有有可能样本估计值与其中心值的平均离散程度。可能样本估计值与其中心值的平均离散程度。n 第12页,此课件共48页哦n抽样平均误差可衡量样本对总体的代表抽样平均误差可衡量样本对总体的代表性大小。即性大小。即抽样平均误越小,则样本估计量抽样平均误越小,则样本估计量的分布就越集中在总体参数的附近,平均来说的分布就越集中在总体参数的附近,平均来说,样本估计值与总体参数之间的抽样误差越小,样本估计值与总体参数之间的抽样误差越小,样本对总体的代表性越大,样本对总体的代表性越大。第13页,此课件共48页哦n 实际中,抽样平均误差不可能按定义式来计算,只能实际中,抽样平均误差不可能按定义式来计算,只能n根据概率论和数理统计的有关理论来推导其计算公式。根据概率论和数理统计的有关理论来推导其计算公式。n 在在总总体体方方差差 已已知知,总总体体单单位位总总数数为为N N,样样本本容容量量为为n n,简简单单随随机抽样条件下,抽样平均误的计算公式为:机抽样条件下,抽样平均误的计算公式为:n 重复抽样重复抽样 不重复抽样不重复抽样n估计均值估计均值n估计成数估计成数第14页,此课件共48页哦n3 3、抽样极限误差抽样极限误差n 抽抽样样极极限限误误差差是是指指一一定定概概率率下下抽抽样样误误差差的的可可能能范范围围,也也称为允许误差。用称为允许误差。用表示,由定义知其表达式:表示,由定义知其表达式:n 在一定概率下,在一定概率下,n 上上式式表表示示,在在一一定定概概率率下下可可认认为为样样本本估估计计量量与与相相应应的的总总体参数的误差的绝对值不超过体参数的误差的绝对值不超过 。用。用 、n分分别别表表示示平平均均数数和和比比例例(成成数数)的的抽抽样样极极限限误误差差,则则在在一一定定概概率下有:率下有:n ;|p-P|p-P|第15页,此课件共48页哦n估计均值的置信区间:估计均值的置信区间:n估计成数(比例)的置信区间:估计成数(比例)的置信区间:第16页,此课件共48页哦n 抽样极限误差是抽样误差的抽样极限误差是抽样误差的可能范围可能范围,而不是完全肯定的,而不是完全肯定的范围。所以,这一可能范围的大小是与其估计的可靠程度的大范围。所以,这一可能范围的大小是与其估计的可靠程度的大小(即概率)紧密联系的。在抽样估计中,这个概率叫置信度,小(即概率)紧密联系的。在抽样估计中,这个概率叫置信度,习惯上也称为可靠程度、把握程度或概率保证程度等,用习惯上也称为可靠程度、把握程度或概率保证程度等,用1-1-表示。表示。显然在其他条件不变的情况下,抽样极限误差越显然在其他条件不变的情况下,抽样极限误差越大,相应的置信度也就越大。大,相应的置信度也就越大。n 与与抽抽样样极极限限误误差差相相关关的的两两个个概概念念是是:抽抽样样误误差差率率和和抽抽样样估计精度。估计精度。n抽样误差率抽样误差率=(抽样极限误差(抽样极限误差/估计量)估计量)100%100%n抽样估计精度抽样估计精度=100%-=100%-抽样误差率抽样误差率n 第17页,此课件共48页哦n 估估计计精精度度与与估估计计的的可可靠靠程程度度是是矛矛盾盾的的。也也就就是是说说,如如果果精精度度很很高高,则则会会由由于于估估计计区区间间太太窄窄而而使使错错误误估估计计的的可可能能性性大大增增,从从而而大大大大降降低低估估计计的的可可靠靠程程度度,使使估估计计结结果果没没有有多多大大的的作作用用;如如果果置置信信度度很很高高,则则意意味味着着允允许许误误差差范范围围较较大大,而而使使估估计计精精度度太太低低 ,这这时时尽尽管管估估计计的的可可靠靠程程度度接接近近或或等等于于100%100%,但抽样估计本身也会失去意义。,但抽样估计本身也会失去意义。n 实实际际中中,只只能能依依据据具具体体情情况况,先先满满足足一一方方面面,然然后后确确定定另一方面另一方面 。第18页,此课件共48页哦二、抽样分布二、抽样分布 n(一)(一)抽样分布的概念抽样分布的概念n 样本指标是一种随机变量,它有若干可能取值,每个可能取样本指标是一种随机变量,它有若干可能取值,每个可能取值都有一定的可能性(即概率),从而形成它的概率分布,即统值都有一定的可能性(即概率),从而形成它的概率分布,即统计上所谓的抽样分布。简言之,计上所谓的抽样分布。简言之,n 抽样分布就是指样本统计量的概率分布抽样分布就是指样本统计量的概率分布。n 样本统计量是由样本统计量是由n n个随机变量构成的函数,故抽样分布属于个随机变量构成的函数,故抽样分布属于随机变量函数的分布。随机变量函数的分布。n 抽抽样样分分布布反反映映了了样样本本指指标标的的分分布布特特征征,是是抽抽样样推推断断的的重重要要依依据据。根根据据样样本本分分布布的的规规律律,可可揭揭示示样样本本指指标标与与总总体体指指标标之之间间的的关关系系,估估计计抽抽样样误误差差,并并说说明明抽抽样样推推断断的的可可靠靠程度。程度。n 第19页,此课件共48页哦n举例:如前例,四名学生的月消费支出(240,280,360,400 元)。现按重复取样的方法,随机抽取两位构成一个样本,则全部可能的样本及其各样本的均值如下表所示:第20页,此课件共48页哦n序号序号 样本变量样本变量 样本平均数样本平均数 平均数离差平均数离差 离差平方离差平方 n x x x-x x x-E(E(x)x)x-x-E(E(x)x)n 1 240 1 240,280 260 -60 3600280 260 -60 3600n 2 240 2 240,360 300 -20 400360 300 -20 400n 3 240 3 240,400 320 0 0400 320 0 0n 4 280 4 280,240 260 -60 3600240 260 -60 3600n 5 280 5 280,360 320 0 0360 320 0 0n 6 280 6 280,400 340 20 400400 340 20 400n 7 360 7 360,240 300 -20 400240 300 -20 400n 8 360 8 360,280 320 0 0280 320 0 0n 9 360 9 360,400 380 60 3600400 380 60 3600n10 40010 400,240 320 0 0240 320 0 0 11 400 11 400,280 340 20 400280 340 20 400 12 400 12 400,360 380 60 3600360 380 60 3600 合计合计 2640 0 16000 2640 0 16000第21页,此课件共48页哦n(二)样本平均数的抽样分布(二)样本平均数的抽样分布n1、总体方差已知已知时,样本平均数的抽样分布n定定理理4.14.1 设设总总体体X X N N(,),(x x1 1,x x2 2,,x xn n)是是其中一个简单随机样本,则样本平均数其中一个简单随机样本,则样本平均数 N N(,/n/n)。)。n将样本平均数标准化,即有:将样本平均数标准化,即有:n n Z=NZ=N(0 0,1 1)第22页,此课件共48页哦n2 2、总体方差未知,大样本、总体方差未知,大样本。n定定理理4.24.2 若若总总体体平平均均数数和和方方差差有有限限,当当样样本本容容量量n充充分分大大时时,无无论论总总体体分分布布形形式式如如何何,样样本本平平均均数数近近似似服服从从正正态态分分布布 N N(,/n/n)。)。n Z=NZ=N(0 0,1 1)n 其中:其中:n 大样本时,n-1 n第23页,此课件共48页哦 3 3、总体方差未知,小样本。、总体方差未知,小样本。n定定理理4.34.3 设设总总体体XNXN(,),(x x1 1,x,x2 2,xn,xn)是是其其中中一一个个简简单单随随机机样样本本,样样本本均均值值为为 ,样样本本标标准准差差为为S S,则则统统计量计量n n t=t(n-1)t=t(n-1)(4.64.6)n 其中:其中:n 第24页,此课件共48页哦n(三)样本比例的抽样分布(三)样本比例的抽样分布n n 当当从从总总体体中中抽抽取取一一个个样样本本容容量量为为n n的的样样本本时时,样样本本中中具具有有某某种种特特征征的的单位数单位数x x服从二项分布,即有服从二项分布,即有x Bx B(n n,P P)。)。n 根根据据中中心心极极限限定定理理,当当nn时时,二二项项分分布布趋趋近近于于正正态态分分布布。所所以以,在大样本下,在大样本下,nPnP若和若和n n(1-P1-P)皆大于)皆大于5 5,样本比例近似服从正态分布:,样本比例近似服从正态分布:n p NP,P(1-P)/n (4.10)p NP,P(1-P)/n (4.10)n统计量统计量 Z=NZ=N(0 0,1 1)第25页,此课件共48页哦 抽样估计就是抽样估计就是根据样本提供的信息对总体的某些特征进行估计或推断根据样本提供的信息对总体的某些特征进行估计或推断。抽样估计又称作参数估计,抽样估计又称作参数估计,参数估计可分为点估计和区间估计参数估计可分为点估计和区间估计两种两种。一、一、点估计点估计 点点估估计计又又叫叫定定值值估估计计,就就是是用用样样本本的的统统计计量量 直直接接估估计计总总体体参参数数 。点估计常用的方法有两种:矩估计法点估计常用的方法有两种:矩估计法 极大似然估计法。极大似然估计法。第二节第二节 抽样估计的基本方法抽样估计的基本方法第26页,此课件共48页哦n(一)(一)矩估计法矩估计法n 矩矩估估计计法法是是英英国国统统计计学学家家K.PearsonK.Pearson提提出出的的。其其基基本本思思想想是是:由由于于样样本本来来源源于于总总体体,样样本本矩矩在在一一定定程程度度上上反反映映了了总总体体矩矩,而而且且由由大大数数定定律律可可知知,样样本本矩矩以以概概率率收收敛敛与与总总体体矩矩。因因此此,只只要要总总体体X X的的k k阶阶原原点点矩矩存存在在,就就可可以以用用样样本本矩矩作作为相应总体矩的估计量,用样本矩的函数作为总体矩的函数的估计量。为相应总体矩的估计量,用样本矩的函数作为总体矩的函数的估计量。n 在在统统计计学学中中,矩矩是是指指以以期期望望值值为为基基础础而而定定义义的的数数字字特特征征,例例如如数数学期望、方差、协方差等。矩可以分为原点矩和中心矩两种。学期望、方差、协方差等。矩可以分为原点矩和中心矩两种。n(二)极大似然估计法(略)(二)极大似然估计法(略)n 极极大大似似然然估估计计法法(Maximum Maximum Likelihood Likelihood EstimateEstimate,简简记记为为MLEMLE)是是由由FisherFisher提提出出的的一一种种参参数数估估计计方方法法。其其基基本本思思想想是是:设设总总体体分分布布的的函函数数形形式式已已知知,但但有有未未知知参参数数 ,可可以以取取很很多多值值,在在 的的一一切切可可能能取取值值中中选选一一个个使使样样本本观观察察值值出出现现的的概概率率为为最最大大的的 值值作作为为估估计计值值,记记作作 ,并并称称为为 的的极极大大似似然然估估计计值。这种求估计量的方法称为极大似然估计法。值。这种求估计量的方法称为极大似然估计法。第27页,此课件共48页哦n(三)估计量的优良标准(三)估计量的优良标准n 一个好的估计量通常要求满足以下三个标准:一个好的估计量通常要求满足以下三个标准:n 1 1、无偏性、无偏性n 所谓所谓无偏性无偏性是指是指样本估计量的均值应等于被估计总体参数的真值样本估计量的均值应等于被估计总体参数的真值。n 2 2、有效性有效性n 所所谓谓有有效效性性是是指指作作为为优优良良的的估估计计量量,除除了了满满足足无无偏偏性性外外,其其方方差差应应比比较较小小。这这样样才才能能保保证证估估计计量量的的取取值值能能集集中中在在被被估估计计的的总总体体参参数数的的附附近近,对对总总体体参参数数的的估估计计和和推断更可靠。推断更可靠。n 3 3、一致性、一致性n 一致性一致性又称相合性又称相合性 ,即随着样本容量,即随着样本容量n n的增大,一个好的估计量将在概率意义的增大,一个好的估计量将在概率意义下愈来愈接近于总体的真值。下愈来愈接近于总体的真值。n 样本平均数作为总体平均数的估计量、样本比例作为总体比例的估样本平均数作为总体平均数的估计量、样本比例作为总体比例的估计量,都具有上述优良性质,所以,通常用样本平均数去估计总体平均计量,都具有上述优良性质,所以,通常用样本平均数去估计总体平均数,用样本比例去估计总体比例。数,用样本比例去估计总体比例。第28页,此课件共48页哦n 优缺点:优缺点:n 其优点是简单、具体明确。但点估计总有一定的抽样误差,其优点是简单、具体明确。但点估计总有一定的抽样误差,而点估计本身又无法说明抽样误差的大小,也无法说明估计结而点估计本身又无法说明抽样误差的大小,也无法说明估计结果有多大的把握程度。而区间估计能够比较好地解决参数估计果有多大的把握程度。而区间估计能够比较好地解决参数估计的精确度与可靠程度的问题。的精确度与可靠程度的问题。第29页,此课件共48页哦二、区间估计二、区间估计n区区间间估估计计就就是是根根据据样样本本估估计计量量、以以一一定定的的可可靠靠程程度度推推断断总总体体参数所在的区间范围参数所在的区间范围。n这这种种估估计计不不仅仅以以样样本本估估计计量量为为依依据据,而而且且考考虑虑了了估估计计量量的的分分布布,所以它能给出估计量的精度,也能说明估计结果的把握程度。所以它能给出估计量的精度,也能说明估计结果的把握程度。(一一)总体均值的区间估计总体均值的区间估计(二)总体比例的区间估计(二)总体比例的区间估计第30页,此课件共48页哦n均值的置信区间:均值的置信区间:n其中:极限误差 应依据所给的条件,利用抽样分布定理进行推算。n =或 =n 或 =第31页,此课件共48页哦n总体比例的置信区间:总体比例的置信区间:n n其中其中:第32页,此课件共48页哦第三节第三节 抽样调查的组织方式及其抽样估计抽样调查的组织方式及其抽样估计n 常用的抽样组织方式有:常用的抽样组织方式有:纯随机抽样、分层抽样、等距抽样和整群抽纯随机抽样、分层抽样、等距抽样和整群抽样样四种。四种。n 一、一、纯随机抽样纯随机抽样n 又又称称简简单单随随机机抽抽样样,它它是是对对总总体体单单位位不不进进行行任任何何划划分分或或排排队队,完完全全随随机机地地直直接接从从总总体体中中抽抽取取样样本本单单位位,使使每每个个总总体体单单位位都都有有完完全全均均等等的的机机会会被抽中。被抽中。n 纯纯随随机机抽抽样样常常采采用用的的抽抽选选方方法法有有抽抽签签法法、利利用用随随机机数数表表取取数数法法和和电电子子计计算算机机取取数数法法。它它只只需需对对总总体体单单位位进进行行编编号号,而而不不需需要要事事先先掌掌握握更更多多的总体信息的总体信息。n 二、二、分层抽样及其抽样估计分层抽样及其抽样估计n 分分层层抽抽样样又又称称类类型型抽抽样样或或分分类类抽抽样样。这这种种抽抽样样方方式式是是先先对对总总体体各各单单位位按按主主要要标标志志加加以以分分组组,然然后后再再从从各各组组中中按按随随机机原原则则抽抽选选一一定定单单位位构构成成样样本本。如如城城市市职职工工收收入入调调查查,可可按按行行业业将将全全部部职职工工分分类类,再再从从各各行行业业中中分分别抽取若干职工进行调查。别抽取若干职工进行调查。第33页,此课件共48页哦n各组的样本单位数为各组的样本单位数为:n抽样总体平均数的计算:抽样总体平均数的计算:n类型抽样的抽样平均误差的计算:类型抽样的抽样平均误差的计算:n 类型抽样总的抽样误差取决于各类型抽样总的抽样误差取决于各组内组内的抽样误差,而各组的抽样误差的抽样误差,而各组的抽样误差又取决于各组内的方差水平。又取决于各组内的方差水平。n 类类型型抽抽样样的的抽抽样样平平均均误误差差与与组组间间方方差差无无关关,其其大大小小仅仅取取决决于于组组内内方方差差的的平平均均水水平平。由由于于总总体体方方差差=组组间间方方差差+组组内内方方差差,所所以以,类类型型抽抽样样误误差差一一般般小小于于纯纯随随机机抽抽样样误误差差。那那么么,要要想想提提高高抽抽样样效效果果,应应采采取取何何种种措措施施呢呢?(应应该尽可能扩大组间方差,缩小组内方差,这样就可以减少抽样误差。该尽可能扩大组间方差,缩小组内方差,这样就可以减少抽样误差。)n 对对于于类类型型抽抽样样,若若总总体体各各组组为为正正态态分分布布(或或非非正正态态分分布布但但n ni i充充分分大大),则则各各子子样样本本平平均均数数 和和样样本本平平均均数数也也都都服服从从(或或近近似似服服从从)正正态态分分布布。对对于于给给定定的的置置信度信度1-1-,则,则总体均值的置信区间为总体均值的置信区间为:第34页,此课件共48页哦n 三、等距抽样三、等距抽样n 等等距距抽抽样样也也称称机机械械抽抽样样。它它是是先先将将总总体体所所有有单单位位按按某某一一标标志志顺顺序序排排列列,然然后后按按相等相等的距离抽取样本单位。的距离抽取样本单位。n 排列的标志可以是排列的标志可以是无关标志无关标志也可以是也可以是有关标志有关标志。n(1 1)无关标志无关标志,指和单位标志值的大小无关或不起主要的影响作用。指和单位标志值的大小无关或不起主要的影响作用。n(2 2)有关标志有关标志,指作为排队顺序的标志和单位标志值的大小有密切的关系。指作为排队顺序的标志和单位标志值的大小有密切的关系。n 其其中中,按按有有关关标标志志顺顺序序排排队队,并并将将样样本本单单位位加加以以n n等等份份后后,对对每每一一部部分分抽抽取一个样本单位有两种方法取一个样本单位有两种方法 半距中点取样半距中点取样n 对称等距取样对称等距取样n应应该该指指出出的的是是,等等距距取取样样间间隔隔的的确确定定,要要避避免免与与想想象象中中的的周周期期性性节节奏奏重合重合,引起系统误差的影响。,引起系统误差的影响。第35页,此课件共48页哦n 优优点点:由由于于这这等等距距抽抽样样是是在在各各单单位位按按大大小小顺顺序序排排队队基基础础上上,再再按按某某种种规规则则以以一一定定间间隔隔取取样样,从从而而可可保保证证所所取取得得的的样样本本单单位位比比较较均均匀匀地地分分布布在在总总体体的的各各个个部部分分,因因此此,有有较较高高的的代表性。代表性。n 等距抽样的参数估计可参照简单随机抽样的估计方法。等距抽样的参数估计可参照简单随机抽样的估计方法。n 四、四、整群抽样整群抽样n 整整群群抽抽样样又又称称群群体体抽抽样样。它它是是将将总总体体各各单单位位划划分分成成许许多多群群,然然后后从从中中随随机机抽抽取取部部分分群群,并并对对中中选选群群的的所所有有单单位位进行全面调查进行全面调查。n 整群抽样整群抽样实质上实质上是是以以“群群”代替单位代替单位之后的纯随机抽之后的纯随机抽样。因此,整群抽样的抽样平均误差可以根据群间方差样。因此,整群抽样的抽样平均误差可以根据群间方差来推算。来推算。第36页,此课件共48页哦五、五、样本容量的确定样本容量的确定n抽样设计中的一个重要内容就是要确定必要的样本单位数。抽样设计中的一个重要内容就是要确定必要的样本单位数。n 所所谓谓必必要要的的样样本本单单位位数数,就就是是为为了了使使抽抽样样误误差差不不超超过过给给定定的允许范围至少应抽取的样本单位数目的允许范围至少应抽取的样本单位数目。n 确确定定必必要要样样本本单单位位数数的的原原则则是是:在在保保证证抽抽样样推推断断能能达达到到预预期期的的可可靠靠程程度度和和精精确确性性的的要要求求下下,使使费费用用达达到到最最小小,即即用用尽尽可能少的样本容量而能达到误差在允许范围之内。可能少的样本容量而能达到误差在允许范围之内。第37页,此课件共48页哦在总体方差在总体方差 已知,总体单位总数为已知,总体单位总数为N N,样本容量为,样本容量为n n,简,简单随机抽样条件下,必要样本单位数的计算公式为:单随机抽样条件下,必要样本单位数的计算公式为:重复抽样 不重复抽样估计均值估计成数估计成数第38页,此课件共48页哦n n必必要要的的样样本本单单位位数数n n受受允允许许的的极极限限误误差差的的制制约约,极极限限误误差差要要求求越越小小,则则样样本本单单位位就就要要求求越越多多。以以重重复复抽抽样样来来说说,在在其其他他条条件件不不变变下下,当当误误差差范范围围缩缩小小一一半半则则样样本本单单位位数数必必须须增增加加到到四四倍倍;而而误误差差范范围围允允许许扩扩大大一一倍倍,则则样样本本单单位位数数只只需需要要原原来来的的1/41/4。所所以以,在在抽抽样样组组织织中中,对对抽抽样样误误差差可可能能允允许许的的范围要十分慎重地考虑。范围要十分慎重地考虑。n 在多主题抽样中,往往一个样本要调查多项指标。在多主题抽样中,往往一个样本要调查多项指标。(此时又如何确定样本容量呢?此时又如何确定样本容量呢?)第39页,此课件共48页哦 n问题的提出:问题的提出:n1、某生产线的感冒冲剂规定每包重量为12克,超重或过轻都是严重质量问题。从过去的资料得知 是0.6克,质检员每两个小时抽取25包冲剂称重检验,并作出是否停工的决策。假定产品重量服从正态分布。n(1)建立适当的原假设和备择假设;n(2)在 时,该检验的决策准则是什么?n(3)如果 12.25克,你将采取什么行动?n(4)如果 11.95克,你又将采取什么行动?n 第四节第四节 假设检验假设检验第40页,此课件共48页哦第四节第四节 假设检验假设检验n2、电视机显像管批量生产的质量标准为平均使用寿命1200小时,标准差300小时。某电视机厂宣称其生产的显像管质量大大超过质量标准。为了进行检验,随机抽取100件为样本,测得平均使用寿命1245小时。能否认为该厂所生产的显像管质量显著的高于规定的标准?n3、一本杂志公开声称,现在大学生的消费越来越趋向“高端化”,有一半以上的学生人均月消费在1000元以上。为了验证这一说法,我们在某校园内随机抽取了在校学生100名,了解到其中月支出额在1000元以上的有45人。试以95%的置信水平来验证该杂志社的说法是否正确。第41页,此课件共48页哦第42页,此课件共48页哦n假假设设检检验验(Hypothesis Hypothesis testingtesting)是是推推断断统统计计中中的的一一项项重重要要内内容容,它它是是先先对对研研究究总总体体的的参参数数作作出出某某种种假假设设,然然后后通通过过样样本本的的观观察察来来判判断断假假设设是是否否成立成立。它是进行经济管理和决策的有利工具。它是进行经济管理和决策的有利工具。n 一、假设检验的步骤一、假设检验的步骤n 一个完整的假设过程,通常包括以下五个步骤:一个完整的假设过程,通常包括以下五个步骤:n(一)(一)提出原假设提出原假设和替换假设和替换假设n对每个假设检验问题,一般要同时提出两个相反的假设:对每个假设检验问题,一般要同时提出两个相反的假设:n 原假设原假设又称零假设又称零假设 ,是正待检验的假设,记为,是正待检验的假设,记为 H H0 0;n 备择假设备择假设,是拒绝原假设后可供选择的假设,记为,是拒绝原假设后可供选择的假设,记为H H1 1。n 原假设和备择假设是相互对立的,检验结果二者必取其一。原假设和备择假设是相互对立的,检验结果二者必取其一。n如何提出假设?如何提出假设?n第四节第四节 假设检验假设检验第43页,此课件共48页哦n 原原假假设设和和备备择择假假设设不不是是随随意意提提出出的的,应应根根据据所所检检验验问问题题的的具具体体背背景景而而定定。常常常常是是采采取取“不不轻轻易易拒拒绝绝原原假假设设”的的原原则则,即即把把没没有有充充分分理理由由不不能能轻轻易易否否定定的的命命题题作作为为原原假假设设,而而相相应应地地把把没没有有足足够够把把握握就就不不能能轻轻易易肯肯定定的的命命题作为备择假设题作为备择假设。举例。举例n 双侧检验双侧检验n 假设假设有有三种形式三种形式:左侧检验左侧检验单侧检验单侧检验n右侧检验右侧检验n采采用用哪哪种种假假设设应应依依据据实实际际问问题题而而定定。如如果果对对所所研研究究问问题题只只需需判判断断有有无无显显著著性性差差异异,或或要要求求同同时时注注意意总总体体参参数数偏偏大大或或偏偏小小的的情情况况,则则采采用用双双侧侧检检验验;如果如果所关心的是总体参数所关心的是总体参数是否比某个值偏大(或偏小)是否比某个值偏大(或偏小),则宜采用,则宜采用单侧检验单侧检验。n (二)确定适当的检验统计量(二)确定适当的检验统计量n 在在参参数数的的假假设设