抽样与抽样分布教材.pptx
第3章 抽样与抽样分布-2本章内容本章内容3.1 总体与样本总体与样本3.2 抽样的组织形式抽样的组织形式3.3 抽样误差与抽样分布抽样误差与抽样分布-33.13.1 总体与样本总体与样本一、全及总体与抽样总体一、全及总体与抽样总体1 1、全及总体、全及总体 指调查对象的全部单位构成的整体,即具有某种指调查对象的全部单位构成的整体,即具有某种共同性质的若干单位的集合体。简称总体、母体。共同性质的若干单位的集合体。简称总体、母体。 可分为有限总体和无限总体可分为有限总体和无限总体 总体单位数用总体单位数用N N来表示来表示2 2、抽样总体、抽样总体 从全及总体中按照随机原则抽取一部分单位构成从全及总体中按照随机原则抽取一部分单位构成的集合体。简称样本、子样。的集合体。简称样本、子样。 大样本和小样本大样本和小样本 样本单位数用样本单位数用n n来表示来表示-4二、全及指标和抽样指标二、全及指标和抽样指标1 1、全及指标、全及指标 根据总体各单位标志值计算的反映总体数量特征根据总体各单位标志值计算的反映总体数量特征 的综合指标,也称为总体指标或总体参数。的综合指标,也称为总体指标或总体参数。 (1 1)总体平均数)总体平均数NXNii1NiiNiiiffX11-5(2 2)总体成数)总体成数 成数是用来表示总体中成数是用来表示总体中具有某种性质的单位数具有某种性质的单位数在总体全部单位数中所在总体全部单位数中所占的比重。占的比重。 定义:当总体的一个现象定义:当总体的一个现象有两种表现时,其中具有两种表现时,其中具有某一种表现的单位数有某一种表现的单位数占总体单位数目的比重,占总体单位数目的比重,叫总体成数,简称成数。叫总体成数,简称成数。NNP1NNQ21QP例:某灯泡厂生产的例:某灯泡厂生产的10000只只灯泡中,有灯泡中,有450只不合格,则只不合格,则 不合格率:不合格率: P=450/10000=4.5% 合格率:合格率:Q=1-P=95.5%-6(3 3)总体标准差和总体方差)总体标准差和总体方差 说明总体单位之间标志值变异程度的指标。说明总体单位之间标志值变异程度的指标。NXNii122)(NiiNiiiffX1122)(-72 2、抽样指标、抽样指标 根据抽样总体各单位标志值计算的综合指标,根据抽样总体各单位标志值计算的综合指标,又称为样本指标又称为样本指标(1 1)抽样平均数)抽样平均数nxxnii1niiniiiffxx11-8(2 2)抽样成数)抽样成数 定义:在抽样总体中,定义:在抽样总体中,一个现象有两种表现一个现象有两种表现时,其中具有某一种时,其中具有某一种表现的单位数占抽样表现的单位数占抽样总体单位数目的比重,总体单位数目的比重,叫抽样成数,或样本叫抽样成数,或样本成数。成数。nnp1nnq21qp例:某灯泡厂生产的例:某灯泡厂生产的10000只只灯泡中,从中抽取灯泡中,从中抽取1000只进只进行检验,其中有行检验,其中有50只不合格,只不合格,则则 样本不合格率:样本不合格率: p=50/1000=5% 合格率:合格率:q=1-p=95%-9(3 3)抽样总体标准差和抽样总体方差)抽样总体标准差和抽样总体方差 说明抽样总体单位之间标志值变异程度的指说明抽样总体单位之间标志值变异程度的指标。标。1)(122nxxSnii1)(1122niiniiiffxxS-10三、抽样方法三、抽样方法1 1、重复抽样、重复抽样2 2、不重复抽样、不重复抽样-11四、样本容量和样本个数四、样本容量和样本个数1 1、样本容量、样本容量 指一个样本总体所包含的单位数指一个样本总体所包含的单位数2 2、样本个数、样本个数 指从一个全及总体中可能抽取的样本个数指从一个全及总体中可能抽取的样本个数-12例:在总体中有例:在总体中有A A、B B、C C、D D四个单位,四个单位,现确定样本容量现确定样本容量为为2 2个,可能的样个,可能的样本个数有多少个?本个数有多少个?单位单位A AB BC CD DA AA,AA,AA,BA,BA,CA,CA,DA,DB BB,AB,AB,BB,BB,CB,CB,DB,DC CC,AC,AC,BC,BC,CC,CC,DC,DD DD,AD,AD,BD,BD,CD,CD,DD,D解解:(:(1)重复抽样条件下)重复抽样条件下(2)不重复抽样条件下)不重复抽样条件下单位单位A AB BC CD DA A- -A,BA,BA,CA,CA,DA,DB BB,AB,A- -B,CB,CB,DB,DC CC,AC,AC,BC,B- -C,DC,DD DD,AD,AD,BD,BD,CD,C- -133.2 3.2 抽样的组织形式抽样的组织形式一、简单随机抽样(纯随机抽样)一、简单随机抽样(纯随机抽样)二、类型抽样(分类抽样)二、类型抽样(分类抽样)三、机械抽样(等距抽样)三、机械抽样(等距抽样)四、整群抽样四、整群抽样-14一、简单随机抽样(纯随机抽样)一、简单随机抽样(纯随机抽样)1 1、概念、概念 对全及总体的所有单位不进行任何分类或排队,按照随机对全及总体的所有单位不进行任何分类或排队,按照随机原则直接从总体单位原则直接从总体单位N N中抽取中抽取n n个单位作为样本,保证每个个单位作为样本,保证每个单位在抽选中都有相等的中选机会。单位在抽选中都有相等的中选机会。2 2、具体抽样方法、具体抽样方法 将总体各单位编号,然后随机抽取,直到抽够预定数目。将总体各单位编号,然后随机抽取,直到抽够预定数目。例:现有例:现有10000个总体单位,随机抽取个总体单位,随机抽取100个样本单个样本单位。位。-15二、类型抽样(分类抽样)二、类型抽样(分类抽样)1 1、概念、概念 先将总体按某个标志分成若干组,再随机从各组先将总体按某个标志分成若干组,再随机从各组中抽取样本单位。中抽取样本单位。2 2、具体抽样方法、具体抽样方法(1 1)不等比例类型抽样法)不等比例类型抽样法(2 2)等比例类型抽样法)等比例类型抽样法例:法政系有在校生例:法政系有在校生420420人,分别由公管人,分别由公管120120人,人,法学法学180180,社工,社工120120三个专业组成,现要从中抽三个专业组成,现要从中抽取取100100调查其就业倾向,如何抽取?调查其就业倾向,如何抽取?-16三、机械抽样(等距抽样)三、机械抽样(等距抽样)1 1、概念、概念 将总体各单位按某一标志进行排序,然后再按固将总体各单位按某一标志进行排序,然后再按固定的顺序和间隔来抽选样本单位。定的顺序和间隔来抽选样本单位。2 2、具体抽样方法、具体抽样方法(1 1)无关标志排队法)无关标志排队法 例:产品质量检验例:产品质量检验(2 2)有关标志排队法)有关标志排队法 例:居民家庭收支调查例:居民家庭收支调查注意:间隔注意:间隔k=N/n取整取整第一个样本单位的确定:如第一个样本单位的确定:如果是按无关标志排队,可以果是按无关标志排队,可以从第一个间隔内的任意一个从第一个间隔内的任意一个单位开始抽取;如果是按有单位开始抽取;如果是按有关标志排队,考虑到样本单关标志排队,考虑到样本单位的代表性,一般从第一间位的代表性,一般从第一间隔内居中的单位开始抽取。隔内居中的单位开始抽取。-17四、整群抽样四、整群抽样1 1、概念、概念 将总体单位划分成若干群,然后以群为单位从中将总体单位划分成若干群,然后以群为单位从中随机抽取一些群,对被抽中群的所有单位进行全随机抽取一些群,对被抽中群的所有单位进行全面调查的一种抽样组织形式。面调查的一种抽样组织形式。例:现在抽查农村居民生活水平状况,不直接例:现在抽查农村居民生活水平状况,不直接抽取居民户,而是以村为单位,抽选若干村,抽取居民户,而是以村为单位,抽选若干村,然后对这些村的全体居民户进行调查。然后对这些村的全体居民户进行调查。-183.3 3.3 抽样误差与抽样分布抽样误差与抽样分布 一、抽样误差一、抽样误差 1 1、误差及其种类、误差及其种类 (1 1)误差:)误差:由样本得到的估计值与被估计的总体未由样本得到的估计值与被估计的总体未知真实特征值之差。知真实特征值之差。 (2 2)种类)种类登记性误差:登记性误差:测量、记录、计测量、记录、计算、抄录、及被算、抄录、及被调查者所报不实调查者所报不实、指标含义不清、指标含义不清、口径不一致等、口径不一致等原因造成的误差原因造成的误差代表性误差:代表性误差:偏差偏差随机误差随机误差-192 2、抽样误差的概念、抽样误差的概念 指根据样本数据计算而得到的样本统计量与被估计的未知指根据样本数据计算而得到的样本统计量与被估计的未知的总体参数真值之间的随机误差。的总体参数真值之间的随机误差。3 3、影响抽样误差的因素、影响抽样误差的因素 (1 1)抽样单位数目的多少)抽样单位数目的多少 (2 2)总体被研究标志的变异程度)总体被研究标志的变异程度 (3 3)抽样方法和组织形式的不同)抽样方法和组织形式的不同4 4、抽样平均误差、抽样平均误差 指抽样平均数(或抽样成数)的标准差。它反映抽样平均指抽样平均数(或抽样成数)的标准差。它反映抽样平均数(或抽样成数)与总体平均数(或总体成数)的平均误数(或抽样成数)与总体平均数(或总体成数)的平均误差程度。差程度。-20(1 1)抽样平均数的平均误差(抽样均值误差)抽样平均数的平均误差(抽样均值误差)重复抽样重复抽样不重复抽样不重复抽样nnx2)1(2NnNnx1NnN称为修正系数称为修正系数注意啦:注意啦:当抽样比例当抽样比例小于小于5%5%时,时,不区别抽样不区别抽样方法影响方法影响-21(2 2)抽样成数的平均误差)抽样成数的平均误差重复抽样重复抽样不重复抽样不重复抽样nPPp)1 ( )1()1 (NnNnPPp1NnN称为修正系数称为修正系数-22二、抽样分布二、抽样分布 在同一个总体中抽出样本容量相同的所有可能样在同一个总体中抽出样本容量相同的所有可能样本后,计算每个样本统计量的值和相应的概率,本后,计算每个样本统计量的值和相应的概率,就组成样本统计量的概率分布,简称抽样分布。就组成样本统计量的概率分布,简称抽样分布。(一)重复抽样分布(一)重复抽样分布 1 1、抽样平均数的抽样分布、抽样平均数的抽样分布 是由所有样本平均数的值与其相应的概率表示。是由所有样本平均数的值与其相应的概率表示。-23样本均值的抽样分布样本均值的抽样分布【例例】设一个总体,含有设一个总体,含有4 4个元素(个体),即总体单个元素(个体),即总体单位数位数N N=4=4。4 4 个个体分别为个个体分别为X X1 1=1=1、X X2 2=2=2、X X3 3=3 =3 、X X4 4=4 =4 。总体的均值、方差及分布如下。总体的均值、方差及分布如下5 . 21NXNii25. 1)(122NXNii-24样本均值的抽样分布样本均值的抽样分布3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第一个观察值所有可能的n = 2 的样本(共16个)-25样本均值的抽样分布样本均值的抽样分布3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第一个观察值16个样本的均值(x)-26所有样本均值的均值和方差所有样本均值的均值和方差nMxnixix222122625. 016)5 . 20 . 4()5 . 20 . 1 ()(5 . 2160 . 45 . 10 . 11Mxniix-27样本均值的分布与总体分布的比较样本均值的分布与总体分布的比较5 . 2x625. 02x-28样本均值的抽样分布样本均值的抽样分布与中心极限定理与中心极限定理X5x50 x5 . 2x -29 xn 中心极限定理中心极限定理(图示)(图示) x -30二、抽样分布二、抽样分布(一)重复抽样分布(一)重复抽样分布 2 2、抽样成数的抽样分布、抽样成数的抽样分布 例:对某种产品质量的合格率进行检验,现用重复例:对某种产品质量的合格率进行检验,现用重复抽样方法,从总体中抽取抽样方法,从总体中抽取100100个样本进行检验,其个样本进行检验,其合格率合格率p=95%p=95%,其抽样平均误差为:,其抽样平均误差为:02179. 0100)95. 01 (95. 0)1 (nPPp-31根据中心极限定理可知,根据中心极限定理可知,当样本容量足够大时,样当样本容量足够大时,样本均值的抽样分布逐渐趋于正态分布。而抽样成数本均值的抽样分布逐渐趋于正态分布。而抽样成数的样本容量足够大的条件是的样本容量足够大的条件是np5和和n(1-p)5,而本例而本例中中n=100,p=0.95,所以服从正态分布,即,所以服从正态分布,即pN(N(p, ,p(1-(1-p)/)/n) )p(1-p)/n-32二、抽样分布二、抽样分布(二)不重复抽样分布(二)不重复抽样分布 1 1、抽样平均数的抽样分布、抽样平均数的抽样分布 【例例】设一个总体,含有设一个总体,含有4 4个元素(个体),即总体个元素(个体),即总体单位数单位数N N=4=4。4 4 个个体分别为个个体分别为X X1=11=1、X X2=22=2、X X3=3 3=3 、X X4=4 4=4 。总体的均值。总体的均值2.52.5、方差、方差1.251.25-33样本均值的抽样分布样本均值的抽样分布3,43,23,132,42,32,124,34,24,141,441,33211,21第二个观察值第一个观察值所有可能的n = 2 的样本(共12个)-34样本均值的抽样分布样本均值的抽样分布3.52.52.033.02.51.523.53.02.542.542.03211.51第二个观察值第一个观察值12个样本的均值(x)-35样本均值样本均值频数频数频率频率1.51.52 22/122/122.02.02 22/122/122.52.54 44/124/123.03.02 22/122/123.53.52 22/122/12合计合计12121 112个样本的均值(x)-36所有样本均值的均值和方差所有样本均值的均值和方差)1(12512)5.25.3()5.25.1()(222122NnNnMxnixix5 . 21230125 . 35 . 11Mxniix-37二、抽样分布二、抽样分布(二)不重复抽样分布(二)不重复抽样分布 2 2、抽样成数的抽样分布、抽样成数的抽样分布 例:某种产品质量的合格率进行检验,现用不重复例:某种产品质量的合格率进行检验,现用不重复抽样方法,从总体中抽取抽样方法,从总体中抽取100100个样本进行检验,其个样本进行检验,其合格率合格率p=95%p=95%,N=10000N=10000,其抽样平均误差为:,其抽样平均误差为:02168. 011000010010000100)95. 01 (95. 0)1()1 (NnNnPPp样本方差的抽样分布-39卡方分布定义卡方分布定义设设X X1 1,X X2 2,X Xn n为来自总体为来自总体N N(0 0,1 1)的样本,则称)的样本,则称统计量统计量222212nXXX服从自由度为服从自由度为n n的卡方分布的卡方分布简记为:简记为:)(22n-40卡方分布定义卡方分布定义)(22nP对于给定的正数对于给定的正数 ,0101,称满足条件,称满足条件的点的点)(2n为卡方分布的上为卡方分布的上 分位点。分位点。)(2n -41样本方差的分布样本方差的分布) 1() 1(222nsn-42卡方卡方 ( ( 2 2) ) 分布分布 选择容量为选择容量为n 的的简单随机样本简单随机样本计算样本方差计算样本方差S2计算卡方值计算卡方值 2 = (n-1)S2/2计算出所有的计算出所有的 2值值总体总体-43样本统计量样本统计量样本均值样本均值样本成数样本成数样本方差样本方差正态总体或非正正态总体或非正态总体大样本态总体大样本正态正态总体小样本总体小样本 2分布分布正态分布正态分布t t分布分布正态分布正态分布大样本大样本T 统计量的分布-45学生氏分布定义学生氏分布定义设设X XN(0,1)N(0,1),Y Y 2 2(n n),并且),并且X X,Y Y独立,则称随机变量独立,则称随机变量nYXt/服从自由度为服从自由度为n n 的的t t分布,记为分布,记为t tt(n)t(n)-46t t分布定义分布定义)(nttP对于给定的正数对于给定的正数 ,0101,称满足条件,称满足条件的点的点)(nt为为t(n)分布的上分布的上 分位点。分位点。)(nt -47T 统计量的分布统计量的分布nSXT/)(两个样本方差比的抽样分布-49F F分布定义分布定义设设U U 2 2(n(n1 1) ),V V 2 2(n(n2 2) ),且,且U U,V V独立,则独立,则称随机变量称随机变量21/nVnUF 服从自由度为(服从自由度为(n n1 1,n,n2 2) ) 的的F F分布,记为分布,记为F FF(nF(n1 1,n,n2 2) )-50F F分布定义分布定义),(21nnFFP对于给定的正数对于给定的正数 ,0101,称满足条件,称满足条件的点的点),(21nnF为为F F分布的上分布的上 分位点。分位点。),(21nnF -51两个样本方差比的抽样分布两个样本方差比的抽样分布) 1, 1() 1/() 1() 1/() 1(212221222222122222212121nnFssssnsnnsnyxyxyx-52两个样本方差比的抽样分布两个样本方差比的抽样分布-53结结 束束