《第9讲大学统计学ppt课件-抽样调查.ppt》由会员分享,可在线阅读,更多相关《第9讲大学统计学ppt课件-抽样调查.ppt(48页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第第9 9讲抽样调查与抽讲抽样调查与抽样推断样推断第一节第一节 抽样调查的意义及其理论依据抽样调查的意义及其理论依据一、抽样调查的意义一、抽样调查的意义 抽样调查的定义抽样调查的定义 是是是是按按按按随随随随机机机机原原原原则则则则从从从从总总总总体体体体中中中中抽抽抽抽取取取取一一一一部部部部分分分分单单单单位位位位为为为为样样样样本本本本,对对对对其其其其进进进进行行行行调调调调查查查查,根根根根据据据据样样样样本本本本指指指指标标标标推推推推断断断断总总总总体体体体指指指指标标标标的一种的一种的一种的一种非全面调查方法非全面调查方法非全面调查方法非全面调查方法。按随机原则抽取样本单位节约
2、人力、物力和财力可靠性高 抽样调查的特点抽样调查的特点可对不可能或不必要全面调查的 现象作全面研究节约人力、物力和财力对全面调查的数据资料作质量检 验和修正作工业产品质量控制二、抽样调查的作用二、抽样调查的作用三、抽样推断中常用的几个基本概念三、抽样推断中常用的几个基本概念 全及总体和抽样总体全及总体和抽样总体 全及总体指研究对象的全部单位,即具有同一性质的若干单位的集合体,简称总体,抽样调查中又叫全及总体。无限总体包含的单位数包含的单位数 N 是无限的或相对无限是无限的或相对无限有限总体包含的单位数包含的单位数 N 是有限是有限抽样总体抽样总体也叫子样,简称样本。大样本 n 30小样本 n3
3、0全及指标和抽样指标全及指标和抽样指标 全及指标根据全及总体各个单位的标志值计算 的反映其某种特征的综合指标 _全及平均数(总体平均数)(X)全及总体某一变全及总体某一变 量值的算术平均数量值的算术平均数全及成数(总体成数)(P)全及总体具有某种标全及总体具有某种标 志的单位数在总体中所占的比重志的单位数在总体中所占的比重总体方差(2)和总体标准差()测定全及总体标测定全及总体标 志变异程度的指标志变异程度的指标抽样指标根据抽样总体各个单位标志值计算的综合 指标,与全及指标相对应抽样平均数(x)抽抽样样总总体体中中某某一一变变量量值值(观测值观测值)的算术平均数的算术平均数抽样成数(p)具具有
4、有某某种种标标志志的的单单位位数数在抽样总体在抽样总体 中所占的比重中所占的比重样本方差(s2)和样本标准差(s)说说明明抽样总体标志变异程度的指标抽样总体标志变异程度的指标重复抽样和不重复抽样重复抽样和不重复抽样重复抽样和不重复抽样重复抽样和不重复抽样重复抽样重复抽样从全及总体从全及总体N个单位中抽取个单位中抽取n个样本,每个样本,每 次从总体中随机抽出一个单位后,再放次从总体中随机抽出一个单位后,再放 回总体中重新参加下一次抽取回总体中重新参加下一次抽取不重复抽样不重复抽样从全及总体从全及总体N个单位中抽取个单位中抽取n个样本,个样本,当某一个单位被随机抽出后,不再放当某一个单位被随机抽出
5、后,不再放 回总体回总体 四、抽样调查的理论依据四、抽样调查的理论依据中心极限定律中心极限定律 只只只只要要要要样样样样本本本本容容容容量量量量n n在在在在充充充充分分分分大大大大的的的的条条条条件件件件下下下下(一一一一般般般般要要要要求求求求n30n30),不不不不论论论论全全全全及及及及总总总总体体体体的的的的变变变变量量量量分分分分布布布布是是是是否否否否属属属属于于于于正正正正态态态态分分分分布布布布,其其其其抽抽抽抽样样样样平平平平均均均均数数数数也也也也是是是是趋趋趋趋向向向向于于于于正正正正态分布的。态分布的。态分布的。态分布的。大数定律大数定律(大数法则大数法则)对对对对某
6、某某某现现现现象象象象观观观观察察察察,由由由由于于于于受受受受偶偶偶偶然然然然因因因因素素素素影影影影响响响响,每每每每次次次次结结结结果果果果不不不不同同同同,但但但但经经经经大大大大量量量量观观观观察察察察并并并并综综综综合合合合平平平平均均均均后后后后,将将将将消消消消除除除除偶偶偶偶然然然然的的的的差差差差异异异异,而而而而接接接接近近近近总总总总体体体体平平平平均均均均值值值值,使使使使现现现现象象象象总总总总体体体体某某某某标标标标志志志志规规规规律律律律及及及及其其其其共共共共同同同同特特特特征征征征在在在在数数数数量量量量、质量上显示出来。质量上显示出来。质量上显示出来。质量
7、上显示出来。第二节 抽样平均误差 一、抽样误差的概念及其影响程度一、抽样误差的概念及其影响程度在统计调查中,调查资料与实际情况在统计调查中,调查资料与实际情况不一致,两者的偏离称为统计误差。不一致,两者的偏离称为统计误差。调查误差代表性误差技术性误差登记性误差责任性误差系统性误差随机误差抽样误差抽样误差即指随机误差,这种误差是抽样调即指随机误差,这种误差是抽样调查固有的误差,是无法避免的。查固有的误差,是无法避免的。二、抽样平均误差的计算二、抽样平均误差的计算二、抽样平均误差的计算二、抽样平均误差的计算抽样平均误差抽样平均误差 所有可能样本抽样误差的平均数,即一系列抽样指标的抽样平均数或抽样成
8、数的标准差x抽样平均数的抽样平均误差p抽样成数的抽样平均误差抽样平均误差的计算方法抽样平均误差的计算方法重复抽样情况下抽样平均数的平均误差计算重复抽样情况下抽样平均数的平均误差计算在在N中抽出中抽出n样本,从排列组合中可以有样本,从排列组合中可以有各种各样的样本组:各种各样的样本组:重复抽样:重复抽样:N Nn n不重复抽样:不重复抽样:例例101010-20 400102015-15 225103020-10 100104025 -5 25105030 0 0201015-15 225202020-10 100203025 -5 25204030 0 0205035 5 25301020-1
9、0 100302025 -5 25303030 0 0304035 5 2530504010 100401025-5 25402030 0 0403035 5 2540404010 10040504515 225501030 0 0502035 5 2550304010 10050404515 22550 505020 400合 计-2 500接左:接左:以上资料编成次数分配表如下:以上资料编成次数分配表如下:样本数样本数f(f(即次数分配即次数分配)101-20152-15203-10254 -5305 0354 5403 10452 15501 20合计 25 -重复纯随机抽样条件下,抽样
10、平均误差计算重复纯随机抽样条件下,抽样平均误差计算没有全及总体标准差资料时,用抽样总体标准差没有全及总体标准差资料时,用抽样总体标准差 s s 代替代替没有全及总体标准差资料时,用抽样总体标准差没有全及总体标准差资料时,用抽样总体标准差 s s 代替代替重复抽样情况下抽样成数的平均误差计算重复抽样情况下抽样成数的平均误差计算不不重重复复抽抽样样情情况况下下,抽抽样样平平均均数数的的平平均均误误差差和和抽抽样样成成数数的的平均误差计算平均误差计算设:全及总体单位数设:全及总体单位数 N 抽样总体单位数抽样总体单位数 n有:有:没没有有全全及及总总体体标标准准差差资资料料时时,用用抽抽样样总总体体
11、标标准准差差 s s 代替代替抽样平均误差的计算不重复抽样重复抽样抽样成数平均误差抽样平均误差抽样形式应用条件影响抽样误差的因素全及总体标志变动程度全及总体标志变动程度 与抽样误差的大小成正比关系与抽样误差的大小成正比关系样本单位数样本单位数 与抽样误差的大小成反比关系与抽样误差的大小成反比关系抽样组织形式抽样组织形式 抽样组织形式不同,抽样误差的大小不同抽样组织形式不同,抽样误差的大小不同例6.1 某地对2800户农户年收入进行调查,抽取5%农户作样本,调查显示:1998年每人年平均收入为5965元,其年收入的标准差为104.80元,试计算重复抽样和不重复抽样的抽样平均误差。已知:已知:N=
12、2800(户),n=28005%=140(户),s=104.80(元)重复抽样的抽样平均数的抽样平均误差为:重复抽样的抽样平均数的抽样平均误差为:不重复抽样的抽样平均数的抽样平均误差为:不重复抽样的抽样平均数的抽样平均误差为:例6.2 某厂生产某产品,按正常生产检验产品中一级品率占60%。现从10 000件产品中抽取100件产品进行检验,试按重复和不重复抽样计算一级产品率的抽样成数的平均误差。已知:p=0.6,N=10 000 件,n=100 件重复抽样的抽样成数平均误差:重复抽样的抽样成数平均误差:不重复抽样的抽样成数平均误差为:不重复抽样的抽样成数平均误差为:第四节第四节 全及指标的推断全
13、及指标的推断 一、点估计和区间估计一、点估计和区间估计(一一)点估计点估计例例(二)区间估计(二)区间估计 区间估计的含义 根据样本指标和抽样误差推断总体指标的可能范围,并说明估计总体指标的准确程度和可靠性。-抽样极限误差x、p抽样指标与全及指标之间抽样误差的可能范围。-x x-X p p-P等价变换:说明说明:(1)式表示全及平均指标全及平均指标以抽样平均指标为中心,-落在抽样平均指标x x 范围内;(1)(2)(2)式表示全及成数全及成数以抽样成数为中心,落在抽样成数 p p 范围内。例:某村5 000亩粮食耕地,用不重复抽样方法抽取50亩,求得其平均亩产为400公斤。若确定抽样极限误差为
14、10公斤,请估计5000亩粮食耕地亩产。解:估计亩产例:从某品种农作物播种地块随机抽取秧苗1 000棵,其中死苗80棵。若确定抽样极限误差为3%,试估计该农作物秧苗的成活率区间。解:该农作物秧苗的成活率区间 区间推断的可靠程度区间推断的可靠程度(置信度置信度)令令 则则 依据中心极限定律,当依据中心极限定律,当 n n3030,抽样平均指标近似服从,抽样平均指标近似服从正态分布正态分布,全及指标所落范围就可以用曲线所围成的面积大,全及指标所落范围就可以用曲线所围成的面积大小来计算。小来计算。99.73%95.45%X-3 X-2 X-X X+X+2 X+368.27%其中:概率度 t 与概率
15、F(t)对应概率度 t 与概率 F(t)的对应关系表(常用)概率度(t)概率F(t)概率度(t)概率F(t)0.671.001.501.96 2.000.50000.68270.86640.95000.95452.53.04.04.55.00.987600.997300.999400.999930.99999例6.3 某大学有500人进行高等数学统考,随机抽查20%,所得有关成绩数据如表。试以95.45%的概率保证:(1)估计全部学生的平均成绩;(2)确定成绩在80分以上学生所占的比重和估计人数。考试成绩分组组中值x各组人数占(%)f/f向下累计x f/f(x-x)2f/f 60分以下 60-
16、70 70-80 80-90 90-1005565758595822402550.080.220.400.250.051.000.920.700.300.054.4014.3030.0021.254.7531.047220.70000.066020.522520.6045合 计-1001.00-74.7098.9102 解:(1)由于 n/N=20%5%,应采用不重复抽样公式计算平均误差:因 F(t)=95.45%,即可得到:t=2 由此说明有 95.45%的概率估计全校学生的高等数学统考成绩平均在 72.9276.48 分之间。(2)设80分以上成绩 p=0.3,t=2 估计80分以上人数为
17、:NP=50021.8%=109(人),至 50038.20%=191(人)例6.4 某灯泡厂从一批灯泡中抽取100只进行使用寿命检查,测得其平均寿命为1250小时,标准差为240小时。若推断这批灯泡的使用寿命在11781322小时之间,其可靠程度有多大?解:通过上述计算可知其可靠程度为99.73%.例6.5 某机械厂日产某零件8000只,现用随机不重复抽样方式,从中抽取400只进行质量检验,其中有20只不合格。如果要求推断全部零件的合格率在92.88%到97.12%之间,问其可靠程度有多大?解:抽样合格率为 p=1-20/400=95%通过上述计算可知其可靠程度为95.45%.第四节第四节样
18、本单位数的确定样本单位数的确定一、一、影响抽样单位数影响抽样单位数 n 的主要因素的主要因素被研究总体的标志变动程度被研究总体的标志变动程度样本指标对全及总体指标推断结样本指标对全及总体指标推断结果精确度高低果精确度高低抽样推断估计的可靠性大小抽样推断估计的可靠性大小抽样单位数抽样单位数抽样单位数抽样单位数 n n 计算公式计算公式计算公式计算公式重复随机抽样重复随机抽样重复随机抽样重复随机抽样例6.7 对某县农户进行经济收入调查,设已知农户平均年收入的标准差()为30元,要求可靠程度为95%,允许抽样误差为5元,问至少应抽多少农户进行调查。解:已知=30元,x=5元,F(t)=95%,t=1
19、.96例6.8 抽查一批某产品的合格率,设过去抽查的合格率为95%,现要求允许误差不超过1.5%,可靠程度为95.45%,问至少要抽查多少个产品。解:已知 p=0.95,p=0.015,F(t)=95.45%,t=2 不重复随机抽样不重复随机抽样不重复随机抽样不重复随机抽样例6.9 今对4000件出口产品进行质量抽样检验,按不重复随机抽样1/16的产品进行检查,发现有10件是废品,要求以95%概率保证,推断出这批产品废品率是否超过5%?如果要求抽样误差缩小到原来的1/2,概率不变,则应抽多少件产品?解:已知 N=4000 件,n=40001/16=250 件,F(t)=95%,t=1.96,废品率 p=10/250=4%(1)P=pp=ptp=4%1.961.2%=4%2.35%=1.65%6.23%由计算知,这批产品的废品率会超过5%。(2)若将p 缩小到原来的1/2,p/2=2.35%/2=1.18%例6.10 对一批灯泡进行耐用时间检验,根据过去测定已知的标准差为40小时,合格率为95%,现要求使用寿命的允许误差不超过4小时,或合格率误差范围不超过2%,并以95.45%的概率度保证其可靠性,问两种方法(平均数、成数)各应抽查至少几只灯泡?解:已知=40小时,x=4小时,p=95%p=2%,F(t)=95.45%,t=1(1)(2)
限制150内