《抽样与抽样分布课件.ppt》由会员分享,可在线阅读,更多相关《抽样与抽样分布课件.ppt(43页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、抽样与抽样分布第1页,此课件共43页哦主要内容主要内容l5.1 抽样的概念l5.2 随机抽样的方法l5.3 抽样分布 l5.4 几种来自正态分布的概率分布 l5.5 几种重要统计量的抽样分布第2页,此课件共43页哦5.1 抽样的概念抽样的概念l统计总体(总体/全及总体/母体)指统计研究所确定的客观对象,它是由具有共同性质的许多单位组成的整体。总体(用X表示)中每一个个体是对总体进行随机试验的一个观察值(用 表示),对总体的研究就是对随机变量X的研究,X的分布函数和数字特征就称为总体的分布函数和特征,以后不再区分总体与其对应的随机变量,笼不再区分总体与其对应的随机变量,笼统称为总体统称为总体X
2、X。l总体单位(单位)l样本(Sample)样本是指从统计总体中抽取出来作为代表这一总体的、由部分个体组成的集合体。组成样本的单位称为样本单位。所谓从总体中抽取一个个体,就是对总体X进行一次观察并记录结果,在相同条件下对总体X进行n次重复、独立的观测,将观测结果记为 。有理由认为 是相互独立的,且都是与X具有相同分布的随机变量。这样得到的 ,就是来自总体X的一个简单随机样本。样本值:xnXXX,.,21nXXX,.,21nXXX,.,21nxxx,.,21第3页,此课件共43页哦4.全及指标和抽样指标 l根据全及总体各个单位的变量值计算的,反映总体某种属性的综合指标,称为全及指标。全及指标也称
3、为总体参数,往往是未知的。总体平均数、总体比率p、总体方差 ,总体标准差 。l抽样指标即样本指标、样本统计量,它是根据样本单位标志值计算的综合指标。样本平均数 ,样本比率 ,样本方差 ,样本标准差S S 等等。22SPX第4页,此课件共43页哦5.随机抽样与非随机抽样随机抽样,也叫概率抽样,是按照随机原则即总体中每个单位被抽中的概率相等的抽样方法。据此可以估计推断的精度及抽样的误差。随机抽样分为:简单随机抽样、分层随机抽样、整简单随机抽样、分层随机抽样、整群抽样、系统抽样。群抽样、系统抽样。非随机抽样,也叫非概率抽样、判别性抽样、鉴别抽样。它是抽样人根据自己对事物了解的经验,从总体中有目的地选
4、择一些单位作为样本。如重点调查、典型调查等都属于此。此法不可避免产生倾向性误差(系统偏差)。第5页,此课件共43页哦5.2 随机抽样方法随机抽样方法 5.2.1简单随机抽样(纯随机抽样纯随机抽样)l有限总体的简单随机抽样 假设总体容量N(有限),样本容量n(nN),满足:(1)在抽取样本时,必须保证每一个可能样本被抽到的概率相等;(2)总体中每一个单位被包括在样本中的可能性相等。l例:设总体N=4(A,B,C,D)中抽取n=2组成样本,其可能样本(按不考虑顺序不重复抽样方式):616161616161)(,)(,)(,)(,)(,)(CDpBDpBCpADpACpABp21212121)(,)
5、(,)(,)(DpCpBpAp总体单位总体单位:A B C D:A B C D由由n=2n=2组成的可能样本组成的可能样本:AB AC AD BC BD CD:AB AC AD BC BD CD因为由因为由2 2个人构成的样本只有个人构成的样本只有6 6种可能种可能,所以所以,抽到每一个样本的概率一定等于抽到每一个样本的概率一定等于:某个单位被抽到样本中的概率必定是某个单位被抽到样本中的概率必定是:第6页,此课件共43页哦 l无限总体的简单随机抽样 若把总体视为一个随机变量 ,其概率密度函数为 ,为取自X的样本。当这n个随机变量满足:1.与总体有相同的概率分布;2.它们是相互独立的。则称 为无
6、限总体 的简单随机样本简单随机样本,简称样本。在统计推断问题中遇到的样本都认为是简单随机样本,以后不再一一声明。l说明:样本 ,样本值 即总体X的n个独立的观察值。XXXn,21X)(xfXXXn,21XXXn,21XXXXn,21xxxn,21第7页,此课件共43页哦简单随机抽样的具体做法有如下三种:1.1.抽签法抽签法2.2.随机数字表法随机数字表法3.3.计算机软件中的随机函数产生随机数的功能计算机软件中的随机函数产生随机数的功能举例:从35个同学中,按照随机原则抽取5名。第8页,此课件共43页哦5.2.1重复抽样与不重复抽样 l重复抽样,也叫放回抽样。是指从总体中抽取第1个单位后,把这
7、个单位再放回总体,再抽取第2个单位,以此类推,直到抽足样本所要求的单位数目。l不重复抽样,也叫不放回抽样,是指每次抽取之后,不再将这个单位放回总体。抽样方法不同,抽取样本的数量也不同。l应当注意的是:重复抽样能够保证每次抽取时总体成分不变,即每次抽取时,各单位被抽到的概率保持不变。但是,在重复抽样条件下,同一个总体单位有可能被多次抽到一个样本中去。不重复抽样能够保证每个总体单位在一个样本中最多只能出现一次。很明显,对于较小的有限总体来说,采用不重复抽样,很快就会把总体抽完。第9页,此课件共43页哦不同抽样方法下样本的可能数目不同抽样方法下样本的可能数目 ABABAC BCAC BCAD BD
8、CDAD BD CD不考虑不考虑顺顺 序序AB BA CA DAAB BA CA DAAC BC CB DBAC BC CB DBAD BD CD DCAD BD CD DC考考 虑虑顺顺 序序不不重重复复抽抽样样AAAAAB BBAB BBAC BC CCAC BC CCAD BD CD DDAD BD CD DD不不 考考虑虑 顺顺序序AA BA CA DAAA BA CA DAAB BB CB DBAB BB CB DBAC BC CC DCAC BC CC DCAD BD CD DDAD BD CD DD考考 虑虑顺顺 序序重重复复抽抽样样可可 能能 样样 本本样本的可能数目样本的可能
9、数目设总体设总体N=4(A,B,C,D)N=4(A,B,C,D)中抽取中抽取n=2n=2组成样本组成样本计计 算算公公 式式抽样方法抽样方法nNM!1!1nnNNM10!2)!124()!14(!nNNM12!24!4!nnNNM6!2!24!42 2一投资者想从一张最灵敏的25中股票表中选择5种股票的一组。则他必须研究()个不同的组。第10页,此课件共43页哦5.2.2 其他近似随机抽样方法其他近似随机抽样方法l系统抽样l分层抽样l整群抽样第11页,此课件共43页哦系统抽样系统抽样l系统抽样又叫等距抽样或机械抽样。它是先把总体所有单位按某一标志排队,并根据总体单位数(N)与样本单位数(n)的
10、比例(N/n)计算出抽样距离和间隔,随机确定一个起始点作为第一个样本单位,以后每隔相等的距离和间隔抽取样本单位。l根据进行排队时是否与调查项目无关的,分为有关标志排队法和无关标志排队法。l例如,对某校学生学习情况进行调查,如按学号排序就是无关标志排例如,对某校学生学习情况进行调查,如按学号排序就是无关标志排队;如按考试分数排序就是有关标志排队。队;如按考试分数排序就是有关标志排队。l在实际进行抽样时,要避免抽样间隔和现象本身的周期性节奏相重合引起系统性的影响,如工业产如工业产品质量抽查,产品抽查时间间隔不宜和上下班时间一致,防品质量抽查,产品抽查时间间隔不宜和上下班时间一致,防止发生系统性偏差
11、。止发生系统性偏差。第12页,此课件共43页哦分层抽样分层抽样l分层抽样又叫类型抽样或分类抽样,它是先将总体各单位按某一有关标志分成若干个类型组,然后按照一定比例再从各类型组中随机抽取样本单位。l例如,调查美国选民的政治意愿,可先将全部选民划分为不例如,调查美国选民的政治意愿,可先将全部选民划分为不同阶层:低收入阶层、中产阶层、高收入阶层,然后再从这同阶层:低收入阶层、中产阶层、高收入阶层,然后再从这些阶层中按一定比例抽选选民。些阶层中按一定比例抽选选民。l分层抽样可以提高样本的代表性,减少抽样误差。分层抽样适用于那些总体情况复杂、各单位之间差异较大、单位数量较多的抽样调查问题。l从各类型中抽
12、样的方法:等比例抽样不等比例抽样第13页,此课件共43页哦l等比例抽样 若需从总体(N)中抽取n个样本,即抽样比例则各类型中应抽取的样本数为:换句话说,在样本中各类型的单位数比例与总体中相应各类型单位数比例一致,即样本是总体“结构相同的缩小版”。l举例:全美选民5000万,要抽选5000人,则抽样比例为f=1/10000,各阶层选民数及抽样数见下表。Nnf NNniiiNnf类型选民数(万)抽样数(个)比例(%)低收入阶层2800280056中产阶层2000200040高收入阶层2002004总计50005000100第14页,此课件共43页哦l将总体所有单位划分为若干个群(组),然后以群(组
13、)为单位从中随机抽取部分群(组),对抽中的群(组)内所有单位进行全面调查的抽样组织形式。l如调查某县小学教育情况,从该县中随机抽取若干个小学,然后对抽中的小学进行全面调查。l类型抽样和整群抽样的适用条件:当每组内部的差别较小,而各组之间差别较大时,采用类型抽样效果比较好;当每组内部差别相当大,而各组之间却非常类似时,适宜采用整群抽样。整群抽样整群抽样第15页,此课件共43页哦5.3 抽样分布抽样分布5.3.1 抽样分布的概念抽样分布的概念l统计量若从无限总体X中抽取容量为n的样本 ,则函数 称为样本统计量,简称为统计量。常用统计量有:常用统计量有:样本均值样本均值 样本方差样本方差 样本标准差
14、样本标准差 样本成数样本成数nXXiXXXn,21),(21XXXng22)(11XXnSinnPi2SS 第16页,此课件共43页哦l抽样分布 无论有限总体还是无限总体,只要所要求的样本容量小于总体容量,即nN,那么,可能抽取的样本就不只1个。一般情况下,从同一总体中抽取不同的样本,其统计量的值是不同的,每个统计量的值都有一定的概率。样本统计量的概率分布,叫抽样分布。(或说:统计量的分布即抽样分布)第17页,此课件共43页哦5.4 三个来自正态分布的概率分布三个来自正态分布的概率分布l 正态分布 l 分布lt 分布lF 分布l要求:统计学的要求:统计学的4 4大分布,要求掌握定义、密度函数图
15、形的轮廓,大分布,要求掌握定义、密度函数图形的轮廓,会使用分位点表写出分位点。会使用分位点表写出分位点。l注意:无论是总体注意:无论是总体X X,还是样本统计量都是随机变量,都有一,还是样本统计量都是随机变量,都有一定的分布形式,即服从何种分布。对于前者,我们说总体服从何定的分布形式,即服从何种分布。对于前者,我们说总体服从何种分布,对于后者可以说统计量服从何种分布,抑或统计量的抽种分布,对于后者可以说统计量服从何种分布,抑或统计量的抽样分布是何种分布。样分布是何种分布。2第18页,此课件共43页哦正态分布正态分布(1)设连续型随机变量X的概率密度为则称X服从参数 、的正态分布,记作XN(,)
16、,其中 和 分别是X的均值和方差。(2)正态分布的分布函数为:(3)正态分布的期望值和方差为:222)(221)(xexfx2dtexXPxFxt22)(221)()(x2)()(XDXE2第19页,此课件共43页哦1 正态分布:随 变化的情态2 正态分布:随 变化的情态2/1结论:1.正态分布以X=为对称轴;2.其陡缓程度取决于 ,越大越平缓,反之,越小越陡峭。3.曲线拐点为X=4.正态曲线以x轴为渐近线。22)(221)(xexf第20页,此课件共43页哦l标准正态分布当正态分布 时,称X服从标准正态分布,记作XN(0,1)。常用 表示其概率密度和分布函数,即:l标准正态分布的性质:数学期
17、望和方差分别为0,1以X=0为对称轴对称分布,且分布曲线同横轴所包围面积为常数1 1,0NoImage)()(xx、2221)(xexdtexXPxxt2221)()(xx)(1)(xx)()()(abbXaP1)(2)()()(aaaaXP第21页,此课件共43页哦正态分布转化为标准正态分布正态分布转化为标准正态分布l对于一般的正态分布 ,只需设 即通过线性化转换为新的随机变量Z,其服从标准正态分布,即 。因而求一般正态分布在某区间上概率,就转化为求标准正态分布在相应区间上的概率。l若 ,则 l分布函数)(2,NXZ)10(,NZ)()()()(xxXPxXPxF)(2,NX)10(,NXZ
18、)()()()(122121xxxXxPxXxP第22页,此课件共43页哦例:例:l设 ,求X落在(0,1.6)的概率)21(2,NX3094.06915.016179.0)5.0(1 6179.0)5.0()3.0()210()216.1()6.10(XP第23页,此课件共43页哦 被称为标准正态分布的上 分位点(数),或称为上侧100 百分位点(数)(2)若有:被称为双侧分位点(数),或双侧100 百分位点(数)(3)标准正态分布的上 分位点表z2/z2/zZp0.0010.0050.010.0250.050.103.0902.5762.3271.9601.6451.282z标准正态分布的
19、分位点z (1)若ZN(0,1),对于给定的 ,0 30时,中心极限定律)1,0(/)/,(2NnXnNX,或第26页,此课件共43页哦 4个雇员中抽取个雇员中抽取2个的可能样本及相关计算值个的可能样本及相关计算值xx2x序号序号可能样本可能样本样本变量样本变量样本均值(样本均值()1 1AAAA20,2020,202020-3-39 92 2ABAB20,2220,222121-2-24 43 3ACAC20,2420,242222-1-11 14 4ADAD20,2620,2623230 00 05 5BABA22,2022,202121-2-24 46 6BBBB22,2222,2222
20、22-1-11 17 7BCBC22,2422,2423230 00 08 8BDBD22,2622,2624241 11 19 9CACA24,2024,202222-1-11 11010CBCB24,2224,2223230 00 01111CCCC24,2424,2424241 11 11212CDCD24,2624,2625252 24 41313DADA26,2026,2023230 00 01414DBDB26,2226,2224241 11 11515DCDC26,2426,2425252 24 41616DDDD26,2626,2626263 39 9合计合计3683680 0
21、4040第27页,此课件共43页哦l样本平均数的均值 (件),即与=23件相等。l样本平均数的标准差(抽样平均误差抽样平均误差)(件)l可验证:(件),即:上述公式,适用于总体无限,或总体虽有限但有放回的情况。而若总体有限,考虑顺序不放回抽样情况有如下结论:2316368MXx58.116402MXXX58.12236.2nnXXXE)(1)(22NnNnXDX特殊地,当n/N5%时,可不加修正。第28页,此课件共43页哦 (的抽样分布的)(的抽样分布的)均值和方差为:X)()(XEMXXEiXnnXDMXEXXDiX/)()()(222样本平均数的标准差(抽样平均误差)nMXEXX2)(第2
22、9页,此课件共43页哦有限总体的修正系数 XXE)(nX22 XXE)()1(22NnNnXnX1NnNnX抽 样 方 法均 值方 差标 准 差(抽样平均误差)(抽样平均误差)(1)从无限总体抽样和有限总体放回抽样(2)从有限总体不放回抽样)1(,2NnNnNX对于第2种情况:中心极限定律变为:当nN 时(n/N 5%),可不加修正。第30页,此课件共43页哦例题例题1l某种切削工具的平均使用寿命为41.5小时,标准差为2.5小时。对于取自这一总体的容量为50的随机样本,其平均值为40.5小时和42小时之间的概率有多大?l分析:该例并没有告诉我们总体的分布形态。但是,由于样本容量n=50为大样
23、本,我们可以利用中心极限定理,其抽样分布近似服从正态分布。l解:所求概率为:505.2505.25.41425.415.40)425.40(ZPXP)43.186.2(ZP9026.01979.09236.086.21 43.186.243.1)()()()()1,0(/)/,(2NnXZnNX,或第31页,此课件共43页哦2.正态总体之样本均值 的抽样分布l 已知,已知l定律2:设总体XN(,),则有,结论1:或 X2)/,(2nNX)1,0(/NnXZ注意:因为总体服从正态分布,按照随机原则,抽样得到的样本均值必定服从正态分布,而无论样本容量n是否能达到30个。第32页,此课件共43页哦例
24、题例题2l某品牌某型号汽车的损伤压强(以公斤/平方寸计量)是一个近似服从正态分布的随机变量。平均值为2800公斤/平方寸,标准差为96公斤/平方寸。假定从这一总体抽选了一个容量为10的简单随机样本,并对每一辆汽车作撞击试验,直到它们破坏程度能够伤害人员为止。试问:使样本中的汽车平均损伤压强不超过2750公斤/平方寸的概率有多大?l解总体近似服从正态分布,且已知总体方差。凡从正态总体中抽样,不论是大样本(n30),还是小样本,只要已知总体方差,其样本平均值的抽样分布均服从正态分布,即有:nNX2,第33页,此课件共43页哦l令:l所求概率为:nXXzxx109628002750)2750(nXP
25、XP)65.1(1)65.1(1)65.1()65.1(zPzPzP=1-0.9505=0.0495。第34页,此课件共43页哦l 已知,未知定律3:为来自X的样本,样本均值和方差分别为:,则有:X2SXXXn,21)1(/ntnSXt证明见P103,4-20)1,0(/NnXZ2说明:如果n很大,那么用 就是 的一个很好的估计量,仍然是一个近似的标准正态分布。如果n比较小(30,或者n5%),需对样本比率的方差进行修正:1)1()(NnNnppPDP第39页,此课件共43页哦小测验小测验一、判断题l统计学家把所要研究的对象的全部单位,叫做“总体单位”;从总体中抽出的一部分单位,叫做“样本单位
26、”。l抽样方法区分为随机抽样和非随机抽样。l从正态总体中抽样,抽样分布是正态分布,从非正态总体中抽样(抽取大样本),抽样分布也是正态分布。4.样本容量与抽样平均误差的成正比关系。样本平均数的标准差(抽样平均误差)nMXEXX2)(参考答案:参考答案:1T 2T 3T 4F1T 2T 3T 4F第40页,此课件共43页哦小测验小测验 1.设x1,x2,xn是X的样本,且 ,则有:以上都不对2.设XN(2,9),X1,X2,X10是X的样本,则有:N(2,0.9)N(20,90)N(20,9)N(2,9)N(2,90)XnXXnii1 XEX XEX XEnX1 XDX XXXX参考答案:参考答案
27、:1 1 2 2 )()(XEnXXEXi222)()()()(XDXEXEMXEXXDXi第41页,此课件共43页哦3.抽样成数是一个:结构相对数 比较相对数 比例相对数 强度相对数 动态相对数4、连续生产的电子管厂,产品质量检验是这样安排的,在一天中,每隔1小时取下5分钟的产量进行全部检验,这是:简单随机抽样 分层抽样 机械抽样 整群抽样 鉴别抽样5、在简单纯随机重复抽样条件下,抽样单位数(即样本容量)扩大为原来的4倍,则抽样平均误差应:扩大4倍 扩大2倍 缩小1/2 缩小1/4 没有变化样本平均数的标准差(抽样平均误差)nMXEXX2)(参考答案:参考答案:3 3 4 4 5 5 第42页,此课件共43页哦6.抽样分布是指:全部总体参数的概率分布 全部可能样本统计量的概率分布 全部总体单位标志值的概率分布 全部可能样本平均数的概率分布 全部可能样本成数的概率分布8.设 是X的样本,X的方差为D(X),样本方差为 ,则有:以上都不对)(2XDS)(2XDS)()1(2XDSn)(22XS参考答案:参考答案:6 6 8 8 nXXX,21niiXXns12211第43页,此课件共43页哦
限制150内