《抽样与抽样分布(5).pptx》由会员分享,可在线阅读,更多相关《抽样与抽样分布(5).pptx(61页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、STAT本章重点本章重点1 1、简单随机抽样、简单随机抽样2 2、 的抽样分布的抽样分布3 3、 的抽样分布的抽样分布4 4、其他组织形式的抽样、其他组织形式的抽样本章难点本章难点1 1、抽样分布原理、抽样分布原理2 2、中心极限定理、中心极限定理xp一、抽样的几个基本概念一、抽样的几个基本概念(一)全及总体和样本总体(一)全及总体和样本总体(二)总体参数和样本统计量(二)总体参数和样本统计量(三)重置抽样与不重置抽样(三)重置抽样与不重置抽样二、抽样组织形式二、抽样组织形式(一)简单随机抽样(一)简单随机抽样(二)分层随机抽样(二)分层随机抽样(三)整群抽样(三)整群抽样(四)等距抽样(四)
2、等距抽样(五)多阶段抽样(五)多阶段抽样STAT一、抽样的几个基本概念一、抽样的几个基本概念(一)全及总体和样本总体(一)全及总体和样本总体STAT又称总体或母体,是统计抽样中所要又称总体或母体,是统计抽样中所要了解的研究对象整体。具有唯一性。了解的研究对象整体。具有唯一性。又称样本或子样,是指在统计抽样中又称样本或子样,是指在统计抽样中按照按照“等机会原则等机会原则”从全及总体中抽从全及总体中抽出的部分单位。样本不具唯一性。出的部分单位。样本不具唯一性。在在100100万户居民中,随机抽取万户居民中,随机抽取10001000户居民进行户居民进行家庭收支情况调查,其中的家庭收支情况调查,其中的
3、100100万户居民就是全及总体,万户居民就是全及总体,而被抽中的而被抽中的10001000户居民则构成样本总体。户居民则构成样本总体。n30n30称为大样本称为大样本, ,n n3030称为小样本称为小样本. .n/Nn/N称为抽样比称为抽样比. .(二)总体参数和样本统计量(二)总体参数和样本统计量根据全及总体各单位变量值计算的反映根据全及总体各单位变量值计算的反映全及总体某数量特征的综合指标,由于全及总体某数量特征的综合指标,由于全及总体唯一确定,故称总体参数。全及总体唯一确定,故称总体参数。根据样本总体各单位变量值计算的反映根据样本总体各单位变量值计算的反映样本总体某数量特征的综合指标
4、,由于样本总体某数量特征的综合指标,由于样本总体不具唯一性,故称为样本统计样本总体不具唯一性,故称为样本统计量,它是一个随机变量。量,它是一个随机变量。STAT总体参数和样本统计量符号总体参数和样本统计量符号STAT统计推断统计推断参数(未知量)参数(未知量)统计量(已知量统计量(已知量)STAT(三)重置抽样与不重置抽样(三)重置抽样与不重置抽样STAT抽出抽出个体个体登记登记特征特征放回放回总体总体继续继续抽取抽取(三)重置抽样与不重置抽样(三)重置抽样与不重置抽样STAT抽出抽出个体个体登记登记特征特征继续继续抽取抽取二、抽样组织形式二、抽样组织形式STAT(一)简单随机抽样(单纯随机抽
5、样)(一)简单随机抽样(单纯随机抽样)二、抽样组织形式二、抽样组织形式STAT(二)分层随机抽样(类型抽样)(二)分层随机抽样(类型抽样)总体总体N N样本样本n n等额抽取等额抽取等比例抽取等比例抽取2NkN1N1n2nkn二、抽样组织形式二、抽样组织形式STAT(三)整群抽样(集团抽样)(三)整群抽样(集团抽样)hlpdnnnnnABCDEFGHIJKLMNOPLHPD样本容量样本容量二、抽样组织形式二、抽样组织形式STAT(四)等距抽样(机械抽样或系统抽样)(四)等距抽样(机械抽样或系统抽样)二、抽样组织形式二、抽样组织形式STAT(五)多阶段抽样(五)多阶段抽样STAT(一)正态分布的
6、定义及其特征(一)正态分布的定义及其特征STATxxfx,e21)(2221f(x) = 随机变量随机变量 X 的概率的概率分布密度函数分布密度函数 = 总体均值总体均值 = 总体方差总体方差 =3.1416; e = 2.7183正态分布的特征正态分布的特征1.1.概率密度函数在概率密度函数在x x 的上方,即的上方,即f f ( (x x)0)0。2.2.正态曲线的最高点在均值正态曲线的最高点在均值 ,它也是分布的中,它也是分布的中位数和众数。位数和众数。3.3.正态分布是一个分布族,每一特定正态分布正态分布是一个分布族,每一特定正态分布通过均值通过均值 的标准差的标准差 来区分。来区分。
7、4.4.曲线曲线f f( (x x) )相对于均值相对于均值 对称,尾端向两个方向对称,尾端向两个方向无限延伸,且理论上永远不会与横轴相交。无限延伸,且理论上永远不会与横轴相交。5.5.正态曲线下的总面积等于正态曲线下的总面积等于1 1。6.6.随机变量的概率由曲线下的面积给出。随机变量的概率由曲线下的面积给出。STAT 和和 对对正态曲线的影响正态曲线的影响xCAB正态分布的概率正态分布的概率abxf(x)?d )()(baxxfbxaP概率是曲线下的面积概率是曲线下的面积! !(二)标准正态分布(二)标准正态分布标准正态分布的概率密度函数标准正态分布的概率密度函数标准正态分布的分布函数标准
8、正态分布的分布函数STAT221( )2xxe221( )2uxxedu(二)标准正态分布(二)标准正态分布STAT一般正态分布一般正态分布XZ标准正态分布标准正态分布1.计算概率时计算概率时 ,查标准正态概率分布表,查标准正态概率分布表2.对于负的对于负的 x ,可由,可由 (-x) x 得到得到3.对于标准正态分布,即对于标准正态分布,即XN(0,1),有,有P (a X b) b a P (|X| a) 2 a 14.对于一般正态分布,即对于一般正态分布,即XN( , ),有,有STATabbXaP)(【例例】设设XN(0,1),求以下概率:求以下概率: (1) P(X 2); (3)
9、P(-1X 3) ; (4) P(| X | 2) 解解:(1) P(X 2)=1- P(2 X)=1-0.9973=0.0227 (3) P(-1X 3)= P(X 3)- P(X 2 当当n充分大时,其图形类似于标准正态分充分大时,其图形类似于标准正态分布密度函数的图形布密度函数的图形. 0);(nxfLimxt分布的密度函数关于分布的密度函数关于x=0对称,且对称,且 不难看到,当不难看到,当n充分大时,充分大时,t 分布近分布近似似N (0,1)分布分布. 但对于较小的但对于较小的n,t分布分布与与N (0,1)分布相差很大分布相差很大.STAT)(22n记为记为定义定义: 设设 相互
10、独立相互独立, 都服从正态都服从正态分布分布N(0,1), 则称随机变量:则称随机变量: 所服从的分布为自由度为所服从的分布为自由度为 n 的的 分布分布.nXXX,21222212nXXX22分布是由正态分布派生出来的一种分布分布是由正态分布派生出来的一种分布 2分布的特点分布的特点1. 分布的变量值始终为正分布的变量值始终为正 2. 分布的形状取决于其自由度分布的形状取决于其自由度n的大小,通的大小,通常为不对称的正偏分布,但随着自由度的常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称增大逐渐趋于对称 3. 期望为:期望为:E( 2)=n,方差为:,方差为:D( 2)=2n(n为为自由
11、度自由度) 4. 可加性:若可加性:若U和和V为两个独立的为两个独立的 2分布随分布随机变量,机变量,U 2(n1), V 2(n2),则则U+V这一这一随机变量服从自由度为随机变量服从自由度为n1+n2的的 2分布分布 STAT2分布 选择容量为选择容量为n 的的简单随机样本简单随机样本计算样本方差计算样本方差S2计算卡方值计算卡方值 2 = (n-1)S2/2计算出所有的计算出所有的 2值值总体总体2由由 分布的定义,不难得到:分布的定义,不难得到:),(2N1. 设设 相互独立相互独立, 都服从正态分布都服从正态分布nXXX,21则则)()(121222nXnii)(21221nnXX)
12、,(),(222121nXnX2. 设设 且且X1,X2相互相互独立,则独立,则这个性质叫这个性质叫 分布的可加性分布的可加性.2应用中心极限定理可得,若应用中心极限定理可得,若 ,则当则当n充分大时,充分大时,)(2nX若若2Xnn 的分布近似正态分布的分布近似正态分布N(0,1).则则可以求得,可以求得, E(X)=n, D(X)=2n),(2nX若若1.由统计学家费舍由统计学家费舍(R.A.Fisher) 提出的,以其姓氏的提出的,以其姓氏的第一个字母来命名则第一个字母来命名则2.设若设若U为服从自由度为为服从自由度为n1的的 2分布,即分布,即U 2(n1),V为服从自由度为为服从自由
13、度为n2的的 2分布,即分布,即V 2(n2),且且U和和V相相互独立,则互独立,则 称称F为服从自由度为服从自由度n1和和n2的的F分布,记为分布,记为21nVnUF ),(21nnFFSTATF F分布分布即它的数学期望并不依赖于第一自由度即它的数学期望并不依赖于第一自由度n1. 0001)()()()(),;(222221212112121212121xxxxnnxfnnnnnnnnnnnnnX的数学期望为的数学期望为:2)(22nnXE若若n22若若XF(n1,n2), X的概率密度为的概率密度为一、抽样推断的理论基础一、抽样推断的理论基础二、单一总体样本均值、样本比二、单一总体样本均
14、值、样本比例的抽样分布例的抽样分布三、两个总体均值之差、比例之三、两个总体均值之差、比例之差的抽样分布差的抽样分布STAT一、抽样推断的理论基础一、抽样推断的理论基础大数定律(大数法则)大数定律(大数法则)如果随机变量总体存在着有限的平均数和如果随机变量总体存在着有限的平均数和方差,则对于充分大的抽样单位数方差,则对于充分大的抽样单位数n n,可以,可以以几乎趋近于以几乎趋近于1 1的概率,使抽样平均数与总的概率,使抽样平均数与总体平均数的绝对离差的期望为任意小,即体平均数的绝对离差的期望为任意小,即对于任意的正数有:对于任意的正数有:STATlim()1inP x5 . 21NXNii25.
15、 1)(122NXNii3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第二个观察值第一个第一个观察值观察值所有可能的所有可能的n = 2 的样本(共的样本(共16个)个)3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第二个观察值第一第一个个观察观察值值16个样本的均值(个样本的均值(x)所有样本均值的均值和方差nMxnixix222122625. 016)5 . 20 . 4()5 . 20 . 1 ()(5 . 2160 . 45 . 1
16、0 . 11Mxniix样本均值的分布与总体分布的比较5 . 2x625. 02x中心极限定理中心极限定理 定理:设定理:设X X是具有期望值为是具有期望值为 ,方差为,方差为 的任意总体,则样本平均数的抽样分布,的任意总体,则样本平均数的抽样分布,将随着将随着n n的增大而趋于正态分布,分布形的增大而趋于正态分布,分布形式(参数)为式(参数)为STAT2( ,/ )xNn 2中心极限定理中心极限定理 xn 中心极限定理:设从均值为中心极限定理:设从均值为 ,方差为方差为 2的一个任意总的一个任意总体中抽取容量为体中抽取容量为n的样本,当的样本,当n充分大时,样本均值的充分大时,样本均值的抽样
17、分布近似服从均值为抽样分布近似服从均值为、方差为方差为2/n的正态分布的正态分布 x 二、单一总体样本均值、二、单一总体样本均值、样本比例的抽样分布样本比例的抽样分布STATX510样本抽样分布样本抽样分布原总体分布原总体分布xX1. 样本均值的数学期望样本均值的数学期望2. 样本均值的方差样本均值的方差重复抽样重复抽样不重复抽样不重复抽样样本均值的抽样分布样本均值的抽样分布)(XEnX22122NnNnXSTAT1. 样本比例的数学期望样本比例的数学期望2. 样本比例的方差样本比例的方差重复抽样重复抽样不重复抽样不重复抽样样本比例的抽样分布样本比例的抽样分布)(PEnP)1 (21)1 (2
18、NnNnPSTAT例例3 3:假定某统计人员在填写的报表中有:假定某统计人员在填写的报表中有2%2%至少会至少会有一处错误,如果我们检查了一个有有一处错误,如果我们检查了一个有600600份报表组份报表组成的随机样本,其中至少有一处错误的报表所组成的随机样本,其中至少有一处错误的报表所组成的比例在成的比例在0.0250.0700.0250.070之间的概率有多大?之间的概率有多大?.().6000 0210 02 0 980 005760020 020 001140 008620 020 001140 0314pppppppn解解:设设份份报报表表中中有有一一处处错错误误的的比比例例为为 ,则
19、则又又三、两个总体均值之差、三、两个总体均值之差、比例之差的抽样分布比例之差的抽样分布1.1. 两个总体都为正态分布,即两个总体都为正态分布,即 2.2. 两个样本均值之差两个样本均值之差 的抽样分布服从正的抽样分布服从正态分布,其分布的数学期望为两个总体均值态分布,其分布的数学期望为两个总体均值之差之差3.3. 方差为各自的方差之和方差为各自的方差之和 两个总体均值之差的抽样分布两个总体均值之差的抽样分布),(2111NX),(2222NX21XX 2121)( XXE222121221nnXXSTAT两个总体均值之差的抽样分布两个总体均值之差的抽样分布 总体总体1 总体总体2抽取简单随机样
20、抽取简单随机样样本容量样本容量 n1计算计算X1抽取简单随机样抽取简单随机样样本容量样本容量 n2计算计算X2计算每一对样本计算每一对样本的的X1-X2所有可能样本所有可能样本的的X1-X2 STAT例例1 1。设有甲、乙两所著名高校在某年新生录取时,甲。设有甲、乙两所著名高校在某年新生录取时,甲校的平均分为校的平均分为655655分,且服从正态分布,标准差为分,且服从正态分布,标准差为2020分,分,乙校的平均分为乙校的平均分为625625分,也服从正态分布,标准差为分,也服从正态分布,标准差为2525分。现从甲、乙两校随机抽取分。现从甲、乙两校随机抽取8 8名新生计算其平均分,名新生计算其
21、平均分,出现甲校比乙校的平均分低的可能性有多大?出现甲校比乙校的平均分低的可能性有多大?004065282582062565500222221212121212221212121.).()()()(),( ZPnnXXPXXPnnNXX于是分布,且的平均成绩也服从正态新生正态分布,故两所学校解:因为两个总体均为这表明出现甲校平均分比乙校低可能性很小,不到这表明出现甲校平均分比乙校低可能性很小,不到1%1.1. 分别从两个总体中抽取容量为分别从两个总体中抽取容量为n n1 1和和n n2 2的独立样本,当两个样本都为大样本的独立样本,当两个样本都为大样本时,两个样本比例之差的抽样分布可时,两个样本比例之差的抽样分布可用正态分布来近似用正态分布来近似2.2. 分布的数学期望为分布的数学期望为3.3. 方差为各自的方差之和方差为各自的方差之和 两个总体比例之差的抽样分布两个总体比例之差的抽样分布2121)( PPE2221112)1 ()1 (21nnPPSTAT
限制150内