《4抽样与抽样分布.pptx》由会员分享,可在线阅读,更多相关《4抽样与抽样分布.pptx(53页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、4 统计抽样与抽样分布统计抽样与抽样分布u 抽样的基本概念u 抽样方法u 抽样分布的概念u 样本均值的抽样分布本章的学习目的本章的学习目的u本章的学习目的是为了认识到通过样本推断总体的科学性。u当总体元素非常多,或者检查具有破坏性时,需要进行抽样抽样。抽样抽样的目的是为了推断总体的数量特征,但这种推断必定伴有某种程度的不确定性,需要用概率来表示其可靠程度,这是推断统计的重要特点。案例案例u1936年美国总统选举的预测,民主党罗斯福VS共和党兰登。文摘邮寄了1000万份调查表;收回240万万份,预测兰登获得57%的选票获胜。而盖洛普研究所仅仅随机抽取了2000 多选民,预测罗斯福将得到54%的选
2、票获胜。u选举结果是罗斯福获得62%的选票获胜。u此后,盖洛普研究所每年用10001500人的样本快速准确的预测选举,误差在2%之内。抽样的基本概念抽样的基本概念u抽样调查抽样调查,按照随机原则从全部研究对象中抽取一部分单位进行调查,并以调查结果对总体数量特征作出具有一定可靠程度的估计与推断,从而认识总体的一种统计方法。u随机原则随机原则:指样本单位的抽取不受主观因素及其他系统性因素的影响,每个总体单位都有均等的被抽中机会。随机原则的实现随机原则的实现u抽签法抽签法,是将总体中每个单位的编号写在外形完全一致的签上,将其搅拌均匀,从中任意抽选,签上的号码所对应的单位就是样本单位。u随机数表法随机
3、数表法:将总体中每个单位编上号码,然后使用随机数表,查出所要抽取的调查单位。u计算机模拟法计算机模拟法:是将随机数字编制为程序存储在计算机中,需要时将总体中各单位编上号码,启用随机数字发生器输出随机数字。抽样的基本概念抽样的基本概念u总体总体,要研究的调查对象的全体。u个体个体,组成总体的每个元素。u样本样本:从总体中随机抽取的部分个体。u样本容量样本容量:样本中所含的个体数量。样本和总体(样本和总体(sample & population)u视频教学抽样误差抽样误差167CM 169CM 172CM 160CM 162CM 167CM 175CM 180CM 165CM 167CM170CM
4、 175CM 178CM 180CM 162CM 173CM 155CM 160CM 170CM 165CM平均身高平均身高=169.8CM平均身高平均身高=174.6CM总平均身高总平均身高=168.6CM抽样的基本概念抽样的基本概念u抽样误差抽样误差:用于抽样的随机性所带来的误差,是一种固有误差。u非抽样误差非抽样误差:调查过程中发生的误差,以及由于主观因素破坏了随机性原则而产生的系统性偏差,是可以避免的。随机抽样设计随机抽样设计u不同的抽样方式,对抽样结果有很大影响,根据研究目的和要求,以及具体情况选择抽样方式;u简单随机抽样、等距抽样、类型抽样、整群抽样、多阶段抽样等。抽样方法概率抽样
5、抽样方法概率抽样根据已知的概率选取样本根据已知的概率选取样本u简单随机抽样:简单随机抽样:完全随机抽取样本;u分层抽样:分层抽样:总体分“层”,在每一层内进行抽样;u整群抽样:整群抽样:将总体划分为若干群,将一组被调查者(群)作为一个抽样单位。(群内的个体存在差异,理想情况是每个群都是总体的一个缩影)u等距抽样:等距抽样:在样本框中,每隔一定距离抽选一个被调查者。抽样方法非概率抽样抽样方法非概率抽样不是完全按照随机原则选取样本不是完全按照随机原则选取样本u非随机抽样:非随机抽样:由调查人员自由选取被调查者;u判断抽样:判断抽样:通过某些条件过滤来选取被调查者;抽样分布抽样分布u在讨论抽样分布之
6、前,需要回顾以下一些与概率分布有关的概念:u随机变量、离散型随机变量离散型随机变量及其概率分布、连续型随机变量连续型随机变量及其概率分布。u概率密度函数。随机变量(随机变量(Random Variable)u随机变量随机变量是表征一个随机试验结果的变量,其数值由一次试验结果所决定,但是在试验之前是不确定的。u随机变量的所有可能取值就是所有基本事件对应的值。通常用英文大写字母或希腊字母表示。u离散型、非离散型、连续型。随机变量(随机变量(Random Variable)u离散型随机变量:投掷骰子;u非离散型随机变量:某路口24小时内经过的车辆;u连续型随机变量:灯泡寿命。离散型随机变量离散型随机
7、变量u离散型随机变量离散型随机变量的取值域由有限个或可数多个数值或符号组成。u其概率是指离散型随机变量(X)取一个具体数值(x)的概率,即P(X= x)。u离散型随机变量的概率分布是指离散型随机变量取遍每一个实验结果x的概率的分布情况,常用列表表示,如下表。离散型随机变量离散型随机变量X的取值的取值x123456X的概率的概率 P(X=x)1/6 1/6 1/6 1/6 1/6 1/6连续型随机变量连续型随机变量u连续型随机变量连续型随机变量的取值域为一个连续区间。u只有在(连续的)区间上取值时,其概率才可能为正值,连续型随机变量在任何一点上的概率都为零。1)(021xXxP)(21xx 0)
8、()(21xXPxXP概率密度函数概率密度函数u连续型随机变量的概率密度函数概率密度函数 f (x)xduufxXPxF)()()()()(xFxfu概率密度函数的含义:曲线 f (x)下任何一个区间的面积,等于随机变量 X 在该区间取值的概率。最常见的连续型随机变量的概率分布最常见的连续型随机变量的概率分布u正态分布正态分布(P40)。若随机变量若随机变量X的概率密度函数的概率密度函数,21)(222)(xexfx),(2NX记为记为 最常见的连续型随机变量的概率分布最常见的连续型随机变量的概率分布标准正态分布标准正态分布:1, 02标准正态分布标准正态分布XZ标准正态分布的计算标准正态分布
9、的计算u u u )(1)(zz)()()(abbZaP1)(2)(aaZu u u 95. 0)96. 1( Z99. 0)58. 2( Z90. 0)645. 1( Z例例: 设随机变量设随机变量X N(0,1),求下列概率:,求下列概率: (1)P(X1); (4)P(-1.80X2.45) (1) 查正态分布数值表查正态分布数值表,当当x=0时时,对应的对应的 (x)=0.5 (2) 查正态分布数值表,当查正态分布数值表,当x=2.77时,对应的时,对应的 (x)=0.9972, 所以所以P(X1)=1-P(X 1)=1- (1)查正态分布数值表,查正态分布数值表, (1)=0.841
10、3所以所以 P(X1)=1- (1)=0.1587例例: 设随机变量设随机变量X N(0,1),求下列概率:,求下列概率: (1)P(X1); (4)P(-1.80X2.45)(4) 因为因为P(-1.80X2.45)= (2.45)- (-1.80)= (2.45)-1- (1.80) 查正态分布数值表查正态分布数值表, (2.45)=0.9929, (1.80)=0.9641, 所以所以 P(-1.80X2.45)=0.9929-1-0.9641=0.9570正态分布的计算正态分布的计算 例题例题u某厂生产的某种节能灯管使用寿命服从正态分布,对某批次产品的测试结果,平均使用寿命为1050小
11、时,标准差为200小时。求:1. 使用寿命在500小时以下的灯管占多大比例?2. 使用寿命在8501450小时的灯管所占比例?3. 以均值为中心,95%的灯管使用寿命的范围?什么是抽样分布?什么是抽样分布?u如果要估计总体的均值 ;是用样本平均值 ,还是用中位数m?u还是掷骰子,总体均值第一次,2,2,6,m=2第二次,3,4,6,m=4,u可见,不能仅仅根据一个样本去比较是 和 mu样本统计量本身是随机变量,抽样分布抽样分布就是由样本n个观察值计算的统计量的概率分布。x5 . 333. 3x33. 4xx样本均值的抽样分布样本均值的抽样分布 u一个总体1,2,3,4. 重复抽样方法,先抽一个
12、,放回,再抽一个。u样本均值 的抽样分布x样本均值的抽样分布样本均值的抽样分布 u有放回(with replacement)抽样 123411,112,11.53,124,12.521,21.52,223,22.54,2 331,322,32.53,3 34,3 3.541,42.52,433,43.54,44样本均值的抽样分布样本均值的抽样分布 的取值 的个数概率1.011/161.522/162.033/162.544/163.033/163.522/164.011/16xx样本均值的抽样分布样本均值的抽样分布 x)(xP 1.0 1.5 2.0 2.5 3.0 3.5 4.0中心极限定理
13、中心极限定理u中心极限定理中心极限定理:不论该总体服从何种分布,只要当样本容量足够大( ),样本均值的分布都近似服从正态分布。u视频:中心极限定理 u视频:样本均值的抽样分布30n ),(2nNX样本均值的抽样分布样本均值的抽样分布中心极限定理中心极限定理程序模拟程序模拟u 视频:程序模拟n的不断增加样本均值的抽样分布与总体的关系样本均值的抽样分布与总体的关系总体分布总体分布正态分布正态分布非正态分布非正态分布大样本大样本小样本小样本正态分布正态分布大样本大样本小样本小样本正态分布正态分布t 分布分布抽样分布例题抽样分布例题 1u某汽车电池的制造商声称其最好的电池寿命的均值是54个月,标准差为
14、6个月。某消费组织决定购买50个该品种电池作为样本来检验电池寿命,1. 假设该制造商所言为真实的,请描述这50个电池样本的平均寿命的抽样分布;2. 假设该制造商所言是真实的,则消费组织的样本寿命小于或等于52个月的概率是多少?抽样分布例题抽样分布例题 11. 运用中心极限定理推断:对于50个电池的样本来说,平均寿命的分布近似正态分布平均寿命的分布近似正态分布。因此,这个抽样分布的均值与抽样总体的均值是相同的,抽样分布的标准差由公式计算,得 个月; 个月 5485. 0506nx抽样分布例题抽样分布例题 12. 假设制造商所言是真实的,则对于50个电池的样本来说,消费组织观察到电池的平均寿命小于
15、或者等于52个月的概率 ,等于下图的阴影面积,计算标准正态分布 z 值求这个面积:)52( xP0094. 09906. 01)35. 2(1)52(35. 285. 05452xPxzxx抽样分布例题抽样分布例题 1 因此,假设制造商的声明是真实的,则消费组织观察到的样本均值(即电池平均寿命)小于或者等于52个月的概率仅为 0.0094 这么小的概率几乎是不可能发生的!这么小的概率几乎是不可能发生的! 那么,如果50 个电池的平均寿命小于52个月,则说明该制造商所言是不真实的。抽样分布例题抽样分布例题 2美国汽车联合会(AAA)是一个拥有90个俱乐部的非营利联盟,它对其成员提供旅行、金融、保
16、险以及与汽车相关的各项服务。1999年5月,AAA通过对会员调查得知一个4口之家出游中总体平均每日餐饮和住宿费用大约是213美元, 标准差是15美元。假设选取49个4口之家,并对其在1999年6月期间的旅行费用进行记录。 1). 描述 (样本家庭平均每日旅行消费)的抽样分布。x抽样分布例题抽样分布例题 21. 运用中心极限定理推断:对于49个家庭的样本来说,平均每日旅行消费的分布近似正态分布平均每日旅行消费的分布近似正态分布。因此,这个抽样分布的均值与抽样总体的均值是相同的,抽样分布的标准差由公式计算,得 美元; 美元 21314. 24915nx5918. 42x抽样分布例题抽样分布例题 2
17、2). 对于样本家庭来说,平均每日消费大于217美元的概率是多少?3). 在209美元和217美元之间的概率呢?031. 09693. 01)87. 1 (1)217(87. 113. 2213217xPxzxx938. 0)87. 1()87. 1 ()217209(1.87z1.87- 14. 221321714. 2213209 xPzxzxx抽样分布例题抽样分布例题 3u某酒店电梯标志注明最大载重为18人,1350 kg。假定已知该酒店游客及其携带行李的平均重量为70 kg,标准差是6 kg。试问,随机进入电梯18人,总重量超重的概率是多少?(人的体重服从正态分布)抽样分布例题抽样分布例题 30002. 0)5355. 3(1)75(5355. 318/67075xPxzxx超重的概率只有0.0002 !抽样分布例题抽样分布例题 4u 视频:喝水的问题样本方差的抽样分布样本方差的抽样分布样本方差的抽样分布样本方差的抽样分布
限制150内