《统计学-抽样与抽样分布.ppt》由会员分享,可在线阅读,更多相关《统计学-抽样与抽样分布.ppt(70页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、31,第 4 章 抽样和抽样分布,4.1 样本空间、事件及其概率 4.2 随机变量及其概率分布 4.3 抽样分布 4.4 正态分布和正态逼近,32,一二节学习目标,理解一些基本概念:抽样、(不)重置抽样、样本空间、样本数目 理解离散型随机变量的概率分布及其性质 理解连续型随机变量的概率分布、密度函数的定义性质 理解期望方差的性质,33,4.1 样本空间、事件及概率,一、样本空间 二、随机事件的概率 三、概率的运算法则,34,一、样本空间,35,什么是样本点(基本结果)、样本空间 有限空间、无限空间 样本空间的相对性,36,必然现象与随机现象,必然现象(确定性现象) 变化结果是事先可以确定的,一
2、定的条件必然导致某一结果 这种关系通常可以用公式或定律来表示 随机现象(偶然现象、不确定现象) 在一定条件下可能发生也可能不发生的现象 个别观察的结果完全是偶然的、随机会而定 大量观察的结果会呈现出某种规律性 (随机性中寓含着规律性) 统计规律性,十五的夜晚能看见月亮?,十五的月亮比初十圆!,37,随机试验,随机试验 对随机现象的观察 试验可以在系统条件下重复进行; 试验的所有可能结果是明确可知的; 每次试验前不能肯定哪一个结果会出现。,38,随机事件(事件),随机事件(简称事件) 随机试验的每一个可能结果 基本事件(样本点) 不可能再分成为两个或更多事件的事件 样本空间() 基本事件的全体(
3、全集),39,随机事件(续),复合事件 由某些基本事件组合而成的事件 样本空间中的子集 随机事件的两种特例 必然事件 在一定条件下,每次试验都必然发生的事件 只有样本空间 才是必然事件 不可能事件 在一定条件下,每次试验都必然不会发生的事件 不可能事件是一个空集(),310,二、随机事件的概率,随机事件及其概率,311,随机事件的概率,概率 用来度量随机事件发生的可能性大小的数值 必然事件的概率为1,表示为P ( )=1 不可能事件发生的可能性是零,P( )=0 随机事件A的概率介于0和1之间,0P(A)1 概率的三种定义,给出了确定随机事件概率的三条途经。,312,概率的古典定义,古典概型(
4、等可能概型) 具有以下两特点 每次试验的可能结果有限(即样本空间中基本事件总数有限) 每个试验结果出现的可能性相同 它是概率论的发展过程中人们最早研究的对象,313,概率的古典定义,概率的古典定义 前提:古典概型 定义(公式),计算古典概率常用到排列组合知识,314,【例】,设有50件产品,其中有5件次品,现从这50件中任取2件,求抽到的两件产品均为合格品的概率是多少?抽到的两件产品均为次品的概率又是多少? 解:任一件被抽到的机会均等,而且从50件产品中抽出2件相当于从50个元素中取2个进行组合,共有C502种可能,所以这是一个古典概型。,315,例,根据古典概率定义可算出,抛一枚质地均匀的硬
5、币,出现正面与出现反面的概率都是0.5。历史上有很多人都曾经做过抛硬币试验。,316,概率的基本性质,非负性: 对任意事件A,有 0 P(A) 1。 规范性: 必然事件的概率为1,即: P()=1 不可能事件的概率为0 ,即:P()=0。 可加性: 若A与B互斥,则:P ( AB ) = P ( A ) + P ( B ) 对于多个两两互斥事件A1,A2,An,则有: P ( A1A2 An) = P ( A1 ) + P (A2 ) + + P (An ) 上述三条基本性质,也称为概率的三条公理。,317,(补充)关于概率的公理化定义,概率的以上三种定义,各有其特定的应用范围,也存在局限性,
6、都缺乏严密性。 古典定义要求试验的基本事件有限且具有等可能性 统计定义要求试验次数充分大,但试验次数究竟应该取多大、频率与概率有多么接近都没有确切说明 主观概率的确定又具有主观随意性 苏联数学家柯尔莫哥洛夫于1933年提出了概率的公理化定义 通过规定应具备的基本性质来定义概率 公理化定义为概率论严谨的逻辑推理打下了坚实的基础。,318,三、概率的运算法则,1. 加法公式 2. 乘法公式 3. 全概率公式和贝叶斯公式,319,1. 加法公式,用于求P(AB)“A发生或B发生”的概率 互斥事件(互不相容事件) 不可能同时发生的事件 没有公共样本点,P ( AB ) = P ( A ) + P (
7、B ),互斥事件的加法公式,P ( A1A2 An) = P ( A1 ) + P (A2 ) + + P (An ),320,【例】,设有50件产品,其中有5件次品,现从这50件中任取2件,若问至少抽到一件次品的概率? 解:“至少抽到一件次品”这一事件实质上就是“抽取的2件产品中有一件次品”(记为A)与“抽取的两件产品均为次品”(记为B)这两个事件的和。由于A与B是两个互斥事件,故计算 “至少抽到一件次品”的概率采用公式: P(AB) =P(A)+P(B),321,互补事件,互补事件 不可能同时发生而又必然有一个会发生的两个事件 互补事件的概率之和等于1,A,A,例如:掷一个骰子,“出现2点
8、”的概率是1/6,则“不出现2点”的概率就是5/6 。,322,相容事件的加法公式,相容事件 两个事件有可能同时发生 没有公共样本点 相容事件的加法公式 (广义加法公式 ),P ( AB ) = P ( A ) + P ( B ) - P ( AB ),事件的积(交)AB,事件的和(并),323,【例】,将分别写有0至9这十个号码的小球装入一容器中,反复搅拌之后任意摇出一个小球,观察其号码。试求出现“奇数或大于等于4的数”的概率。 解:所求事件 奇数(A)大于等于4的数(B) 0,1,2,3,9,A1,3,5,7,9,B4,5,6,7,8,9 由于等可能性,P(A)=5/10, P(B) =6
9、/10。P(A)+P(B) 1 ,显然P(AB) P(A)P(B) 因为A和B存在共同部分AB5,7,9,P(AB)3/10。在P(A)+P(B) 中P(AB) 被重复计算了。 正确计算是: P(AB)5/106/103/108/100.8,324,2. 乘法公式,用于计算两个事件同时发生的概率。 也即 “A发生且B发生”的概率 P(AB) 先关注事件是否相互独立,325,事件的独立性,两个事件独立 一个事件的发生与否并不影响另一个事件发生的概率 P(A|B)P(A),或 P(B|A)P(B),独立事件的乘法公式:,P(AB) P(A)P(B),推广到n 个独立事件,有:,P(A1An)P(A
10、1)P(A2) P(An),326,4.2 随机变量及其概率分布,一、随机变量的概念 二、随机变量的概率分布 三、随机变量的数字特征 四、常见的离散型概率分布 五、常见的连续型概率分布,327,一、随机变量的概念,328,一、随机变量的概念,随机变量表示随机试验结果的变量 取值是随机的,事先不能确定取哪一个值 一个取值对应随机试验的一个可能结果 根据取值特点的不同,可分为: 离散型随机变量取值可以一一列举 连续型随机变量取值不能一一列举,329,二、随机变量的概率分布,1. 离散型随机变量的概率分布 2. 连续型随机变量的概率密度 3. 分布函数,330,1. 离散型随机变量的概率分布,X的概
11、率分布X的有限个可能取值为xi与其概率 pi(i=1,2,3,n)之间的对应关系。 概率分布具有如下两个基本性质: (1) pi0,i=1,2,n; (2),331,离散型概率分布的表示:,概率函数:P(X= xi)= pi 分布列: 分布图,332,2. 连续型随机变量的概率密度,连续型随机变量的概率分布只能表示为: 数学函数概率密度函数f (x)和分布函数F (x) 图 形概率密度曲线和分布函数曲线 概率密度函数f (x)的函数值不是概率。 连续型随机变量取某个特定值的概率等于0 只能计算随机变量落在一定区间内的概率 由x轴以上、概率密度曲线下方面积来表示,333,概率密度f (x) 的性
12、质,(1) f (x)0。概率密度是非负函数。 (2),所有区域上取值的概率总和为1。,随机变量X在一定区间(a,b)上的概率:,334,3. 分布函数,适用于两类随机变量概率分布的描述 分布函数的定义: F(x)PXx,连续型随机变量的分布函数,离散型随机变量的分布函数 F(x),分布函数与概率密度,335,三、随机变量的数字特征,1. 随机变量的数学期望 2. 随机变量的方差和标准差 3. 两个随机变量的协方差和相关系数,336,1. 随机变量的数学期望,又称均值 描述一个随机变量的概率分布的中心位置 离散型随机变量 X的数学期望: 相当于所有可能取值以概率为权数的平均值 连续型随机变量X
13、 的数学期望:,337,数学期望的主要数学性质,若k是一常数,则 E (k X) k E(X) 对于任意两个随机变量X、Y,有 E(X+Y)E(X)E(Y) 若两个随机变量X、Y相互独立,则 E(XY)E(X) E(Y),338,2. 随机变量的方差,方差是它的各个可能取值偏离其均值的离差平方的均值,记为D(x)或2 公式: 离散型随机变量的方差: 连续型随机变量的方差:,339,方差和标准差(续),标准差方差的平方根 方差和标准差都反映随机变量取值的分散程度。 它们的值越大,说明离散程度越大,其概率分布曲线越扁平。 方差的主要数学性质: 1、若k是一常数,则 D(k)0;D(kX)k2 D(
14、X) 2、若两个随机变量X、Y相互独立,则 D(X+Y)D(X)D(Y) 3、,340,【例】,试求优质品件数的数学期望、方差和标准差。 解:, 0.6,341,4.3 抽样分布,一、重置抽样分布(放回) 二、不重置抽样分布(不放回),342,抽样方法,343,概率抽样(probability sampling),根据一个已知的概率来抽取样本单位,也称随机抽样 特点 按一定的概率以随机原则抽取样本 抽取样本时使每个单位都有一定的机会被抽中 每个单位被抽中的概率是已知的,或是可以计算出来的 当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率,344,简单随机抽样(simple ra
15、ndom sampling),从总体N个单位中随机地抽取n个单位作为样本,使得每一个容量为样本都有相同的机会(概率)被抽中 抽取元素的具体方法有重复抽样和不重复抽样 特点 简单、直观,在抽样框完整时,可直接从中抽取样本 用样本统计量对目标量进行估计比较方便 局限性 当N很大时,不易构造抽样框 抽出的单位很分散,给实施调查增加了困难 没有利用其他辅助信息以提高估计的效率,345,分层抽样(stratified sampling),将总体单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本 优点 保证样本的结构与总体的结构比较相近,从而提高估计的精度 组织实施调查方便 既可
16、以对总体参数进行估计,也可以对各层的目标量进行估计,346,整群抽样(cluster sampling),将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查 特点 抽样时只需群的抽样框,可简化工作量 调查的地点相对集中,节省调查费用,方便调查的实施 缺点是估计的精度较差,347,系统抽样(systematic sampling),将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位 先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k等单位 优点:操作简便
17、,可提高估计的精度 缺点:对估计量方差的估计比较困难,348,抽样分布的概念,349,样本统计量的概率分布,是一种理论分布 在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布 样本统计量是随机变量 样本均值, 样本比例,样本方差等,抽样分布 (sampling distribution),350,抽样分布的形成过程 (sampling distribution),351,样本均值的抽样分布(放回、重置),352,样本均值的抽样分布,【例】设一个总体,含有4个元素(个体) ,即总体单位数N=4。4 个个体分别为x1=1,x2=2,x3=3,x4=4 。总体的均值、方差及分布如
18、下,均值和方差,353,样本均值的抽样分布, 现从总体中抽取n2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为,354,样本均值的抽样分布, 计算出各样本的均值,如下表。并给出样本均值的抽样分布,355,样本均值的分布与总体分布,总体均值 = 2.5 2 =1.25,总体分布,356,样本均值的抽样分布(不放回、不重置),357,358,样本均值的抽样分布, 现从总体中抽取n2的简单随机样本,在重复抽样条件下,共有42-4=12个样本。所有样本的结果为,359,样本均值的抽样分布, 计算出各样本的均值,如下表。并给出样本均值的抽样分布,x,360,样本均值的分布与总体
19、分布,总体均值= 2.5 2 =1.25,总体分布,样本均值的均值 = 2.5 2 =0.41667,361,成数的抽样分布,362,抽样成数的分布,重置: 不重置:,363,例,已知某批零件有10000件,其中一级品率为80,分别用重置与不重置抽样方法计算样本一级品率的抽样平均误差。,364,正态分布和正态逼近,365,例,某农场的小麦产量服从正态分布,已知平均亩产为550公斤,标准差为50公斤,求亩产525-575公斤间所占的比例。 思考:如果求亩产500-575公斤间所占的比例,如何做?,366,例,解放军战士身高是按正态分布的,经抽查平均身高175厘米,标准差4厘米,现在军服厂要裁制100000套军服,问身高在171-179公分之间应裁多少套?身高在180-185之间呢?,367,中心极限定理,368,正态再生,当总体服从正态分布N(,2)时,来自该总体的所有容量为n的样本的均值x也服从正态分布,x 的数学期望为,方差为2/n。即xN(,2/n),369,中心极限定理(central limit theorem),中心极限定理:设从均值为,方差为 2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为、方差为2/n的正态分布,370,中心极限定理 (central limit theorem),x 的分布趋于正态分布的过程,
限制150内