第三章 概率与概率分布(精品).ppt
学习目标了解随机事件的概念了解概率运算的法则理解随机变量及其概率分布的概念了解二项分布、泊松分布掌握正态分布的主要特征和应用理解大数定律和中心极限定理的重要意义第三章第三章 概率与概率分布概率与概率分布3.1 随机事件及其概率 一、随机试验与随机事件一、随机试验与随机事件一、随机试验与随机事件一、随机试验与随机事件二、随机事件的概率二、随机事件的概率二、随机事件的概率二、随机事件的概率三、概率的运算法则三、概率的运算法则三、概率的运算法则三、概率的运算法则一、随机试验与随机事件一、随机试验与随机事件必然现象与随机现象n必然现象(确定性现象)变化结果是事先可以确定的,一定的条件必然导致某一结果这种关系通常可以用公式或定律来表示n随机现象(偶然现象、不确定现象)在一定条件下可能发生也可能不发生的现象个别观察的结果完全是偶然的、随机会而定大量观察的结果会呈现出某种规律性 (随机性中寓含着规律性)统计规律性随机试验n严格意义上的随机试验是指对试验单元进行一次观察或测量的过程。n严格意义上的随机试验满足三个条件:试验可以在系统条件下重复进行;试验的所有可能结果是明确可知的;每次试验前不能肯定哪一个结果会出现。n广义的随机试验是指对随机现象的观察(或实验)。实际应用中多数试验不能同时满足上述条件,常常从广义角度来理解。随机事件(事件)n随机事件(简称事件)随机试验的每一个可能结果常用大写英文字母A、B、来表示n基本事件(样本点)不可能再分成为两个或更多事件的事件n样本空间()基本事件的全体(全集)随机事件(续)n复合事件由某些基本事件组合而成的事件样本空间中的子集n随机事件的两种特例必然事件n在一定条件下,每次试验都必然发生的事件n只有样本空间 才是必然事件 不可能事件n在一定条件下,每次试验都必然不会发生的事件n不可能事件是一个空集()二、随机事件的概率n概率用来度量随机事件发生的可能性大小的数值必然事件的概率为1,表示为P()=1不可能事件发生的概率是零,P()=0随机事件A发生的概率介于0和1之间,0P(A)0 n例例2:某公司甲乙两厂生产同种产品。甲厂生产400件,其中一级品为280件;乙厂生产600件,其中一级品有360件。若要从该公司的全部产品中任意抽取一件,试求:抽出产品为一级品的条件下该产品出自甲厂的概率;抽出产品出自甲厂的条件下该产品为一级品的概率。n解:设A“甲厂产品”,B“一级品”,则:P(A)0.4,P(B)0.64,P(AB)0.28n 所求概率为事件B发生条件下A发生的条件概率 P(A|B)0.28/0.64n所求概率为事件A发生条件下B发生的条件概率 P(B|A)0.28/0.4(2)事件的独立性n两个事件独立两个事件独立一个事件的发生与否并不影响另一个事件发生的概率P(A|B)P(A),或 P(B|A)P(B)n独立事件的乘法公式:独立事件的乘法公式:P(AB)P(A)P(B)推广到推广到n n 个独立事件,有:个独立事件,有:P P P P(A A A A1 1A A A An n)P P P P(A A A A1 1)P P P P(A A A A2 2)P P P P(A A A An n)(3)全概率公式n完备事件组完备事件组事件A1、A2、An互不相容,A1A2An且P(Ai)0(i=1、2、.、n)n对任一事件B,它总是与完备事件组A1、A2、An之一同时发生,则有求P(B)的全概率公式全概率公式:n例3:假设有一道四选一的选择题,某学生知道正确答案的可能性为2/3,他不知道正确答案时猜对的概率是1/4。试问该生做出正确答案的概率?n解:解:设 A知道正确答案,B选择正确。“选择正确”包括:n“知道正确答案而选择正确”(即AB)n“不知道正确答案但选择正确”(即 )P(B)(2/3)1(1/3)(1/4)3/4全概率公式贝叶斯公式n全概率公式的直观意义:全概率公式的直观意义:每一个Ai的发生都可能导致B出现,每一个Ai 导致B发生的概率为P(Ai B),因此作为结果的事件B发生的概率是各个“原因”Ai 引发的概率的总和 n相反,在观察到事件B已经发生的条件下,确定导致B发生的各个原因Ai的概率贝叶斯公式贝叶斯公式(逆概率公式)(后验概率公式)贝叶斯公式n若A1、A2、An为完备事件组,则对于任意随机事件B,有:n计算事件Ai在给定B条件下的条件概率公式。公式中,P(Ai)称为事件Ai的先验概率P(Ai|B)称为事件Ai的后验概率 3.2 随机变量及其概率分布 一、随机变量的概念一、随机变量的概念一、随机变量的概念一、随机变量的概念 二、随机变量的概率分布二、随机变量的概率分布二、随机变量的概率分布二、随机变量的概率分布 三、随机变量的数字特征三、随机变量的数字特征三、随机变量的数字特征三、随机变量的数字特征 四、常见的离散型概率分布四、常见的离散型概率分布四、常见的离散型概率分布四、常见的离散型概率分布 五、常见的连续型概率分布五、常见的连续型概率分布五、常见的连续型概率分布五、常见的连续型概率分布一、随机变量的概念n随机变量随机变量表示随机试验结果的变量取值是随机的,事先不能确定取哪一个值 一个取值对应随机试验的一个可能结果用大写字母如X、Y、Z.来表示,具体取值则用相应的小写字母如x、y、z来表示 n根据取值特点的不同,可分为:根据取值特点的不同,可分为:离散型离散型随机变量取值可以一一列举连续型连续型随机变量取值不能一一列举1.离散型随机变量的概率分布nX的概率分布概率分布X的有限个可能取值为xi与其概率 pi(i=1,2,3,n)之间的对应关系。n概率分布具有如下两个基本性质:(1)pi0,i=1,2,n;(2)二、随机变量的概率分布二、随机变量的概率分布离散型概率分布的表示:n概率函数:P(X=xi)=pi(i=1,2,3,n)n分布列:n分布图X=xix1x2xnP(X=xi)=pip1p2pn0.60.301 2 3 xP(x)图图3-5 例例3-9的概率分布的概率分布2.连续型随机变量的概率密度 n连续型随机变量的概率分布只能表示为:数学函数概率密度函数f(x)和分布函数F(x)图 形概率密度曲线和分布函数曲线n概率密度函数f(x)的函数值不是概率。n连续型随机变量取某个特定值的概率等于0n只能计算随机变量落在一定区间内的概率由x轴以上、概率密度曲线下方面积来表示概率密度f(x)的性质n(1)f(x)0。概率密度是非负函数。n(2)所有区域上取值的概率总和为1。随机变量X在一定区间(a,b)上的概率:f f(x x)xab3.分布函数n适用于两类随机变量概率分布的描述n分布函数的定义:F(x)P(Xx)连续型随机变量的分布函数连续型随机变量的分布函数离散型随机变量的分布函数离散型随机变量的分布函数 F(x)f f(x x)xx0F F(x x0 0 )分布函数与概率密度分布函数与概率密度 三、随机变量的数字特征1.随机变量的数学期望n又称均值n描述一个随机变量所有可能取值的平均水平。n离散型随机变量离散型随机变量 X的数学期望的数学期望:相当于所有可能取值以概率为权数的平均值n连续型随机变量连续型随机变量X 的数学期望:的数学期望:数学期望的主要数学性质1.若k是一常数,则 E(k)k E(k X)k E(X)2.对于任意两个随机变量X、Y,有 E(X+Y)E(X)E(Y)3.若两个随机变量X、Y相互独立,则 E(XY)E(X)E(Y)2.随机变量的方差和标准差n方差是它的各个可能取值偏离其均值的离差平方的均值,记为D(x)或2离散型随机变量的方差:连续型随机变量的方差:n方差和标准差都反映随机变量取值的分散程度。它们的值越大,说明离散程度越大,其概率分布曲线越扁平。n方差的主要数学性质:方差的主要数学性质:若k是一常数,则 D(k)0;D(kX)k2 D(X)若两个随机变量X、Y相互独立,则 D(X+Y)D(X)D(Y)n例4:试求优质品件数的数学期望、方差和标准差。n解:0.6xi012pi0.10.60.33.两个随机变量的协方差和相关系数n协方差的定义 如果如果X,Y独立(不相关),则独立(不相关),则 Cov(X,Y)0 即即 E(XY)E(X)E(Y)协方差在一定程度上反映了协方差在一定程度上反映了X、Y之间的相关性之间的相关性协方差受两个变量本身量纲的影响。协方差受两个变量本身量纲的影响。相关系数n相关系数具有如下的性质:n相关系数是一个无量纲的值n 0|1当=0,两个变量不相关(不存在线性相关)当|=1,两个变量完全线性相关 四、常见离散型随机变量的概率分布1.二项分布nn重贝努里试验:一次试验只有两种可能结果n用“成功”代表所关心的结果,相反的结果为“失败”每次试验中“成功”的概率都是 p n 次试验相互独立。n在n重贝努里试验中,“成功”的次数X服从参数为n、p的二项分布,记为 X B(n,p)n二项分布的概率分布为:n二项分布的数学期望和方差:nn1时,二项分布就成了二点分布(0-1分布)n随着n的无限增大,二项分布趋近于正态分布。n1837年法国数学家泊松首次提出。n通常用来描述一指定时间范围内,或者一定的长度、体积、面积内,某一事件出现次数的分布。是作为小概率小概率事件发生次数X的概率分布模型。n泊松分布的例子:一段时间内某繁忙十字路口发生交通事故的次数一定时间段内某电话交换台接到的电话呼叫次数一匹布上发现瑕点的个数显微镜下在某区域内发现的微生物数2.泊松分布 n服从泊松分布的现象主要具有以下几个共同特点:1.在任意两个很小的时间或空间内时间发生的次数是相互独立的。2.各区间内时间发生次数只与区间长度成比例,与区间七点无关。3.在一段充分小的区间内,事件发生两次或两次以上的概率可以忽略不计,也就是说,在一段充分小的区间内事件至多出现一次。nX 服从泊松分布,记为XP():n为给定时间间隔、长度、面积、体积内“成功”的平均数nx表示给定时间间隔、长度、面积、体积内成功的次数nE(X)=D(X)=n当 很小时,泊松分布呈偏态,并随着增大而趋于对称n当n很大而p很小时,二项分布近似服从参数np的泊松分布3.超几何分布n二项分布适合于独立重复试验,如果对总体采用不重复抽样,那么样本中“成功”的次数则服从超几何分布。记为XH(n,N,M)n(N为总体单位数、M为具有某种特征的单位数)n数学期望和方差:五、常见的连续型概率分布n 1.均匀分布均匀分布X只在一有限区间 a,b 上取值且概率密度是一个常数其概率密度为:nX 落在子区间 c,d 内的概率与该子区间的长度成正比,与具体位置无关f(x)a c d b xP(cXd)2.正态分布nXN(、2),其概率密度为:n正态分布随机变量的均值和标准差正态分布随机变量的均值和标准差 均值 E(X)=方差 D(X)=2 -x 3 的概率很小,因此可认为正态随机变量的取值几乎全部集中在-3,+3 区间内n广泛应用:产品质量控制判断异常情况图图3-12 常用的正态概率值常用的正态概率值(在一般正态分布及标准正态分布中)(在一般正态分布及标准正态分布中)-3 -2 -1 0 +1 +2+3 z -3 -2 -+2+3 x99.73%95.45%68.27%正态分布最常用、最重要n大千世界中许多常见的随机现象服从或近似服从正态分布例如,测量误差,同龄人的身高、体重,一批棉纱的抗拉强度,一种设备的使用寿命,农作物的产量特点是“中间多两头少”n由于正态分布特有的数学性质,正态分布在很多统计理论中都占有十分重要的地位正态分布是许多概率分布的极限分布统计推断中许多重要的分布(如2分布、t分布、F分布)都是在正态分布的基础上推导出来的。一、大数定律一、大数定律3.3 大数定律与中心极限定理 大数定律是阐述大量同类随机现象的平均结果的稳定性的一系列定理的总称。1、独立同分布大数定律 设X1,X2,Xn是独立同分布的随机变量序列,且存在有限的数学期望E(Xi)和方差D(Xi)2(i=1,2,),则对任意小的正数,有:该定理给出了平均值具有稳定性的科学描述,该定理给出了平均值具有稳定性的科学描述,从而为使用样本均值去估计总体均值(数学期望)从而为使用样本均值去估计总体均值(数学期望)提供了理论依据。提供了理论依据。2、伯努利大数定律n设m是n次独立重复试验中事件A发生的次数,p是每次试验中事件A发生的概率,则对任意的 0,有:n它表明,当重复试验次数n充分大时,事件A发生的频率m/n依概率收敛于事件A发生的概率阐明了频率具有稳定性,提供了用频率估计概率的理论依据。二、中心极限定理:阐述大量随机变量之和分布趋近于正态分布的一系列定理的总称。1.独立同分布的中心极限定理n(也称列维一林德伯格定理)n设X1,X2,是独立同分布的随机变量序列,且存在有限的和方差2(i=1,2,),当n 时,或或n上述定理表明独立同分布的随机变量序列不管服从什么分布,其n项总和的分布趋近于正态分布。n可得出如下结论结论:不论总体服从何种分布,只要其数学期望和方差存在,对这一总体进行重复抽样时,当样本量n充分大,就趋于正态分布。该定理为均值的抽样推断奠定了理论基础。2.棣莫佛拉普拉斯中心极限定理n设随机变量X服从二项分布B(n,p)的,那么当n 时,X服从均值为np、方差为 np(1-p)的正态分布,即:或:或:n上述定理表明:n很大,np 和 np(1p)也都不太小时,二项分布可以用正态分布去近似。n例例8:假设有一批种子的发芽率为0.7。现有这种种子1000颗,试求其中有720颗以上发芽的概率。n解:设X发芽种子颗数,XB(1000,0.7)。近似地 XN(700,210)。P(X720)P(Z1.38)1P(Z1.38)10.91620.0838