特殊随机变量起源及应用.doc
精品文档,仅供学习与交流,如有侵权请联系网站删除Harbin Institute of Technology课程设计说明书(论文)课程名称:概率论课程设计 设计题目:特殊随机变量起源及应用 院 系:航天学院控制科学与工程系 班 级:1104104 设 计 者:田书赫 学 号:1110410418 指导教师:田波平 设计时间:20121211 哈尔滨工业大学教务处特殊随机变量起源及应用摘要 本文论述了几类特殊随机变量的起源、定义、及部分应用。详细介绍了离散型的二项分布和泊松分布,连续型的正态分布,讨论了其在系统有效性问题、能量供应问题、成绩评价等方面的应用,并详细探讨了二项分布的泊松逼近和正态逼近,论述了棣莫弗拉普拉斯极限定理,列举了该定理在实际中的应用。正文一、随机变量定义进行试验时,相对于试验的实际结果而言,通常我们更感兴趣的是有关试验结果的某些函数。比如,在掷两枚骰子的游戏中,我们通常更关心两枚骰子的点数之和,而不是各枚骰子的具体值;同样,在掷若干枚硬币时,我们或许关心正面朝上的总数,而不关心实际结果有关正面朝上或反面朝上的排列情况。这些感兴趣的量是试验结果的实值函数,我们称之为随机变量。定义1.1 称定义在样本空间上试验结果的实值函数()为一个随机变量。定义1.2 称一元函数:F(x)=P()<x)(对任意实数x)为随机变量()的分布函数。二、离散型随机变量若一个随机变量最多有可列个可能取值,则称这个随机变量为离散型的。21 伯努利分布和二项分布瑞士数学家雅克·伯努利(Jacques Bernoulli,16541705)首次研究独立重复试验(每次成功率为p)。在他去世后的第8年(1713年),他侄子尼克拉斯出版了伯努利的著作推测术。在书中,伯努利指出了如果这样的试验次数足够大,那么成功次数所占的比例以概率1接近p。雅克·伯努利是这个最著名的数学家庭的第一代。在后来的三代里,一共有8到12个伯努利,在概率论、统计学和数学上做出了杰出的基础性贡献。211 伯努利分布和二项分布的定义在一次试验中,事件A出现的概率为p,不出现的概率为q=1-p。若以记事件A出现的次数,则仅取0,1两值,相应的概率分布为:P=k=,k=0,1这个分布称为伯努利分布,亦称两点分布。随机变量称为伯努利随机变量。现在进行n次独立重复试验,以记事件A出现的次数,则称为参数为(n,p)的二项随机变量。其对应的概率由二项分布给出:b(k;n,p)=P=k=,k=0,1,2,n记作(n,p)。伯努利分布可以看作n=1的二项分布。2.1.2 二项分布的性质二项分布具有以下性质:(1)若(n,p),则E=np,Var=npq.(2)若(n,p),则当k从0到n时,p=k开始单调递增,然后单调递减,它在k=(n+1)p时取最大值。2.2 泊松分布泊松分布是法国数学家S.D.泊松在他所著的关于概率论在诉讼、刑事审讯等方面应用的书中提出的,这本书于1837年出版。近数十年来,泊松分布日益显示其重要性,成了概率论中最重要的几个分布之一。首先已经发现许多随机现象服从泊松分布。这种情况特别集中在两个领域中。一是社会生活,对服务的各种要求,诸如电话交换台中来到的呼叫次数,公共汽车站来到的乘客数等等都近似的服从泊松分布,因此在运筹学及管理科学中泊松分布占有重要地位;另一领域是物理科学,放射性分裂落到某区域的质点数,热电子的发射,显微镜下落在某区域中的血球或微生物的数目等等都服从泊松分布。221 泊松分布的定义一个取值为0,1,2之一的随机变量称为服从参数为的泊松随机变量,如果对某一>0,有P=k=,k=0,1,2,简记作P().222 泊松分布的性质泊松分布具有以下性质:(1) 泊松随机变量的期望和方差都等于其参数。(2) 当n足够大,p充分小,而使得np保持适当的大小时,以(n,p)为参数的二项分布可以近似看作参数为的泊松分布,这个值通常凭经验确定。23 应用的例子例1系统有效性问题一个通讯系统由n个元件组成,各个元件是否工作正常是相互独立的,并且各个元件正常工作的概率为p。若在系统中,至少有一半的元件工作正常,那么整个系统有效。我们讨论的是当p为何值时2k+1个元件的系统比2k-1个元件的系统更有效。正常工作的元件数是一个服从参数为(n,p)的二项分布的随机变量。首先考虑5个元件的系统何时比3个元件的系统更有效。5个元件的系统有有效的概率为而3个元件的系统有效的概率为因此,以下条件成立时,5个元件的系统比3个元件的系统更有效:化简为即考虑2k+1元件的系统,令X表示“前2k-1个元件中工作正常的元件数目”,那么上式之所以成立是基于事件“2k+1个元件的系统有效”可以写成下列三个互不相容的事件的并:()Xk+1;()X=k而且剩下的2个元件中至少有一个工作正常;()X=k-1而且剩下的2个元件都工作正常。由于可得例2能量供应问题假定有n=10个工人间歇性的使用电力,我们的目的是估计所需要的总负荷。建立这样一个简化的数学模型:设想在任何一个给定的时刻每一个工人以同样的概率p需要一个单位电力。如果他们是独立的进行工作,则恰有k个工人同时需要电能的概率是b(k;n,p)。如果一个工人在一个小时内平均有12分钟需要电能,则我们令p=1/5。于是在同时有7个或者7个以上的工人需要电能的概率为b(7;10,0.2)+b(8;10,0.2)+b(10;10,0.2)=0.0008643584.如果最多只能供应6个单位电力,则超过负荷的概率为0.00086,即是1157分钟内约有1分钟,亦即约20个工作时中可能有一分钟超过负荷。24 其他离散型分布2.4.1 退化分布随机变量只取常数值c,又称单点分布。2.4.2 几何分布 在事件A发生的概率为p的伯努利试验中,若以记A首次出现的试验次数,则服从几何分布:几何分布具有无记忆性,在概率论及其应用同样具有很重要的作用。2.4.3 超几何分布对某批N件产品进行不放回抽样检查,若这批产品中有M件次品,现从整批产品中随机抽出n件产品,则在这n件产品中出现的次品数是随机变量,它取值0,1,2,n,其概率分布为超几何分布.2.4.4 巴斯卡分布若以记第r次成功出现时的试验次数,则是随机变量,取值r,r+1,其概率分布为巴斯卡分布.三、连续型随机变量前面我们讨论了离散型随机变量的起源及其应用,这类随机变量的可能取值的个数或者是有限的,或者是可数无限的。然而,还存在一类随机变量,它们的可能取值是无限不可数的,例如测量误差、分子运动速度、候车时的等待时间、降水量、风速等。称为一个连续性随机变量,如果存在一个定义在实数轴上的非负函数f,使得对于任一个实数集B,下式成立函数f称为随机变量的概率密度函数,或密度函数。31 正态分布正态分布是法国数学家亚伯拉罕·棣莫弗在1733年引入的。他利用正态分布求出了有关抛掷硬币试验中随机事件的概率的近似值。当时称正态分布为指数钟形曲线。1809年,德国著名数学家高斯以正态分布作为奥工具预测天文学中星体的位置,这时才展现了正态分布的应用价值。此后,正态分布就称为高斯分布。在十九世纪后半叶,大部分统计学家认为大部分数据的直方图都具有高斯钟形曲线的形状。事实上,大家认为正常的数据集合应该具有这种形状。由英国统计学家卡尔·皮尔森开始,将高斯曲线称为正态曲线。311 正态分布的定义称为服从参数为a和正态分布的随机变量,或者简称为正态随机变量,如果的密度函数为其中>0,a与均为常数,相应的分布函数为这个分布就称为正态分布,简记为N(a,)。特别的,当a=0,=1时,称为标准正态分布,记为N(0,1),相应的密度函数和分布函数分别记为(x)及(x)。习惯上把服从正态分布的随机变量称为正态变量。3.1.2 正态分布的性质正态分布具有以下性质:(1) 正态分布的参数a和分别代表了它的期望和方差。(2) 若N(a,),则随机变量=服从N(0,1),一般N(a,)的分布函数值可由变换而得(3) P(x)在x=a处达到极大,其图形关于x=a对称,越小,分布越集中在x=a附近,越大,分布越平坦。3.1.3 正态分布的应用 例1 进行一次考试,如果所有考生所得的分数可近似地表示为正态密度函数(换句话说,各级考分的频率图近似的呈现正态密度的中性曲线。),则通常认为这次考试(就合理的划分考生成绩等级而言)是可取的。教师经常用 考试的分数去估计正态参数a和,然后把分数超过a+的评为A等,分数在a到a+之间的评为B等,分数在a-到a之间的评为C等,分数在a-2到a-之间评为D等,分数在a-2以下者评为F等。(称这种方法为“曲线上”划分等级法)由于所以,近似地说,这次考试中,能获得A等的占16%,B等的占34%,C等的占34%,D等的占14%,成绩很差的占2%。Remark:k=1时,=0.6826k=2时,=0.9544k=3时,=0.9973在实际应用中,经常遵循的是3原则:=0.0027.例2 考虑从A地到B地通过电讯传送一个二值信号,0或1.然而,数据通过电讯传送过程中会遇到噪音干扰。为了减少传送出错的概率,当传送的信息为1时,将传送值2,传送的信息为0时,就传送值-2。如果x,x=±2为在A地传送的数值,R为在B地接收到的数值,(R=x+N,N为噪音干扰),当信号在B接收后,按如下解码规则:如果R0.5,则认为是1;如果R<0.5,则认为是0.如果噪音服从正分布,我们将要计算N为标准正态随机变量情形下的出错概率。共有两类错误。其一是信息1被错误的认为是0;另一类是信息0被错误的认为是1.第一类错误会在下列情形发生:如果信息是1,且2+N<0.5,而第二类错误会在下列情形发生:信息是0,且-2+N0.5.因此,例3 二项分布的正态近似当n很大时,参数为(n,p)的二项分布可以用正态分布来近似。棣莫弗在1733年证明了p=1/2的特殊情形。而后,在1812年,拉普拉斯对一般的p进行了证明。棣莫弗-拉普拉斯极限定理 在n次独立重复试验中,设每次成功的概率为p,记成功次数为,则对任何a<b有:当n时对于二项分布,我们已经有了两个可能的近似:当n较大而p较小时,泊松近似是一个很好的近似;另外,可以证明,当np(1p)较大时,正态近似相当好。以抛掷硬币为例,记为抛40次均匀硬币出现正面的次数。我们先用正态近似求出=20的概率,在与精确值比较。注意到因为二项分布是离散型随机变量,而正态分布为连续型随机变量,因此最好在正态近似前将P=i写为Pi1/2<<i+1/2,这里称为连续性修正。这样而精确解为又如另外一个实际的应用例子:某学院计划招收150名一年级新生。根据以往经验,接到录取通知的人当中,平均只有30%的人报到入学,故学院给450名学生发录取通知书,这里,我们假设每名是否报到是相互独立的。试求这所学院入学新生超过150名的概率。解: 记为入学新生人数,那么为以n=450,p=0.3为参数的二项随机变量。利用连续性修正及正态近似可得这样,在接到录取通知书的人中,入学者超过150名的可能性不超过6%。3.2 其他连续型分布3.2.1均匀分布若随机变量服从a,b上均匀分布,则在a,b中取值落在某一区域内的概率与这个区域的测度成正比.粗略地讲就是,取a,b中人一点的可能性一样.3.2.2指数分布分布密度函数为指数分布有重要应用,常用它来作为各种“寿命”分布的近似,例如无线电元件的寿命,动物的寿命,电话问题中的通话时间,随即服务系统中的服务时间等都常假定服从指数分布.3.2.3 分布称密度分布函数为的分布为分布,其中>0,r>0为参数. 以上我们讨论了概率论中三个非常重要的分布:二项分布,泊松分布,正态分布的起源及部分应用,它们的应用远不止这些。【精品文档】第 6 页