概率统计建模的理论与方法精选课件.ppt
《概率统计建模的理论与方法精选课件.ppt》由会员分享,可在线阅读,更多相关《概率统计建模的理论与方法精选课件.ppt(77页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、关于概率统计建模的理论与方法1第一页,本课件共有77页2一、随机变量及其分布一、随机变量及其分布 1.二项分布二项分布例例1.能量供应问题能量供应问题 假定有假定有 个工人间歇性地使用电力,估计所需要个工人间歇性地使用电力,估计所需要的总负荷。的总负荷。首先我们要知道,或者是假定,每个工人彼此独立工作,首先我们要知道,或者是假定,每个工人彼此独立工作,而每一时刻每个工人都以相同的概率而每一时刻每个工人都以相同的概率p需要一个单位的电力。那么,需要一个单位的电力。那么,同时使用电力的人数就是一个随机变量,它服从所谓的二项分布。用同时使用电力的人数就是一个随机变量,它服从所谓的二项分布。用X表示这
2、个随机变量,记做表示这个随机变量,记做 ,且 这是非常重要的一类概率分布。其中这是非常重要的一类概率分布。其中E(X)E(X)npnp,D(X)=np(1-p)D(X)=np(1-p)。第二页,本课件共有77页3 其次,要根据经验来估计出,其次,要根据经验来估计出,p p值是多少?例如,一个工人值是多少?例如,一个工人在一个小时里有在一个小时里有1212分钟在使用电力,那么应该有分钟在使用电力,那么应该有最后,利用公式我们求出随机变量最后,利用公式我们求出随机变量X的的概率分布概率分布表如下:表如下:X012345678910P0.1073740.2684350.301990.2013270.
3、088080.0264240.0055050.0007860.0000740.0000040.000000累积概率0.1073740.375810.67780.8791260.9672070.9936310.9991360.9999220.99999611为直观计,我们给出如下概率分布图:为直观计,我们给出如下概率分布图:第三页,本课件共有77页4可以看出,可以看出,也就是说,如果供应也就是说,如果供应6 6个单位的电力,则超负荷工作的个单位的电力,则超负荷工作的概率只有概率只有0.0008640.000864,即每,即每中,才可能有一分钟电力不够用。还可以算出,八个或八中,才可能有一分钟电力
4、不够用。还可以算出,八个或八个以上工人同时使用电力的概率就更小了,比上面概率的个以上工人同时使用电力的概率就更小了,比上面概率的1/111/11还要小。还要小。问题:二项分布是一个重要的用来计数的分布。什么问题:二项分布是一个重要的用来计数的分布。什么样的随机变量会服从二项分布?样的随机变量会服从二项分布?进行进行n次独立观测,在每次观测中所关心的事件出现次独立观测,在每次观测中所关心的事件出现的概率都是的概率都是p,那么在这,那么在这n次观测中事件次观测中事件A出现的总次数出现的总次数是一个服从二项分布是一个服从二项分布B(n,p)。)。第四页,本课件共有77页5 练习:用练习:用MATLA
5、B计算本题计算本题binopdf(x,n,p)计算计算x中每个值对应的二项分布概率中每个值对应的二项分布概率binocdf(x,n,p)计算计算x中每个值对应的分布函数值中每个值对应的分布函数值 例如例如binopdf(0:10,10,0.2)第五页,本课件共有77页62.Poisson分布分布例例2.Rutherford 对裂变物质的观测对裂变物质的观测 英国著名物理学家英国著名物理学家 Rutherford(18711937)在其放射性物)在其放射性物质试验中,观测在时间间隔质试验中,观测在时间间隔T内放射性物质放射出的内放射性物质放射出的粒子数。实粒子数。实际试验时,取时间间隔为际试验时
6、,取时间间隔为T=7.5秒,观测了秒,观测了N2608次,将每次观测次,将每次观测到的粒子数记录下来,列在下表中第到的粒子数记录下来,列在下表中第1,2行:行:粒子数X0123456789=10频数n57203383525532408273139452716频率f0.0218560.0778370.1468560.2013040.2039880.1564420.1046780.0532980.0172550.0103530.006135概率p0.0208580.0807220.1561970.2014940.1949450.1508880.0973230.0538050.0260280.011
7、1920.006547第六页,本课件共有77页7 我们用我们用X表示表示T=7.5秒内观测到的秒内观测到的粒子数,它是粒子数,它是一个随机变量,服从什么分布呢?在一个随机变量,服从什么分布呢?在2608次观测中,共次观测中,共观测到观测到10094个个粒子数,平均每次观测到粒子数,平均每次观测到 =MN1009426083.87个个粒子数,用参数为粒子数,用参数为=3.87的的Poisson分布分布P计算一下:计算一下:将计算结果列在上表中最后一行,与列在第将计算结果列在上表中最后一行,与列在第3 3行的实际频行的实际频率比较,比较的图示在下图中。(率比较,比较的图示在下图中。(ExcelEx
8、cel)第七页,本课件共有77页8 可以看出,认为可以看出,认为X X服从参数为服从参数为3.873.87的的PoissonPoisson分布还是非常分布还是非常合理的。在后面统计部分合理的。在后面统计部分,我们会用我们会用PearsonPearson 拟合检验法来拟合检验法来证明这种合理性证明这种合理性第八页,本课件共有77页9 问题:问题:PoissonPoisson分布是又一类非常重要的用来分布是又一类非常重要的用来计数的离散型分布,它依赖于一个参数计数的离散型分布,它依赖于一个参数 。什么。什么样的随机变量会服从样的随机变量会服从Poisson分布呢?分布呢?练习:用练习:用MATLA
9、B计算本题计算本题poisspdf(x,),计算),计算poisson概率,概率,例如,例如,poisspdf(0:9,3.87)第九页,本课件共有77页10 在给定的观测范围内(例如给定时间内,给定区域内等等),在给定的观测范围内(例如给定时间内,给定区域内等等),事件会发生多少次?把观测范围分成事件会发生多少次?把观测范围分成n个小范围:个小范围:1.给定事件在每个小范围内可能发生,也可能不发生,发生多少给定事件在每个小范围内可能发生,也可能不发生,发生多少 次取决于小范围的大小;次取决于小范围的大小;2.在不同的小范围内发生多少事件相互独立;在不同的小范围内发生多少事件相互独立;3.在小
10、范围里发生的事件数多于一个的概率,和小范围的大小相在小范围里发生的事件数多于一个的概率,和小范围的大小相 比可以忽略不计,用比可以忽略不计,用 表示在小范围内事件发生一次的概率。表示在小范围内事件发生一次的概率。那么在给定范围内发生的总事件数那么在给定范围内发生的总事件数X近似服从近似服从 ,为给定范围内事件发生次数的近似平均值。令为给定范围内事件发生次数的近似平均值。令 ,则,则 为给定范围内事件发生次数的准确平均值,这时为给定范围内事件发生次数的准确平均值,这时这正是这正是Poisson分布,其中参数分布,其中参数 第十页,本课件共有77页113.正态分布正态分布则称此随机变量服从参数为则
11、称此随机变量服从参数为 的正态分布,记做的正态分布,记做 ,其中,其中 都是给定的参数,都是给定的参数,。称。称 为标准正态分布,为标准正态分布,用用 表示其分布函数,其密度函数为表示其分布函数,其密度函数为时,我们有时,我们有 随机变量随机变量X如果有密度函数如果有密度函数第十一页,本课件共有77页12 大量连续型随机变量服从正态分布,所以正态分布在处理大量连续型随机变量服从正态分布,所以正态分布在处理数据时是非常有用处的。我们在统计部分会大量用到它。下面数据时是非常有用处的。我们在统计部分会大量用到它。下面是正态分布的密度函数图像是正态分布的密度函数图像:第十二页,本课件共有77页134.
12、指数分布指数分布 称随机变量称随机变量X服从参数为服从参数为1的指数分布或标准指数的指数分布或标准指数分布,若它有密度函数分布,若它有密度函数它的分布函数为它的分布函数为第十三页,本课件共有77页14设设 是给定常数,则是给定常数,则Y的分布函数为的分布函数为其密度函数为其密度函数为这是一般的指数分布。这是一般的指数分布。第十四页,本课件共有77页15b b0 0的指数分布的密度函数图像如下所示的指数分布的密度函数图像如下所示(指数密度):可见,随着可见,随着的减小,随机变量取到较大值的概率增加的减小,随机变量取到较大值的概率增加事实上,事实上,随机变量的数学期望。随机变量的数学期望。指数随机
13、变量经常用来刻画寿命。指数随机变量经常用来刻画寿命。第十五页,本课件共有77页165.多维随机变量多维随机变量 我们经常需要考虑量与量之间的关系,如果这些量是我们经常需要考虑量与量之间的关系,如果这些量是随机变量,那么就需要把多个随机变量放在一起,考虑多随机变量,那么就需要把多个随机变量放在一起,考虑多元随机变量。设元随机变量。设 是是n元随机变量,它的分布元随机变量,它的分布函数是一个函数是一个n元函数:元函数:利用这个分布函数就可以讨论这利用这个分布函数就可以讨论这n个随机变量之间个随机变量之间各种各样的关系。各种各样的关系。第十六页,本课件共有77页17(1)(1)边际分布与独立性边际分
14、布与独立性相互独立当且仅当相互独立当且仅当(2)(2)相关系数相关系数 两个随机变量两个随机变量X,Y之间的相关系数定义为之间的相关系数定义为其中其中 相关系数刻画了随机变量之间的线性相关程度,越接相关系数刻画了随机变量之间的线性相关程度,越接近于近于0 0,线性相关关系越弱。,线性相关关系越弱。第十七页,本课件共有77页18 第十八页,本课件共有77页19 综上所述,我们知道在概率论里学过许多分布,综上所述,我们知道在概率论里学过许多分布,当然,还有许多分布我们没有学过。但是,在实践中当然,还有许多分布我们没有学过。但是,在实践中我们可能会遇到各种各样的分布,甚至还有没被发现我们可能会遇到各
15、种各样的分布,甚至还有没被发现的分布。在处理数据的时候,我们要搞清楚:的分布。在处理数据的时候,我们要搞清楚:1.数据是哪个或哪些指标的取值?数据是哪个或哪些指标的取值?2.这个或这些指标是不是随机变量或随机向量?这个或这些指标是不是随机变量或随机向量?3.如果是,那么它服从什么分布?如果是,那么它服从什么分布?4.用统计方法确定分布?用统计方法确定分布?5.分布确定后,用概率方法求出问题的解。分布确定后,用概率方法求出问题的解。下面我们就讨论用统计方法确定分布的问题。下面我们就讨论用统计方法确定分布的问题。第十九页,本课件共有77页20二、二、数据的统计描述与分析数据的统计描述与分析1.经验
16、分布函数和频率直方图经验分布函数和频率直方图 当我们确定讨论的指标的确是随机变量后,当我们确定讨论的指标的确是随机变量后,剩下的关键任务就是确定它的分布。那么它的剩下的关键任务就是确定它的分布。那么它的观测数据就是我们赖以解决问题的基本资料,观测数据就是我们赖以解决问题的基本资料,叫做叫做样本样本,而这个随机变量就叫做,而这个随机变量就叫做总体总体。这些。这些数据反映了该随机变量分布的基本特征。我们数据反映了该随机变量分布的基本特征。我们可以利用这些数据构造一个分布函数,理论上可以利用这些数据构造一个分布函数,理论上可以证明它很接近于那个未知分布。这个分布可以证明它很接近于那个未知分布。这个分
17、布函数就叫做经验分布函数。函数就叫做经验分布函数。第二十页,本课件共有77页21 在例在例2,我们确定所讨论的指标,我们确定所讨论的指标在时间间隔在时间间隔T秒秒内放射出的内放射出的粒子数粒子数X,是一个随机变量。且有该随机,是一个随机变量。且有该随机变量的变量的n2608个观测值,这就是一个容量为个观测值,这就是一个容量为2608的样的样本。在没有其他信息的情况下,首先应该给出该样本的本。在没有其他信息的情况下,首先应该给出该样本的经验分布函数:经验分布函数:例例6.例例2续续(经验分布函数经验分布函数)在这里我们可求出这个在这里我们可求出这个经验分布函数经验分布函数如下:如下:第二十一页,
18、本课件共有77页22第二十二页,本课件共有77页23这个函数的图像如下这个函数的图像如下(Poisson2):如果熟悉如果熟悉PoissonPoisson分布的分布函数图像的话,分布的分布函数图像的话,就可以从这个图像判断出,就可以从这个图像判断出,X X可能服从参数为可能服从参数为3.873.87的的PoissonPoisson分布。从这个经验分布函数容易解决概分布。从这个经验分布函数容易解决概率计算问题:率计算问题:第二十三页,本课件共有77页24 当然,由于是离散型的随机变量,我们可能更熟当然,由于是离散型的随机变量,我们可能更熟悉如下频率分布图像:悉如下频率分布图像:也就是说,对于离散
19、型随机变量,我们更常用的方法是也就是说,对于离散型随机变量,我们更常用的方法是绘制这种频率分布图。为了判断分布的类型,绘制这种频率分布图。为了判断分布的类型,对于离散型随机变量,要绘制频率分布图!对于离散型随机变量,要绘制频率分布图!作业:用作业:用MATLAB计算本例。计算本例。第二十四页,本课件共有77页25例例7、超市问题(频率直方图)超市问题(频率直方图)随机抽取某大学超市随机抽取某大学超市137137位顾客的购买金额的实际记录位顾客的购买金额的实际记录(单位:元),数据如下。请问购买金额服从什么分布?(单位:元),数据如下。请问购买金额服从什么分布?65.209.9029.7261.
20、1016.9214.3824.1316.9929.33 4.399.8085.9622.5037.1932.318.4035.0341.706.084.906.2820.401.807.902.5015.0529.2711.1011.0826.1017.5023.0523.123.0012.8813.189.0044.094.0045.4533.6921.9217.003.4016.306.6011.3642.308.007.4014.986.0544.9440.1460.051.5029.5818.306.0031.104.8016.343.2024.536.677.7249.4010.03
21、16.3023.6012.705.0025.357.9264.801.393.0013.600.9020.2027.2021.9313.280.9010.095.0027.4535.604.222.0020.902.0011.078.974.158.703.5017.2460.343.3027.4832.0055.4815.125.6112.400.9511.8018.6037.342.0034.079.1011.590.7028.0013.202.004.503.973.666.253.9019.6016.882.002.8025.162.865.7010.254.059.004.203.5
22、01.902.76第二十五页,本课件共有77页26 用用X X表示顾客的购买金额,那么它应该是一个连续型的随机表示顾客的购买金额,那么它应该是一个连续型的随机变量。对于连续型的随机变量,我们一般就不作它的经验分布变量。对于连续型的随机变量,我们一般就不作它的经验分布函数了,而是改作它的频率直方图。一般认为,函数了,而是改作它的频率直方图。一般认为,X X应该服从正态应该服从正态分布,数学期望为分布,数学期望为其实不然,其频率直方图如下图所示:其实不然,其频率直方图如下图所示:(超市超市)第二十六页,本课件共有77页27它很像参数为它很像参数为的指数分布密度函数,如图中红色曲线所示。所以我们就认
23、为的指数分布密度函数,如图中红色曲线所示。所以我们就认为X X的分布是这样的一个指数分布。例如,给定的分布是这样的一个指数分布。例如,给定可以求出可以求出 表明该店顾客一次消费金额在表明该店顾客一次消费金额在2020元以下的人数占到近七成。元以下的人数占到近七成。这是什么原因呢?原来这是一家小型社区超市,人们只来买日用这是什么原因呢?原来这是一家小型社区超市,人们只来买日用品,不在这里买大件。这对超市的经营管理是一个重要信息。品,不在这里买大件。这对超市的经营管理是一个重要信息。对于连续型随机变量,要绘制频率直方图!对于连续型随机变量,要绘制频率直方图!作业:作业:1、用、用Excel完成本例
24、;完成本例;2、经验分布函数经验分布函数。第二十七页,本课件共有77页28 经验分布函数、频率分布图和频率直方图可以帮助经验分布函数、频率分布图和频率直方图可以帮助我们了解随机变量的类型。当我们已经了解到随机变量我们了解随机变量的类型。当我们已经了解到随机变量的分布类型后,该随机变量的分布一般就取决于一个或的分布类型后,该随机变量的分布一般就取决于一个或几个参数了。如果知道了这些参数,就可以把分布完全几个参数了。如果知道了这些参数,就可以把分布完全确定下来。那么,如何确定这未知参数呢?(参数估计)确定下来。那么,如何确定这未知参数呢?(参数估计)第二十八页,本课件共有77页2.2.常用统计量及
25、其分布常用统计量及其分布第二十九页,本课件共有77页第三十页,本课件共有77页3.3.几个在统计中常用的概率分布几个在统计中常用的概率分布-4-2024600.050.10.150.20.250.30.350.4(1)正态分布正态分布),(2smN密度函数:222)(21)(smsp-=xexp分布函数:dyexFyx222)(21)(smsp-=其中m为均值,2s为方差,+-x.标准正态分布:N(0,1)密度函数2221)(xex-=pjdyexyx2221)(-=Fp 分布函数第三十一页,本课件共有77页第三十二页,本课件共有77页第三十三页,本课件共有77页返回返回F分布F(10,50)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 概率 统计 建模 理论 方法 精选 课件
限制150内