概率统计建模讲义.pdf
《概率统计建模讲义.pdf》由会员分享,可在线阅读,更多相关《概率统计建模讲义.pdf(78页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 数理统计例举 数理统计例举 王晓谦 王晓谦 南京师范大学 2006 年 8 月南京师范大学 2006 年 8 月 NextNext 主要内容 主要内容 随机变量及其分布随机变量及其分布 经验分布函数和频率直方图经验分布函数和频率直方图 参数估计参数估计 假设检验假设检验 相关分析与回归分析简介相关分析与回归分析简介 MATLAB 例题例题 例 1 能量供应问题例 1 能量供应问题 例 2 放射性例 2 放射性 例 3 正态分布例 3 正态分布 例 4 指数分布例 4 指数分布 例 5 多元随机变量例 5 多元随机变量 例 6 经验分布函数 例 6 经验分布函数 例 7 超市问题例 7 超市问
2、题 例 8 区间估计例 8 区间估计 例 9 拟合检验 1例 9 拟合检验 1 例 10 拟合检验 2例 10 拟合检验 2 例 11 概率纸检验法例 11 概率纸检验法 例 12例 12道德道德 例 13 肠癌例 13 肠癌 例 14例 14 J效应J效应 Back Next 随机变量及其分布随机变量及其分布 例 1例 1、能量供应问题(二项分布)、能量供应问题(二项分布)假定有假定有10n=个工人间歇性地使用电力,估计所需要的总负荷。首先我们要知道,或者是假定,每个工人彼此独立工作,而每一时刻每个工人都以相同的概率个工人间歇性地使用电力,估计所需要的总负荷。首先我们要知道,或者是假定,每个
3、工人彼此独立工作,而每一时刻每个工人都以相同的概率 p 需要一个单位的电力。那么,需要一个单位的电力。那么,同时使用电力的人数同时使用电力的人数就是一个随机变量,它服从所谓的二项分布。用就是一个随机变量,它服从所谓的二项分布。用 X 表示这个随机变量,记做表示这个随机变量,记做(,)XB n p,且有且有()(1),kkn knP XkC pp=0,1,kn=?这是非常重要的一类概率分布。其中 E(X)np,D(X)=np(1-p)。这是非常重要的一类概率分布。其中 E(X)np,D(X)=np(1-p)。目录目录 Back Next 其次,要根据经验来估计出,p 值是多少?例如,一个工人在一
4、个小时里有 12 分钟在使用电力,那么应该有其次,要根据经验来估计出,p 值是多少?例如,一个工人在一个小时里有 12 分钟在使用电力,那么应该有120.260p=。最后,利用公式我们求出随机变量X的。最后,利用公式我们求出随机变量X的 概率分布概率分布表如下:为直观计,我们给出如下概率分布图:表如下:为直观计,我们给出如下概率分布图:01234567891000.050.10.150.20.250.30.35012345678910 目录目录 Back NextNext X 0 1 2 3 4 5 6 7 8 9 10 P 0.107374 0.268435 0.30199 0.201327
5、 0.08808 0.026424 0.005505 0.000786 0.000074 0.000004 0.00000累积概率 0.107374 0.37581 0.6778 0.879126 0.967207 0.993631 0.999136 0.999922 0.999996 1 1 可以看出,可以看出,6160.000864P XP X=,也就是说,如果供应 6 个单位的电力,则超负荷工作的概率只有 0.000864,即每,也就是说,如果供应 6 个单位的电力,则超负荷工作的概率只有 0.000864,即每 11147200.000864分钟小时 中,才可能有一分钟电力不够用。还可
6、以算出,八个或八个以上工人同时使用电力的概率就更小了,比上面概率的 中,才可能有一分钟电力不够用。还可以算出,八个或八个以上工人同时使用电力的概率就更小了,比上面概率的111还要小。还要小。问题:问题:二项分布是一个重要的用来计数的分布。什么样的随机变量会服从二项分布?二项分布是一个重要的用来计数的分布。什么样的随机变量会服从二项分布?目录目录 Back NextNext 进行 n 次独立观测,在每次观测中所关心的事件出现的概率都是 p,那么在这 n 次观测中事件 A 出现的总次数是一个服从二项分布 B(n,p)。作业:用 MATLAB 计算本题。binopdf(x,n,p)计算 x 中每个值
7、对应的二项分布概率 binocdf(x,n,p)进行 n 次独立观测,在每次观测中所关心的事件出现的概率都是 p,那么在这 n 次观测中事件 A 出现的总次数是一个服从二项分布 B(n,p)。作业:用 MATLAB 计算本题。binopdf(x,n,p)计算 x 中每个值对应的二项分布概率 binocdf(x,n,p)计算 x 中每个值对应的分布函数值计算 x 中每个值对应的分布函数值 例如例如 binopdf(0:10,10,0.2)目录目录 Back NextNext 例 2、例 2、Rutherford 对裂变物质的观测 (Poisson 分布)Rutherford 对裂变物质的观测 (
8、Poisson 分布)英国著名物理学家 Rutherford(18711937)在其放射性物质试验中,观测在时间间隔T 内放射性物质放射出的 粒子数。实际试验时,取时间间隔为T=7.5 秒,观测了 N2608 次,将每次观测到的粒子数记录下来,列在下表中第 1,2 行:英国著名物理学家 Rutherford(18711937)在其放射性物质试验中,观测在时间间隔T 内放射性物质放射出的 粒子数。实际试验时,取时间间隔为T=7.5 秒,观测了 N2608 次,将每次观测到的粒子数记录下来,列在下表中第 1,2 行:粒子数X 0 1 2 3 4 5 6 7 8 9 10 频数 n 57 203 3
9、83 525 532 408 273 139 45 27 16 频率 f 0.021856 0.077837 0.146856 0.201304 0.203988 0.156442 0.104678 0.053298 0.017255 0.010353 0.006135概率 p 0.020858 0.080722 0.156197 0.201494 0.194945 0.150888 0.097323 0.053805 0.026028 0.011192 0.006547 目录目录 Back NextNext 我们用 X 表示T=7.5 秒内观测到的 粒子数,它是一个随机变量,我们用 X 表示
10、T=7.5 秒内观测到的 粒子数,它是一个随机变量,服从什么分布服从什么分布呢?在 2608 次观测中,共观测到 10094 个 粒子数,平均每次观测到=MN1009426083.87 个粒子数,用参数为=3.87的Poisson分布P计算一下:呢?在 2608 次观测中,共观测到 10094 个 粒子数,平均每次观测到=MN1009426083.87 个粒子数,用参数为=3.87的Poisson分布P计算一下:,0,1,2,!kP Xkekk =?将计算结果列在上表中将计算结果列在上表中 最后一行最后一行,与列在第 3 行的实际频率比较,比较的图示在下图中。(,与列在第 3 行的实际频率比较
11、,比较的图示在下图中。(ExcelExcel)00.050.10.150.20.25012345678910观测频率理论概率P(3.87)可以看出,认为X服从参数为 3.87 的Poisson分布还是非常合理的。在后面统计部分,我们会用Pearson可以看出,认为X服从参数为 3.87 的Poisson分布还是非常合理的。在后面统计部分,我们会用Pearson2拟合检验法来证明这种合理性。拟合检验法来证明这种合理性。目录目录 Back NextNext 作业:用作业:用 MATLAB 计算本题。计算本题。poisspdf(x,),计算,),计算 poisson 概率,概率,例如,例如,pois
12、spdf(0:9,3.87)问题:Poisson 分布是又一类非常重要的用来计数的离散型分布,它依赖于一个参数 问题:Poisson 分布是又一类非常重要的用来计数的离散型分布,它依赖于一个参数。什么样的随机变量会服从Poisson 分布呢?。什么样的随机变量会服从Poisson 分布呢?目录目录 Back Next 在给定的观测范围内(例如给定时间内,给定区域内,等等),事件会发生多少次?把观测范围分成在给定的观测范围内(例如给定时间内,给定区域内,等等),事件会发生多少次?把观测范围分成 n 个小范围:个小范围:1、给定事件在每个小范围内可能发生,也可能不发生,发生多少次取决于小范围的大小
13、;给定事件在每个小范围内可能发生,也可能不发生,发生多少次取决于小范围的大小;2、在不同的小范围内发生多少事件相互独立;在不同的小范围内发生多少事件相互独立;3、在小范围里发生的事件数多于一个的概率,和小范围的大小相比可以忽略不计,用在小范围里发生的事件数多于一个的概率,和小范围的大小相比可以忽略不计,用np表示在小范围内事件发生一次的概率。表示在小范围内事件发生一次的概率。那么在给定范围内发生的总事件数那么在给定范围内发生的总事件数 X 近似服从近似服从(,)nB n p,nnp为给定范围内事件发生次数的近似平均值。令为给定范围内事件发生次数的近似平均值。令n,则,则nnp为给定范围内事件发
14、生次数的准确平均值,这时为给定范围内事件发生次数的准确平均值,这时,!()(1)kkknnkn knekkP XkC pp =0,1,2,=?这正是这正是 Poisson 分布,其中参数分布,其中参数()E X。目录目录 Back Next 例 3、正态分布 随机变量 X 如果有密度函数 随机变量 X 如果有密度函数 22()21(),2xp xex=,都 是 给 定 的 参 数,都 是 给 定 的 参 数,2(),()E XD X=。称。称(0,1)N为标准正态分布,用为标准正态分布,用()x表示其分布函数,其密度函数为 表示其分布函数,其密度函数为 221().2xxex=,+2(,)XN
15、 时,我们有时,我们有()()bbaabaP aXbp x dxx dx=其他.它的分布函数为 它的分布函数为 0,0;()1xxF xex =,0.目录目录 Back NextNext 设设,XYb=+0,bR 是给定常数,则 Y 的分布函数为 是给定常数,则 Y 的分布函数为()()()()0,;1.Yx bFxP YxP XxbFxbxbexb=,其密度函数为 其密度函数为()0,;().Yx bpxbxexb =,这是一般的指数分布。这是一般的指数分布。211(),()E Yb D Y=+=。目录目录 Back NextNext b0 的指数分布的密度函数图像如下所示b0 的指数分布的
16、密度函数图像如下所示(指数密度):可见,随着可见,随着的减小,随机变量取到较大值的概率增加。事实上,的减小,随机变量取到较大值的概率增加。事实上,1b+是随机变量的数学期望。是随机变量的数学期望。指数随机变量经常用来刻画寿命。指数随机变量经常用来刻画寿命。目录目录 Back NextNext 例 5例 5、多元随机变量、多元随机变量 我们经常需要考虑量与量之间的关系,如果这些量是随机变量,那么就需要把多个随机变量放在一起,考虑多元随机变量。设我们经常需要考虑量与量之间的关系,如果这些量是随机变量,那么就需要把多个随机变量放在一起,考虑多元随机变量。设12(,)nXXX?,是 n 元随机变量,它
17、的分布函数是一个 n 元函数:是 n 元随机变量,它的分布函数是一个 n 元函数:121122(,),nnnF x xxP Xx XxXx=?利用这个分布函数就可以讨论这n个随机变量之间各种各样的关系。利用这个分布函数就可以讨论这n个随机变量之间各种各样的关系。目录目录 Back NextNext 1、1、边际分布与独立性 边际分布与独立性(,),1,2,.()iXiiiiFxinFxP Xx+=?12,nXXX?,相互独立当且仅当相互独立当且仅当 121(,).()innXiiF x xxFx=?2、2、相关系数 相关系数 两个随机变量两个随机变量X Y,之间的相关系数定义为 之间的相关系数
18、定义为 cov(,)(,),()()X YX YD X D Y=其中其中cov(,)()().X YEXE XYE Y=相关系数刻画了随机变量之间的线性相关程度,越接近于0,线性相关关系越弱。相关系数刻画了随机变量之间的线性相关程度,越接近于0,线性相关关系越弱。目录目录 Back NextNext 定理定理:设二维随机变量(X,Y)的相关系数为:设二维随机变量(X,Y)的相关系数为(,)X Y,则,则(1)、(1)、0(,)1;X Y (2)、在(X,Y)服从二元正态分布的条件下,X 与 Y 独立(2)、在(X,Y)服从二元正态分布的条件下,X 与 Y 独立的充要条件是的充要条件是(,)0X
19、 Y=;(3)、若(3)、若(,)1X Y=,则几乎必然有,则几乎必然有,YaXb=+其中其中0,aa b是确定的常数;是确定的常数;若若(,)1X Y=,则几乎必然有,则几乎必然有,YaXb=+其中其中0,aa b是确定的常数。是确定的常数。目录目录 Back Next 3、条件分布条件分布 在已知其中某些随机变量的取值的情况下,可以进一步在已知其中某些随机变量的取值的情况下,可以进一步 确定其他随机变量的条件分布。例如,确定其他随机变量的条件分布。例如,,(,)(,)|.()()ijijjjXXijXXijiijjjXjXjFx xxFx xP XxxXxxFxxFx+=+在有密度函数的情
20、况下,我们还可以求条件密度函数,甚至利用 Bayes 定理,解决许多重要问题。在有密度函数的情况下,我们还可以求条件密度函数,甚至利用 Bayes 定理,解决许多重要问题。目录目录 Back NextNext 综上所述,我们知道在概率论里学过许多分布,当然,还有许多分布我们没有学过。但是,在实践中我们可能会遇到各种各样的分布,甚至还有没被发现的分布。综上所述,我们知道在概率论里学过许多分布,当然,还有许多分布我们没有学过。但是,在实践中我们可能会遇到各种各样的分布,甚至还有没被发现的分布。在处理数据的时候,我们要搞清楚:在处理数据的时候,我们要搞清楚:1、数据是哪个或哪些指标的取值?数据是哪个
21、或哪些指标的取值?2、这个或这些指标是不是随机变量或随机向量?这个或这些指标是不是随机变量或随机向量?3、如果是,那么它服从什么分布?如果是,那么它服从什么分布?4、用统计方法确定分布;用统计方法确定分布;5、分布确定后,用概率方法求出问题的解。分布确定后,用概率方法求出问题的解。下面我们就讨论用统计方法确定分布的问题。下面我们就讨论用统计方法确定分布的问题。目录目录 Back Next 经验分布函数和频率直方图经验分布函数和频率直方图 当我们确定讨论的指标的确是随机变量后,剩下的关键任务就是确定它的分布。那么它的观测数据就是我们赖以解决问题的基本资料,叫做当我们确定讨论的指标的确是随机变量后
22、,剩下的关键任务就是确定它的分布。那么它的观测数据就是我们赖以解决问题的基本资料,叫做样本样本,而这个随机变量就叫做,而这个随机变量就叫做总体总体。这些数据反映了该随机变量分布的基本特征。我们可以利用这些数据构造一个分布函数,理论上可以证明它很接近于那个未知分布。这个分布函数就叫做经验分布函数。这些数据反映了该随机变量分布的基本特征。我们可以利用这些数据构造一个分布函数,理论上可以证明它很接近于那个未知分布。这个分布函数就叫做经验分布函数。目录目录 Back NextNext 例 6、例 2 续(经验分布函数)例 2 续(经验分布函数)在例 2,我们确定所讨论的指标在时间间隔T 秒内放射出的
23、粒子数 X,是一个随机变量。且有该随机变量的n2608 个观测值,这就是一个容量为 2608 的样本。在没有其他信息的情况下,首先应该给出该样本的经验分布函数:在例 2,我们确定所讨论的指标在时间间隔T 秒内放射出的 粒子数 X,是一个随机变量。且有该随机变量的n2608 个观测值,这就是一个容量为 2608 的样本。在没有其他信息的情况下,首先应该给出该样本的经验分布函数:().nxF xxRn =样本中不超过的观测值的个数,在这里我们可求出这个在这里我们可求出这个 经验分布函数经验分布函数如下:如下:2 6 0 80,0;0.0 2 1 8 5 5 8 2 8,01;0.0 9 9 6 9
24、 3 2 5 2,12;0.2 4 6 5 4 9 0 8 ,23;0.4 4 7 8 5 2 7 6 1,34;0.6 5 1 8 4 0 4 9 1,45;()0.8 0 8 2 8 2 2 0 9,56;0.9 1 2 9 6 0 1 2xxxxxxFxx=3,67;0.9 6 6 2 5 7 6 6 9,78;0.9 8 3 5 1 2 2 7,89;0.9 9 3 8 6 5 0 3 1,91 0;1,1 0.xxxxx 目录目录 Back Next 这个函数的图像如下这个函数的图像如下(Poisson2):如果熟悉 Poisson 分布的分布函数图像的话,就可以从这个图像判断出,X
25、 可能服从参数为 3.87 的 Poisson 分布。从这个经验分布函数容易解决概率计算问题:如果熟悉 Poisson 分布的分布函数图像的话,就可以从这个图像判断出,X 可能服从参数为 3.87 的 Poisson 分布。从这个经验分布函数容易解决概率计算问题:()()()().nnP aXbF bF aF bF a 为 为 否定域否定域,给定检验水平,H,给定检验水平,H0 0成立时,成立时,22(1)Pkr。很小时,很小时,22(1)kr 是一个小概率事件。如果是一个小概率事件。如果22(1)kr,则否定原假设,否则说明数据与原假设没有矛盾,接受原假设。,则否定原假设,否则说明数据与原假
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 概率 统计 建模 讲义
限制150内