mathematics教程 第9章 概率统计计算.ppt
第九章第九章 概率统计计算概率统计计算 北京交通大学9.1 概率统计软件包概率统计软件包lMathematica可以处理概率统计方面的计算可以处理概率统计方面的计算,有关的命有关的命令都在令都在Mathematica自带的统计软件包中自带的统计软件包中,这些软件包这些软件包存放在存放在Mathematica系统自己带有程序包系统自己带有程序包,存放在存放在C:wnmath22PackgesStatisti目录中目录中,用户可以在用户可以在Mathematica的工作窗口键入的工作窗口键入Ctrl+O,调出调出Open窗口窗口,将该窗口左下脚的文件类型选为将该窗口左下脚的文件类型选为Packages(*.m),并用并用鼠标双击文件夹鼠标双击文件夹packages打开其中的子文件夹打开其中的子文件夹,然后任然后任意双击意双击Statisti文件夹文件夹,就可以在窗口左上部分看到很多就可以在窗口左上部分看到很多以以.m为扩展名的为扩展名的Mathematica所有自带的概率统计软件所有自带的概率统计软件包文件包文件:(见图见图)下一页下一页返回返回软软件包文件名件包文件名调调用名称用名称涉及的涉及的问题问题 confiden.mStatisticsConfidenceIntervals置信区置信区间间 continuo.mStatisticsContinuousDistributions连续连续分布分布 descript.mStatisticsDescriptiveStatistics统计函数的说明统计函数的说明discrete.mStatisticsDiscreteDistributions离散分布离散分布hypothes.mStatisticsHypothesisTests假假设检验设检验 linearre.mStatisticsLinearRegression线线性回性回归归 nonlinear.mStatisticsNonlinearFit非线性拟合非线性拟合Mathematica中的部分概率统计软件包文件名中的部分概率统计软件包文件名,调用名称及涉及的问题调用名称及涉及的问题9.2 Mathematica概率统计软件包中最常用的命令概率统计软件包中最常用的命令l为了使用的方便,下面写出一些概率统计软件包中最常用的内容及其调用文件名需调用需调用StatisticsDescriptiveStatistics软件包才能使软件包才能使用的函数用的函数:Meandata 计算样本数据data的均值Mediandata 计算样本数据data的中值 Variancedata 计算样本数据data的方差 StandardDeviationdata 计算样本数据data的标准差 l注意注意:data是由离散数据组成的表是由离散数据组成的表例例1:1)已知样本数据为dat=3.2,5.1,1,4,2,试计算dat的均值、中值、方差、标准差。2)产生0,1上的20个随机实数,并计算它们的均值、中值、方差、标准差。解解:In1:=StatisticsDescriptiveStatistics *调用统计软件包调用统计软件包In2:=dat=3.2,5.1,1,4,2;In3:=MeandatOut3:=3.06In4:=MediandatOut4:=3.2 In5:=VariancedatOut5:=2.608In6:=StandardDeviationdat Out6:=1.61493In7:=dat1=TableRandom,20Out7:=0.93234,0.439331,0.407442,0.469035,0.741679,0.884562,0.111029,0.696056,0.0591917,0.622276,0.825287,0.540449,0.594691,0.597846,0.490196,0.463414,0.404672,0.19069,0.105273,0.942455In8:=Meandat1Out8:=0.525896In9:=Mediandat1Out9:=0.515323 In10:=Variancedat1Out10:=0.0724088In11:=StandardDeviationdat1 Out11:=0.269089需调用需调用StatisticsDiscreteDistributions软件包软件包才能使用的概率分布和函数才能使用的概率分布和函数:BernoulliDistributionp 表示均值为表示均值为p的离散伯努力分布的离散伯努力分布 BinomialDistributionn,p 表示参数为表示参数为n,p的二项分布的二项分布b(n,p)GeometricDistributionp 表示参数为表示参数为p的几何分布的几何分布HypergeometricDistributionn,nsucc,ntot 表示参数为表示参数为n,nsucc,ntot 的超几何分布的超几何分布PoissonDistributionmu 表示参数为表示参数为mu的的F泊松分布泊松分布PDFdistribution,k 离散分布离散分布distribution的分布律的分布律P=k CDFdistribution,x 概率分布为概率分布为distribution且随机变量小于值且随机变量小于值x的概率的概率P x Meandistribution 计算离散分布计算离散分布distribution的均值的均值Variancedistribution 计算离散分布计算离散分布distribution的方差的方差StandardDeviationdistribution 计算离散分布计算离散分布distribution的标准差的标准差Randomdistribution 产生具有概率分布为产生具有概率分布为 distribution一个伪随机数一个伪随机数例例2:设随机变量服从参数为0.8的泊松分布(1)求随机变量 的均值、中值、方差、标准差和分布律。(2)求随机变量 4的概率解解:泊松分布是离散分布,故需调用处理离散概率问题的软件包,执行命令为In1:=StatisticsDiscreteDistributions *调用统计软件包调用统计软件包In2:=s=PoissonDistribution0.8Out2:=PoissonDistribution0.8In3:=Means,Variances,StandardDeviations Out3:=0.8,0.8,0.894427In4:=PDFs,k Exp-1*0.8 0.8 kOut4:=If!Negativek,IfIntegerQk,-,0,0 k!In5:=1-CDFs,3 *因为概率因为概率P(4)=1-P(4)Out5:=0.00907986例例5:假设投掷一个均匀硬币只能出现正面和反面两种情况,用Mathematica命令来验证投掷出现正面的概率为0.5。解:解:设X表示投掷一个均匀硬币出现正面和反面的随机变量,它只取两个值0和1,采用具有概率分布均值为0.5的离散伯努力分布BernoulliDistribution0.5 产生的伪随机数RandomBernoulliDistribution0.5 来模拟实际投掷一个均匀硬币的情况,规定出现随机数是1表示投掷硬币出现正面;0 表示投掷硬币出现反面。命令中分别用产生的100个伪随机数、500个伪随机数和1000个伪随机数出现数1的频率来验证投掷出现正面的概率为0.5的结论,命令为:In1:=StatisticsDiscreteDistributions *调用统计软件包调用统计软件包In2:=syn_:=Moduleface,s,*定义模拟函数定义模拟函数 s=BernoulliDistribution0.5;Forface=0;i=1,i=n,i=i+1,IfRandoms=1,face=face+1;Nface/n In3=sy100,sy500,sy1000 Out3=0.53,0.514,0.472 从模拟试验结果可以看到投掷出现正面的概率在0.5附近波动。需调用需调用StatisticsContinuousDistributions软件包软件包才能使用的概率分布和函数才能使用的概率分布和函数BetaDistribution,表示参数为表示参数为 和和 的的Beta连续分布连续分布 CauchyDistribution,表示参数表示参数 和和 的柯西连续分布的柯西连续分布ChiSquareDistributionn 表示有表示有 n个自由度的个自由度的 2 连续分布连续分布ExponentialDistributionlambda 表示参数为表示参数为 的指数连续分布的指数连续分布FRatioDistributionn1,n2 表示分子参数为表示分子参数为n1和分母参数为和分母参数为n2的的F连续分布连续分布NormalDistribution,表示均值为表示均值为 标准差为标准差为 的正态分布的正态分布N(,2)RayleighDistribution 表示参数为表示参数为 的瑞利连续分布的瑞利连续分布 StudentTDistributionn 表示有表示有 n个自由度的个自由度的t 连续分布连续分布UniformDistributionmin,max 表示表示min,max 区间上的均匀分布区间上的均匀分布PDFdistribution,x 概率分布为概率分布为distribution的分布密度函数的分布密度函数f(x)CDFdistribution,x 概率分布为概率分布为distribution且随机变量小于值且随机变量小于值x的概的概 率率P x Meandistribution 计算概率分布为计算概率分布为distribution均值均值Variancedistribution 计算概率分布为计算概率分布为distribution方差方差StandardDeviationdistribution 计算概率分布为计算概率分布为distribution标准差标准差Randomdistribution 产生具有概率分布为产生具有概率分布为 distribution一个伪随机数一个伪随机数例例3:设随机变量服从正态分布N(0,32),()求出对应的分布密度函数,并画出对应的分布密度函数图形()求随机变量2的概率解解:Mathematica命令为:In1:=All Out4:=-Graphics-In5:=CDFdis,2*求随机变量求随机变量 2的的概率概率Out5=0.747507实验实验 1 袋内有袋内有6个白球个白球4个黑球,从中任取两个球,求取出的两个球都是白个黑球,从中任取两个球,求取出的两个球都是白球的概率。球的概率。分析分析:基本事件总数:基本事件总数C102,有利的事件数有利的事件数C62,故所求概率,故所求概率P=C62/C102Mathematica 命令命令 In1:=Binomial6,2/Binomial10,2 Out1=1/3故故 取出两个球都是白球的概率为取出两个球都是白球的概率为1/32 已知在已知在1000个灯泡中坏灯泡的个数从个灯泡中坏灯泡的个数从0到到5均等可能,求从中任取均等可能,求从中任取100个都是好灯泡的概率。个都是好灯泡的概率。Mathematica 命令命令 In1:=pbi=Table1/6,6;In2:=pabi=TableBinomial1000-i,100,i,0,5/Binomial1000,100;In3:=pa=Sumpbii*pabii,i,1,6 Out3=In4:=Npa (*将精确结果转化为有将精确结果转化为有6位有效数字的近似数位有效数字的近似数*)Out4=0.780693实验实验 3 生成自由度为生成自由度为12的的t分布的连续型随机变量及其概率密度函数,分布分布的连续型随机变量及其概率密度函数,分布函数,并用图形显示。函数,并用图形显示。Mathematica 命令命令In1:=StatisticsContinuousDistributionsIn2:=rv=StudentTDistribution12;In3:=f=PDFrv,xOut3:=(*t(12)的概率密度函数的概率密度函数*)In4:=Plotf,x,-5,5 In5:=g=CDFrv,x;Out5:=(*t(12)的分布函数的分布函数*)In6:=Plotg,x,-4,4实验实验 4 某地区某地区18岁女青年的血压(收缩压,以岁女青年的血压(收缩压,以mm-Hg计)服从计)服从N(110,122)。在该地区任选一个在该地区任选一个18岁的女青年,测量她的血压岁的女青年,测量她的血压X。求。求P(X105)和和P(100X120),画出血压,画出血压X概率密度函数的图像。概率密度函数的图像。Mathematica 命令命令In1:=StatisticsContinuousDistributions rv=NormalDistribution110,12;fx_:=PDF rv,x;Fx_:=CDFrv,x;NF105Out5=0.338461 (*P(X 105)=0.338461*)In6:=NF120-F100Out6=0.595343 (*P(100X 100)=0.595343*)In7:=Plot fx,x,110-12*3,110+12*3 实验实验 5 设随机变量设随机变量X-b(20-0.4),计算计算(1)PX=0(2)PX=1(3)PX10(6)PX15Mathematica 命令命令 In1:=StatisticsDiscreteDistributions brv=BinomialDistribution20,0.4;fx_:=PDF brv,x;dfx_:=CDFbrv,x;f0Out5=0.0000365616 (*得得P(=0)=0.0000365616*)In6:=f1Out6=0.000487488 (*得得P(=1)=0.000487488*)In7:=df2-f2 Out7=0.000524049 (*得得P(10)=0.127521*)In10:=1-df15+f15 Out10=0.00161152 (*得得P(15)=0.00161152*)实验实验 6 在以原点为圆心的单位圆周上任取一点,求随机地取到点的横坐标在以原点为圆心的单位圆周上任取一点,求随机地取到点的横坐标的概率密度函数。的概率密度函数。Mathematica 命令命令 In1:=StatisticsContinuousDistributionsIn2:=rv=UniformDistribution-Pi,Pi;f=PDF rv,tOut3=In4:=F=CDFrv,t Out4=In5:=Gx_:=1-ArcCosx/Pi;DGx,xOut5=实验实验 7 给出给出20个服从均值为个服从均值为0、标准差为、标准差为3的正态分布的正态分布N(0,32)随机数组成的表随机数组成的表Mathematica 命令命令 In1:=StatisticsContinuousDistributionsIn2:=rv=NormalDistribution0,3;RandomArrayrv,20Out3=0.636589,-4.25557,2.04924,1.58478,0.0244065,0.371864,-0.933664,3.54688,-0.888601,-0.650029,-2.49356,-3.07764,-2.44536,-0.512286,-1.68181,3.8912,-4.28302,-2.01939,-0.294215,2.13797实验实验 8 n个人每人携带一件礼物参加联欢会。联欢会开始后,先把所有的礼个人每人携带一件礼物参加联欢会。联欢会开始后,先把所有的礼物编号,然后每人任意抽取一个号码,按号码领取礼物。请分别就参加物编号,然后每人任意抽取一个号码,按号码领取礼物。请分别就参加联欢会的人数联欢会的人数n=1到到20人求所有人都得到别人赠送礼物的概率,并从这人求所有人都得到别人赠送礼物的概率,并从这些概率值推断随着参加联欢会的人数增加是否会出现所有人都得到别人些概率值推断随着参加联欢会的人数增加是否会出现所有人都得到别人赠送礼物的概率会不断变小的情况?赠送礼物的概率会不断变小的情况?Mathematica 命令命令 In1:=pn_:=Sum(-1)k*1/k!,k,2,n In2:=TableNpk,18,k,1,20 Out2=0,0.500000000000000000,0.333333333333333333,0.375000000000000000,0.366666666666666667,0.368055555555555556,0.367857142857142857,0.367881944444444444,0.367879188712522046,0.367879464285714286,0.367879439233605900,0.367879441321281599,0.367879441160691161,0.367879441172161906,0.367879441171397190,0.367879441171444985,0.367879441171442173,0.367879441171442329,0.367879441171442321,0.367879441171442322从计算结果可以看到,随着参会人数的增加,所有人都得到别人赠送礼物的概率不会不从计算结果可以看到,随着参会人数的增加,所有人都得到别人赠送礼物的概率不会不断变小,而是会收敛到一个约为断变小,而是会收敛到一个约为0.367879,也就是也就是e-1。实验实验 9 在某纺织厂中,一个工人要照顾在某纺织厂中,一个工人要照顾800个纱锭。每个纱锭旋转时,由于个纱锭。每个纱锭旋转时,由于偶然的原因,纱会被扯断。假设在某一段时间内,每个纱锭的纱被扯断偶然的原因,纱会被扯断。假设在某一段时间内,每个纱锭的纱被扯断的概率为的概率为0.005,求在这段时间内,纱被扯断次数不大于,求在这段时间内,纱被扯断次数不大于10的概率。的概率。分析:分析:相当于进行相当于进行800次独立试验,用次独立试验,用X表示纱被扯断次数,则有表示纱被扯断次数,则有X服从服从b(800,0.005)的二项分布,而所求概率为的二项分布,而所求概率为PX10可以用求可以用求b(800,0.005)的的分布函数得到。分布函数得到。Mathematica 命令命令 In1:=StatisticsDiscreteDistributionsIn2:=rvb=BinomialDistribution800,0.005;fk_:=CDFrvb,kf10 Out4=0.997239所以在这段时间内,纱被扯断次数不大于所以在这段时间内,纱被扯断次数不大于10的概率的概率为为0.997 239。练习练习 1 某种检验方法对癌症的准确率时某种检验方法对癌症的准确率时95,一个人接受了检测并且结果呈,一个人接受了检测并且结果呈阳性,假定这个人来自一个有阳性,假定这个人来自一个有100 000人口的地区,该地区人口的地区,该地区2 000人得到人得到这种癌症,推断接受检测者患这种癌症的概率是多少?这种癌症,推断接受检测者患这种癌症的概率是多少?2 福利彩票摇奖的大转盘上的圆周等分成福利彩票摇奖的大转盘上的圆周等分成100份,第份,第i份对应奖金份对应奖金i千元千元(i=1100)。转动一次大转盘,求奖金金额为。转动一次大转盘,求奖金金额为5万元到万元到6万元的概率。万元的概率。3 某厂产品中有某厂产品中有4废品,而在废品,而在100件合格品中有件合格品中有80件一等品,求任取一件一等品,求任取一件是一等品的概率。件是一等品的概率。4 生成服从二项分布生成服从二项分布b(25,0.3)的随机变量,显示其分布率,并画出其分的随机变量,显示其分布率,并画出其分布率图形。布率图形。实验实验 10 设样本数据为设样本数据为 110.1,25.2,50.5,50.5,55.7,30.2,35.4,30.2,4.9,32.3,50.5,30.5,32.3,74.2,60.8 求该样本的均值、方差、标准差、中位数、众数。Mathematica 命令命令 In1:=StatisticsDescriptiveStatisticsIn2:=d1=110.1,25.2,50.5,50.5,55.7,30.2,35.4,30.2,4.9,32.3,50.5,30.5,32.3,74.2,60.8;In3:=Meand1Out3=44.8867 (*均值为均值为44.8867*)In4:=var=Varianced1Out4=614.89 (*方差为方差为614.89*)In5:=SqrtvarOut5=24.797 (*标准差为标准差为24.797*)In6:=Mediand1 Out6:=35.4 (*中位数为中位数为 35.4*)In7:=Moded1Out7:=50.5 (*众数为众数为50.5*)实验实验 11 设样本数据为设样本数据为16.5,13.8,16.6,15.7,16.0,16.4,15.3,求该样本的均值、几何均值和调和均值。Mathematica 命令命令 In1:=StatisticsDescriptiveStatisticsIn2:=d2=16.5,13.8,16.6,15.7,16.0,16.4,15.3;In3:=Meand2Out3=15.7571 (*均值为均值为15.7571*)In4:=GeometricMeand2Out4=15.7296 (*几何均值为几何均值为15.7296*)In5:=HarmonicMean d2Out5=15.7007 (*调和均值为调和均值为15.7007*)实验实验 12 设样本数据为6.5,3.8,6.6,5.7,6.0,6.4,5.3,画出该样本的条形图和饼形图。Mathematica 命令命令 In1:=GraphicsGraphicsIn2:=d3=6.5,3.8,6.6,5.7,6.0,6.4,5.3;In3:=BarChartd3 (*画样本条形图画样本条形图10-1*)In4:=PieChatd3 (*画样本饼形图画样本饼形图10-2*)实验实验 13 某企业在某企业在1995到到2001年间,每年的生产总值分别是上一年的年间,每年的生产总值分别是上一年的60、80、90、100%、105、110,试计算该企业生产总值的年平均,试计算该企业生产总值的年平均发展速度发展速度。Mathematica 命令命令In1:=h1&dih1+h,m=m+1,i,1,dnum;h1=h1+h;m,k,1,num Out2=2,2,2,2,4,4,4,4,3,3 In3:=0,5(2)Mathematica 命令命令 In1:=d=0.192,-1.382,0.508,-0.813,0.531,-0.536,0.826,1.404,-1.372,-0.349,1.054,1.372,1.624,0.709,1.034,1.670,-0.205,-0.017,-0.204,0.056,-1.179,-0.645,1.201,0.453,0.304,-1.832,0.058,1.870,0.912,-1.769 In2:=h1=-2;(*左端点值为-2*)h=(2-(-2)/16;(*小区间的长度为0.25*)num=16;(*小区间的个数为16*)dnum=30;(*样本容量为30*)fpn=Tablem=0;DoIfdi=h1&di0,4实验实验 15 某厂用自动包装机进行产品装包作业,现从某日生产的产品中随机某厂用自动包装机进行产品装包作业,现从某日生产的产品中随机抽取抽取80包,测得数据如下包,测得数据如下 101.1,100.6,101.1,101.7,102.4,102.7,103.2,103.7,99.6,99.1,98.6,98.1,97.6,96.8,97.7,98.2,98.4,103.1,102.8,102.0,102.5,102.3,101.9,101.2,101.1,99.6,99.9,99.1,98.1,102.2,102.3,101.8,101.7,102.0,101.8,101.8,102.0,101.5,101.3,101.4,100.9,100.6,98.6,100.2,100.8,101.4,101.5,101.3,99.4,99.5,99.1,101.0,100.3,100.5,100.0,99.9,99.7,99.6,100.4,100.3,100.2,100.0,100.1,100.5,99.8,99.6,100.0,100.3,100.5,100.2,99.0,98.6,99.4,99.3,99.1,100.1,100.2,101.4,100.9,101.0 求该自动包装机装包重量的均值、方差、中位数、众数,并画出该样本求该自动包装机装包重量的均值、方差、中位数、众数,并画出该样本数据的直方图。数据的直方图。Mathematica 命令命令 In1:=d=101.1,100.6,101.1,101.7,102.4,102.7,103.2,103.7,99.6,99.1,98.6,98.1,97.6,96.8,97.7,98.2,98.4,103.1,102.8,102.0,102.5,102.3,101.9,101.2,101.1,99.6,99.9,99.1,98.1,102.2,102.3,101.8,101.7,102.0,101.8,101.8,102.0,101.5,101.3,101.4,100.9,100.6,98.6,100.2,100.8,101.4,101.5,101.3,99.4,99.5,99.1,101.0,100.3,100.5,100.0,99.9,99.7,99.6,100.4,100.3,100.2,100.0,100.1,100.5,99.8,99.6,100.0,100.3,100.5,100.2,99.0,98.6,99.4,99.3,99.1,100.1,100.2,101.4,100.9,101.0;In2:=MeandOut2=100.49 In3:=VariancedOut3=2.02344 In4:=Mediand Out4:=100.45 In5:=ModedOut5:=99.1,99.6,100.2 In6:=GraphicsGraphicsIn7:=Histogramd实验实验 16 某矿脉中某矿脉中10个相邻样本点处一种伴生金属的含量数据如下表所示个相邻样本点处一种伴生金属的含量数据如下表所示。1)分析)分析 本题没有事先指定回归关系,因此应改通过散点图形状自己尝试,从中找出较为合适本题没有事先指定回归关系,因此应改通过散点图形状自己尝试,从中找出较为合适的回归形式。的回归形式。2)实验操作)实验操作In1:=dat=2,106.42,3,108.2,4,109.58,5,109.5,7,110.,8,109.93,10,110.49,11,110.59,14,110.6,15,110.9In2:=ListPlotdOut2=编号12345678910距离(x)23457810111415含量(y)106.42108.2109.58109.5110109.93110.49110.59110.6110.9粗劣观察此散点图,觉得似乎回归方程形式可取线性形式:y=a+bx.但仔细观察,发现散点图有一些上凸,而上凸的图形具有y=a+b形式。下面用Mathematica 数学软件尝试这两种形式回归的优劣。In3:=StatisticsLinearRegressionIn4:=r=Regressdat,1,x,x Out4=In5:=r=Regressdat,1,Sqrtx,xOut5=实验结果发现,两个回归方程的线性关系都是高度显著的,但回归方程y=a+b无论在变量系数b的检验概率还是对应回归方程检验概率都比回归方程y=a+bx要小近一个数量级,因此回归方程y=a+b要比y=a+bx形式好。我们最后选定本题的回归方程为:y=105.767+1.43079练习练习 1 设样本数据为0.2,0.1,0.3,0.4,画出该样本的条形图和饼形图。2样本1050,1100,1120,1250,1280来自正态总体,求该总体均值、方差的置信度为0.95置信区间。3如果一组样本数据的散点图具有y=aebx形状,怎样求其回归方程?v第第9章结束章结束v谢谢谢谢