《第四章 概率统计问题与计算.doc》由会员分享,可在线阅读,更多相关《第四章 概率统计问题与计算.doc(18页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、概率统计问题与计算1 数据分组在统计调查取得原始资料以后,要按照所研究问题的背景知识以及分析研究的需要,将大量的杂乱无章的数据用科学方法进行加工整理。主要步骤如下:(1)数据分组;(2)计算统计指标;(3)绘制统计图表。(一)数据分组首先将数据从小到大重新排列,然后按照一定的规则分成若干组,假设共有n个与顺序无关的数据 ,一般,分组组数m1 + 3.322其中表示以10为底的对数。而组距(最大的数据 最小的数据)组数。例1 研究下列30个数据:1.26,1.2,2.3,4.1,1.33,1.45,2.61,3.22,5.45,1.86,0.23,0.89,1.12,2.1,2.5,3.4,7.
2、8,1.89,2.54,6.32,1.26,2.85,3.1,4.2,5.13,6.32,7.98,8.1,9.2,10.4 。第一步 重新排序。因为与顺序无关,可以重新排序。(1)在Mathematica软件包中将数据从小到大重新排列。程序如下:data = 1.26,1.2,2.3,4.1,1.33,1.45,2.61,3.22,5.45,1.86,0.23,0.89,1.12,2.1,2.5,3.4,7.8,1.89,2.54,6.32,1.26,2.85,3.1,4.2,5.13,6.32,7.98,8.1,9.2,10.4;Sortdata,Less运行后得到结果:0.23,0.89
3、,1.12,1.2,1.26,1.26,1.33,1.45,1.86,1.89,2.1,2.3,2.5,2.54,2.61,2.85,3.1,3.22,3.4,4.1,4.2,5.13,5.45,6.32,6.32,7.8,7.98,8.1,9.2,10.4可见最大的数据是10.4,最小的数据是0.23。(2)在Matlab软件包中将数据从小到大重新排列。首先写一个名字为opt_bar_1的M文件:data = 1.26,1.2,2.3,4.1,1.33,1.45,2.61,3.22,5.45,1.86,0.23,0.89,1.12,2.1,2.5,3.4,7.8,1.89,2.54,6.32
4、,1.26,2.85,3.1,4.2,5.13,6.32,7.98,8.1,9.2,10.4;sort(data)bar(data)colormap hsv存盘后按F5键执行,得到结果如下:ans = Columns 1 through 9 0.2300 0.8900 1.1200 1.2000 1.2600 1.2600 1.3300 1.4500 1.8600 Columns 10 through 18 1.8900 2.1000 2.3000 2.5000 2.5400 2.6100 2.8500 3.1000 3.2200 Columns 19 through 27 3.4000 4.
5、1000 4.2000 5.1300 5.4500 6.3200 6.3200 7.8000 7.9800 Columns 28 through 30 8.1000 9.2000 10.4000以及数据的彩色条形图第二步 计算分组组数。m = 1+3.322Log10,30 5.907即,应该分为6组。第三步 计算组距。组距(最大的数据 最小的数据)组数(10.4 0.23)6 1.69我们一般取整数,组距取为2。数据统计列表如下:组别落在该组中的数据个数0210249464684810210121第四步 画出直方图。(1)在Mathematica软件包中写入下列程序:Step1 执行下列程序
6、GraphicsGraphicsStep2 执行下列程序d1=10,9,4,4,2,1;BarChartd1运行后得到下列彩色直方图:(2)在Matlab软件包中画直方图。写一个名字为opt_bar_2的M文件:d=10,9,4,4,2,1;bar(d)colormap hsv存盘后按F5键执行,得到彩色直方图如下:第五步 画出经验累加分布函数图在Matlab软件包中画直方图。写一个名字为opt_cdfplot_1的M文件:data = 1.26,1.2,2.3,4.1,1.33,1.45,2.61,3.22,5.45,1.86,0.23,0.89,1.12,2.1,2.5,3.4,7.8,1
7、.89,2.54,6.32,1.26,2.85,3.1,4.2,5.13,6.32,7.98,8.1,9.2,10.4;h,stats=cdfplot(data)存盘后按F5键执行,得到经验累加分布函数图如下:以及下列数据:h = 3.0016stats = min: 0.2300 max: 10.4000 mean: 3.7370 median: 2.7300 std: 2.7594其中,stats返回值为:min: 0.2300,表示数据的最小值是0.2300;max: 10.4000,表示数据的最大值为10.4000;mean: 3.7370,表示数据的算术平均值为3.7370;medi
8、an: 2.7300,表示数据的中值为2.7300;std: 2.7594,表示数据的标准差为2.7594。第六步 在matlab6.5中输入命令:disttool执行后,得到一个画面:可以在其中不断调整参数,找到数据满足的、合适的分布函数。第七步 绘制Weibul概率函数图 若数据服从Weibul分布,则图形是线性的,否则图形是曲线型的。在Matlab软件包中画直方图。写一个名字为opt_weibplot_1的M文件:data = 1.26,1.2,2.3,4.1,1.33,1.45,2.61,3.22,5.45,1.86,0.23,0.89,1.12,2.1,2.5,3.4,7.8,1.8
9、9,2.54,6.32,1.26,2.85,3.1,4.2,5.13,6.32,7.98,8.1,9.2,10.4;h,stats=weibplot(data)存盘后按F5键执行,得到经验累加分布函数图如下:是否服从Weibul分布,请读者自己判断。(二)计算统计指标 描述数据的集中趋势统计量有算术平均值、中位数、众数、几何均值、调和均值、截尾均值等;描述数据的离散趋势统计量有极差、平均差、平均绝对差、方差、标准差等。此外还有峰度、偏度、分位数、相关系数等统计量也能描述样本数据的某些特征。(1)集中趋势统计量求下列30个数据:1.26,1.2,2.3,4.1,1.33,1.45,2.61,3.
10、22,5.45,1.86,0.23,0.89,1.12,2.1,2.5,3.4,7.8,1.89,2.54,6.32,1.26,2.85,3.1,4.2,5.13,6.32,7.98,8.1,9.2,10.4 的平均值、中位数、众数、几何均值、调和均值、截尾均值等。在Matlab软件包中写一个名字为opt_mean_1的M文件:p = 1.26,1.2,2.3,4.1,1.33,1.45,2.61,3.22,5.45,1.86,0.23,0.89,1.12,2.1,2.5,3.4,7.8,1.89,2.54,6.32,1.26,2.85,3.1,4.2,5.13,6.32,7.98,8.1,9
11、.2,10.4;mean(p)harmmean(p)median(p)geomean(p)trimmean(p,0.5)存盘后按F5键执行,得到:ans = 3.7370ans = 1.8273ans = 2.7300ans =2.7814ans = 3.7370即,这30个数据的算术平均值是3.7370,调和平均值是1.8273,中位数是2.73,几何平均值是2.7814,截尾均值是3.7370。注:求几何平均值时一般要求小于0的数据偶数个;假设有n个数据,几何平均值记为,其计算公式为几何平均值相对于算术平均值而言,受数据中个别异常值的影响较小。例1 某公司连续4个月的利润率是3、2、4、6
12、,其算术平均值为()其几何平均值为()其中几何平均值受6的影响较小。读者应该根据情况选用合适的均值类型。 假设有n个数据,其调和平均值的计算公式为当被观测的变量具有倒数性质时,得到的数据适合应用调和平均。例2 公交汽车前10千米车速为50km小时,后10千米车速为30kmh,求全程20km的平均车速。公交车前10km耗时为小时,后10km耗时小时,所以,公交车行使20km路程总共耗时0.533小时,平均时速为37.5kmh。即,其调和均值为:(km小时)例3 学生张三的语文、数学、英语的成绩如下:98,88,90,学生李四的语文、数学、英语的成绩如下:95,90,91,两人总分都是276,平均
13、92分。我们将学习比作开车,张三分别用98,88,90的速度各开三分之一的路程,求平均速度,可以用调和平均。张三的调和平均值是91.8026,李四的调和平均值是91.9500。若要排名次的话,可以认为李四排名在前,即,李四的成绩好一些。程序中mean(p)表示求数据p的算术平均值,harmmean(p)表示求数据p的调和平均值,median(p)表示求数据p的中位数,geomean(p)表示求数据p的几何平均值,trimmean(p,0.5)表示截尾均值(the trimmed mean),意思是先剔除数据中最大和最小共0.5的数据后(其中最大与最小各),再计算数据的算术平均值。(2) 离中趋
14、势统计量求下列30个数据:1.26,1.2,2.3,4.1,1.33,1.45,2.61,3.22,5.45,1.86,0.23,0.89,1.12,2.1,2.5,3.4,7.8,1.89,2.54,6.32,1.26,2.85,3.1,4.2,5.13,6.32,7.98,8.1,9.2,10.4 的内四分极差、平均绝对差、极差、方差、标准差等。在Matlab软件包中写一个名字为opt_var_1的M文件:p = 1.26,1.2,2.3,4.1,1.33,1.45,2.61,3.22,5.45,1.86,0. 23,0.89,1.12,2.1,2.5,3.4,7.8,1.89,2.54,
15、6.32,1.26,2.85,3.1,4.2,5.13,6.32,7.98,8.1,9.2,10.4;iqr(p)mad(p)range(p)var(p)std(p)存盘后按F5键执行,得到:ans = 4ans = 2.2595ans = 10.1700ans = 7.6145ans = 2.7594即,这30个数据的内四分极差是4,均值绝对差是2.2595,极差是10.1700,方差是7.6145,标准差是2.7594。注:程序中iqr(p)表示计算数据p的内四分极差,即,计算数据p的75百分位数与25百分位数之间的差值。这个值是数据范围的稳健性估计,因为前后25的数据变化对其没有影响。若
16、要计算数据p的百分位数,可以调用prctile(x,a)函数,其中。例如,在Matlab中输入以下程序:p = 1.26,1.2,2.3,4.1,1.33,1.45,2.61,3.22,5.45,1.86,1. 23,0.89,1.12,2.1,2.5,3.4,7.8,1.89,2.54,6.32,1.26,2.85,3.1,4.2,5.13,6.32,7.98,8.1,9.2,10.4;prctile(p,25)prctile(p,75)运行后得到25百分位数和75百分位数如下:ans = 1.4500ans = 5.4500 关于四分位数将n个数据按大小顺序排列后,分割成4等份,得到3个分
17、割点、。位于处的数记作(即,25百分位数)、位于处的数记作、位于处的数记作(即,75百分位数)。若整数k,则;若,则。、的取值余类推。mad(p)表示计算数据p的平均绝对差。假设有n个数据,其平均绝对差的计算公式为 ,其中表示数据x的算术平均值。range(p)表示计算数据p的极差,极差最大的数据 最小的数据。var(p)表示计算数据p的方差。std(p) 表示计算数据p的标准差。2 概率密度与概率分布对于离散型概率分布和连续型概率分布,其概率密度函数的定义有所不同。假设f(x)是连续型随机变量x的概率密度函数,则其分布函数(一)常见的概率分布函数(1)离散型概率分布二项分布二项分布的概率密度
18、,其数学表达式是二项分布的概率密度在Matlab6.5中的函数名是binopdf,调用格式是y = binopdf(x, n, p)。其图像为:二项分布的累加分布函数的数学表达式是二项分布的累加分布函数在Matlab6.5中的函数名是binocdf,调用格式是y = binocdf(x, n, p)。负二项分布负二项分布的概率密度的数学表达式是其中p + q = 1。负二项分布的概率密度函数在Matlab6.5中的函数名是nbinpdf,调用格式是y = nbinpdf(x, r, p)。其图像为:负二项分布的累加分布函数的数学表达式是负二项分布的累加分布函数在Matlab6.5中的函数名是n
19、bincdf,调用格式是y = nbincdf(x, r, p)。几何分布几何分布的概率密度函数的数学表达式是其中p + q = 1。几何分布的概率密度函数在Matlab6.5中的函数名是geopdf,调用格式是y =geopdf(x, p)。其图像为:几何分布的累加分布函数的数学表达式是其中,floor(x)表示不超过x的最大整数。几何分布的累加分布函数在Matlab6.5中的函数名是geocdf,调用格式是y = geocdf(x, r, p)。超几何分布超几何分布的概率密度的数学表达式是超几何分布的概率密度在Matlab6.5中的函数名是hygepdf,调用格式是y =hygepdf(x
20、, M, K, n)。超几何分布的累加分布函数的数学表达式是超几何分布的累加分布函数在Matlab6.5中的函数名是hygecdf,调用格式是p = hygecdf(x, M, K, n)。普阿松(Poisson)分布普阿松分布的概率密度函数的数学表达式是普阿松分布的概率密度函数在Matlab6.5中的函数名是poisspdf,调用格式是y =poisspdf(x, )。其图像为:普阿松分布的累加分布函数的数学表达式是普阿松分布的累加分布函数在Matlab6.5中的函数名是poisscdf,调用格式是p = poisscdf(x, )。离散均匀分布离散均匀分布的概率密度函数的数学表达式是离散均
21、匀分布的概率密度函数在Matlab6.5中的函数名是unidpdf,调用格式是y = unidpdf(x, N)。其图像为:离散均匀分布的累加分布函数的数学表达式是离散均匀分布的累加分布函数在Matlab6.5中的函数名是unidcdf,调用格式是p =unidcdf(x, N)。(2)连续型概率分布正态(高斯,Gauss)分布正态分布的概率密度函数的数学表达式是正态分布的概率密度函数在Matlab6.5中的函数名是normpdf,调用格式是y =normpdf(x, ,)。正态分布的概率密度函数的图像:正态分布的累加分布函数的数学表达式是正态分布的累加分布函数在Matlab6.5中的函数名是
22、normcdf,调用格式是p =normcdf(x, ,)。分布 分布的概率密度函数为其图像为:在Matlab6.5中的调用格式是:y = gampdf(x,a,b)。分布的累加分布函数为在Matlab6.5中的调用格式是:p = gamcdf(x,a,b)。指数分布 指数分布的概率密度函数是:在Matlab6.5中的调用格式是:y = exppdf(x, )。其图像为: 指数分布的累加分布函数为:在Matlab6.5中的调用格式是:p = expcdf(x, )分布 分布的概率密度函数为:其图像为:在Matlab6.5中的调用格式是:y = chi2pdf(x,v)。分布的累加分布函数为:在
23、Matlab6.5中的调用格式是:p = chi2cdf(x,v)。威布尔(Weibull)分布 威布尔分布的概率密度函数为:在Matlab6.5中的调用格式是:y = weibpdf(x,a,b)。其图像为:威布尔分布的累加分布函数为:在Matlab6.5中的调用格式是:p = weibcdf(x,a,b)。瑞雷(Rayleigh)分布 瑞雷分布的概率密度函数为:其图像为:在Matlab6.5中的调用格式是:y = raylpdf(x,b)。瑞雷分布的累加分布函数为:在Matlab6.5中的调用格式是:p = raylcdf(x,b)。分布分布的概率密度函数为:其图像为:在Matlab6.5
24、中的调用格式是:y = betapdf(x,a,b)。分布的累加分布函数为:在Matlab6.5中的调用格式是:p = betacdf(x,a,b)。对数正态分布 对数正态分布的概率密度函数为:在Matlab6.5中的调用格式是:y = lognpdf(x,)。其图像为:对数正态分布的累加分布函数为:在Matlab6.5中的调用格式是:p = logncdf(x,)。学生氏t分布 学生氏t分布的概率密度函数为:其图像为在Matlab6.5中的调用格式是:y = tpdf(x,v)。学生氏t分布的累加分布函数为:在Matlab6.5中的调用格式是:p = tcdf(x,v)。F分布 F分布的概率
25、密度函数为其图像为:在Matlab6.5中的调用格式是:y = fpdf(x,v1,v2)。F分布的概率密度函数为在Matlab6.5中的调用格式是:p = fcdf(x,v1,v2)。(三)常见分布的图像 在Matlab6.5中输入命令disttool,按回车键执行,得到一个画面如下:其中Normal表示正态分布,PDF表示密度函数,正态分布的参数范围已在画面中表示出来:。在这个范围内取值,软件包自动给出对应正态分布的图像。若要查看累加分布的图像,在右上角第二个选项框中选CDF即可。在右上角第一个选项框中可以选择Beta(贝塔分布)、Binomial(二项分布)、Chi square(分布)、Discrete Uniform(离散一致分布)、Exponential(指数分布)、F(F分布)、Gamma(伽马分布)、Geometric(几何分布)、Lognormal(对数正态分布)、Negative Binomial(负二项分布)、Noncentral F(非中心F分布)、Noncentral T(非中心T分布)、Noncentral Chi square(非中心分布)、Normal(正态分布)、Poisson(普阿松分布)、Rayleigh(瑞雷分布)、T(T分布)、Uniform(一致分布)、Weibull(威布尔分布)等19种分布。18
限制150内