《专题二 数据的统计分析.ppt》由会员分享,可在线阅读,更多相关《专题二 数据的统计分析.ppt(40页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数学建模专题二数学建模专题二数据的统计分析数据的统计分析Lxy,China Jiliang Universty数学建模专题二数学建模专题二 数据的统计分析数据的统计分析q 现实生活中的许多数据都是随机产生的,如考试现实生活中的许多数据都是随机产生的,如考试分数、月降雨量、灯泡寿命等。从数理统计角度来分数、月降雨量、灯泡寿命等。从数理统计角度来看,这些数据其实都是符合某种分布的,这种规律看,这些数据其实都是符合某种分布的,这种规律就是统计规律。就是统计规律。q 本专题的主要目的是:熟悉各种常见分布的概率密本专题的主要目的是:熟悉各种常见分布的概率密度函数及其曲线,会利用数据分布的形态猜测其分布度
2、函数及其曲线,会利用数据分布的形态猜测其分布类型;能够对密度函数进行参数估计;进行简单的正类型;能够对密度函数进行参数估计;进行简单的正态假设检验。态假设检验。引言引言Lxy,China Jiliang Universty数学建模专题二数学建模专题二 数据的统计分析数据的统计分析内容提纲内容提纲1.Matlab1.Matlab相关命令介绍相关命令介绍2.2.常见概率分布常见概率分布3.3.频数直方图与频数表频数直方图与频数表4.4.参数估计参数估计5.5.假设检验假设检验Lxy,China Jiliang Universty数学建模专题二数学建模专题二 数据的统计分析数据的统计分析Matlab
3、相关命令相关命令n对随机变量x,计算其基本统计量的命令如下:n均值:mean(x)n中位数:median(x)n标准差:std(x)n方差:var(x)n偏度:skewness(x)n峰度:kurtosis(x)q 基本统计量基本统计量Lxy,China Jiliang Universty数学建模专题二数学建模专题二 数据的统计分析数据的统计分析偏度和峰度的说明偏度和峰度的说明Lxy,China Jiliang Universty数学建模专题二数学建模专题二 数据的统计分析数据的统计分析Matlab相关命令介绍相关命令介绍q pdf 概率密度函数概率密度函数y=pdf(name,x,A)y=p
4、df(name,x,A,B)或或 y=pdf(name,x,A,B,C)l 返回由返回由 name 指定的单参数分布的概率密度,指定的单参数分布的概率密度,x为样本数据为样本数据n name 用来指定分布类型,其取值可以是:用来指定分布类型,其取值可以是:beta、bino、chi2、exp、ev、f、gam、gev、gp、geo、hyge、logn、nbin、ncf、nct、ncx2、norm、poiss、rayl、t、unif、unid、wbl。l 返回由返回由 name 指定的双参数或三参数分布的概率密度指定的双参数或三参数分布的概率密度Lxy,China Jiliang Univers
5、ty数学建模专题二数学建模专题二 数据的统计分析数据的统计分析Matlab相关命令介绍相关命令介绍例:例:x=-8:0.1:8;y=pdf(norm,x,0,1);y1=pdf(norm,x,1,2);plot(x,y,x,y1,:)n 注:注:y=pdf(norm,x,0,1)y=normpdf(x,0,1)相类似地,相类似地,y=pdf(beta,x,A,B)y=betapdf(x,A,B)y=pdf(bino,x,N,p)y=binopdf(x,N,p)Lxy,China Jiliang Universty数学建模专题二数学建模专题二 数据的统计分析数据的统计分析Matlab相关命令介绍
6、相关命令介绍q normfit 正态分布中的参数估计正态分布中的参数估计muhat,sigmahat,muci,sigmaci=normfit(x,alpha)l 对样本数据对样本数据 x 进行参数估计,并计算置信度为进行参数估计,并计算置信度为 1-alpha 的置信区间的置信区间l alpha 可以省略,缺省值为可以省略,缺省值为 0.05,即置信度为,即置信度为 95%q hist 绘制给定数据的直方图绘制给定数据的直方图hist(x,m)Lxy,China Jiliang Universty数学建模专题二数学建模专题二 数据的统计分析数据的统计分析Matlab相关命令介绍相关命令介绍t
7、able=tabulate(x)l 绘制频数表,返回值绘制频数表,返回值 table 中,第一列为中,第一列为x的值,第二列的值,第二列为该值出现的次数,最后一列包含每个值的百分比。为该值出现的次数,最后一列包含每个值的百分比。ttest(x,m,alpha)l 假设检验函数。此函数对样本数据假设检验函数。此函数对样本数据 x 进行显著性水平为进行显著性水平为 alpha 的的 t 假设检验,以检验正态分布样本假设检验,以检验正态分布样本 x(标准差未知)(标准差未知)的均值是否为的均值是否为 m。Lxy,China Jiliang Universty数学建模专题二数学建模专题二 数据的统计分
8、析数据的统计分析总体方差总体方差sigma2未知时,总体均值的检验使用未知时,总体均值的检验使用t-检验检验 h,sig,ci=ttest(x,m,alpha,tail)检验数据 x 的关于均值的某一假设是否成立,其中alpha 为显著性水平,究竟检验什么假设取决于 tail 的取值:tail=0,检验假设“x 的均值等于 m”tail=1,检验假设“x 的均值大于 m”tail=-1,检验假设“x 的均值小于 m”tail的缺省值为 0,alpha的缺省值为 0.05.返回值 h 为一个布尔值,h=1 表示可以拒绝假设,h=0 表示不可以拒绝假设,sig 为假设成立的概率,ci 为均值的 1
9、-alpha 置信区间.ttest说明说明Lxy,China Jiliang Universty数学建模专题二数学建模专题二 数据的统计分析数据的统计分析 例例 Matlab统计工具箱中的数据文件gas.mat.中提供了美国1993年一月份和二月份的汽油平均价格(price1,price2分别是一,二月份的油价,单位为美分),它是容量为20的双样本.假设一月份油价的标准偏差未知,试检验一月份油价的均值是否等于115.解解 作假设:m=115.首先取出数据,用以下命令:load gas然后用以下命令检验 h,sig,ci=ttest(price2,115)返回:h=1,sig=4.9517e-0
10、04,ci=116.8 120.2.检验结果:1.布尔变量h=1,表示拒绝零假设.说明提出的假设油价均值115是不合理的.2.95%的置信区间为116.8 120.2,它不包括115,故不能接受假设.3.sig-值为4.9517e-004,远小于0.5,不能接受零假设.ttest举例举例Lxy,China Jiliang Universty数学建模专题二数学建模专题二 数据的统计分析数据的统计分析Matlab相关命令介绍相关命令介绍normplot(x)l 统计绘图函数,进行正态分布检验。研究表明:统计绘图函数,进行正态分布检验。研究表明:如果数据如果数据是来自一个正态分布,则该线为一直线形态
11、;如果它是来自是来自一个正态分布,则该线为一直线形态;如果它是来自其他分布,则为曲线形态。其他分布,则为曲线形态。wblplot(x)l 统计绘图函数,进行统计绘图函数,进行 Weibull 分布检验。分布检验。Lxy,China Jiliang Universty数学建模专题二数学建模专题二 数据的统计分析数据的统计分析Matlab相关命令介绍相关命令介绍q 其它函数其它函数l cdf 系列函数:累积分布函数系列函数:累积分布函数lrnd 系列函数:随机数发生函数系列函数:随机数发生函数l stat 系列函数:均值与方差函数系列函数:均值与方差函数例:例:p=normcdf(-2:2,0,1
12、)n=normrnd(0,1,1 5)Lxy,China Jiliang Universty数学建模专题二数学建模专题二 数据的统计分析数据的统计分析常见的概率分布常见的概率分布二项式分布Binomialbino卡方分布Chisquarechi2指数分布ExponentialexpF分布Ff几何分布Geometricgeo正态分布Normalnorm泊松分布PoissonpoissT分布Tt均匀分布Uniformunif离散均匀分布Discrete UniformunidLxy,China Jiliang Universty数学建模专题二数学建模专题二 数据的统计分析数据的统计分析连续分布:正
13、态分布连续分布:正态分布q 正态分布正态分布(连续分布)(连续分布)l 如果随机变量如果随机变量 X 的密度函数为:的密度函数为:则称则称 X 服从正态分布。记做:服从正态分布。记做:l 标准正态分布:标准正态分布:N(0,1)l 正态分布也称高斯分布,是概率论中最重要的一个分布。正态分布也称高斯分布,是概率论中最重要的一个分布。l 如果如果一个变量一个变量是是大量微小、独立的随机因素大量微小、独立的随机因素的的叠加,那么叠加,那么它它一定一定满足满足正态正态分布。分布。如测量误差、产品质量、月降雨量等如测量误差、产品质量、月降雨量等Lxy,China Jiliang Universty数学建
14、模专题二数学建模专题二 数据的统计分析数据的统计分析正态分布举例正态分布举例x=-8:0.1:8;y=normpdf(x,0,1);y1=normpdf(x,1,2);plot(x,y,x,y1,:)例:例:标准正态分布和非标准正态分布密度函数图形标准正态分布和非标准正态分布密度函数图形Lxy,China Jiliang Universty数学建模专题二数学建模专题二 数据的统计分析数据的统计分析连续分布:均匀分布连续分布:均匀分布q 均匀分布均匀分布(连续分布)(连续分布)l 如果随机变量如果随机变量 X 的密度函数为:的密度函数为:则称则称 X 服从均匀分布。记做:服从均匀分布。记做:l
15、均匀分布在实际中经常使用,譬如一个半径为均匀分布在实际中经常使用,譬如一个半径为 r 的汽车轮的汽车轮胎,因为轮胎上的任一点接触地面的可能性是相同的,所以胎,因为轮胎上的任一点接触地面的可能性是相同的,所以轮胎圆周接触地面的位置轮胎圆周接触地面的位置 X 是服从是服从 0,2 r 上的均匀分布上的均匀分布。Lxy,China Jiliang Universty数学建模专题二数学建模专题二 数据的统计分析数据的统计分析连续分布:指数分布连续分布:指数分布q 指数分布指数分布(连续分布)(连续分布)l 如果随机变量如果随机变量 X 的密度函数为:的密度函数为:则称则称 X 服从参数为服从参数为 的
16、指数分布。记做:的指数分布。记做:l 在实际应用问题中,等待某特定事物发生所需要的时间往在实际应用问题中,等待某特定事物发生所需要的时间往往服从指数分布往服从指数分布。如某些元件的寿命;随机服务系统中的服如某些元件的寿命;随机服务系统中的服务时间;动物的寿命等都常务时间;动物的寿命等都常常常假定服从指数分布假定服从指数分布。l 指数分布具有无记忆性:指数分布具有无记忆性:Lxy,China Jiliang Universty数学建模专题二数学建模专题二 数据的统计分析数据的统计分析指数分布举例指数分布举例x=0:0.1:30;y=exppdf(x,4);plot(x,y)例:例:=4 时的指数
17、分布密度函数图时的指数分布密度函数图Lxy,China Jiliang Universty数学建模专题二数学建模专题二 数据的统计分析数据的统计分析离散分布:几何分布离散分布:几何分布q 几何分布几何分布是一种常见的是一种常见的离散分布离散分布l 在贝努里实验中,每次试验成功的概率为在贝努里实验中,每次试验成功的概率为 p,设试验进行,设试验进行到第到第 次才出现成功,则次才出现成功,则 的分布满足:的分布满足:其右端项其右端项是几何级数是几何级数 的一般项,于是人们称它为的一般项,于是人们称它为几何分布几何分布。x=0:30;y=geopdf(x,0.5);plot(x,y)例:例:p=0.
18、5 时的几何分布密度函数图时的几何分布密度函数图Lxy,China Jiliang Universty数学建模专题二数学建模专题二 数据的统计分析数据的统计分析离散分布:二项式分布离散分布:二项式分布q 二项式分布二项式分布属于离散分布属于离散分布l 如果随机变量如果随机变量 X 的分布列为:的分布列为:则称这种分布为二项式分布。记做:则称这种分布为二项式分布。记做:x=0:50;y=binopdf(x,500,0.05);plot(x,y)例:例:n=500,p=0.05 时的二项式分布密度函数图时的二项式分布密度函数图Lxy,China Jiliang Universty数学建模专题二数学
19、建模专题二 数据的统计分析数据的统计分析离散分布:离散分布:Poisson 分布分布q 泊松分布泊松分布也属于离散分布,是也属于离散分布,是1837年由发个数年由发个数学家学家 Poisson 首次提出,其概率分布列为:首次提出,其概率分布列为:记做:记做:l 泊松分布是一种常用的离散分布,它与单位时间(或单位泊松分布是一种常用的离散分布,它与单位时间(或单位面积、单位产品等)上的计数过程相联系面积、单位产品等)上的计数过程相联系。如:单位时间内,如:单位时间内,电话总机接到用户呼唤次数;电话总机接到用户呼唤次数;1 平方米内,玻璃上的气泡数平方米内,玻璃上的气泡数等等。Lxy,China J
20、iliang Universty数学建模专题二数学建模专题二 数据的统计分析数据的统计分析Poisson 分布举例分布举例x=0:50;y=poisspdf(x,25);plot(x,y)例:例:=25 时的泊松分布密度函数图时的泊松分布密度函数图Lxy,China Jiliang Universty数学建模专题二数学建模专题二 数据的统计分析数据的统计分析离散分布:均匀分布离散分布:均匀分布q 如果随机变量如果随机变量 X 的分布列为:的分布列为:则称这种分布为则称这种分布为离散均匀分布离散均匀分布。记做:。记做:n=20;x=1:n;y=unidpdf(x,n);plot(x,y,o-)例
21、:例:n=20 时的离散均匀分布密度函数图时的离散均匀分布密度函数图Lxy,China Jiliang Universty数学建模专题二数学建模专题二 数据的统计分析数据的统计分析抽样分布:抽样分布:2分布分布q 设随机变量设随机变量 X1,X2,Xn 相互独立,且同服从正态相互独立,且同服从正态分布分布 N(0,1),则称随机变量,则称随机变量 n2=X12+X22+Xn2服从服从自由度为自由度为 n 的的 2 分布,记作分布,记作 ,亦称随,亦称随机变量机变量 n2 为为 2 变量。变量。x=0:0.1:20;y=chi2pdf(x,4);plot(x,y)例:例:n=4 和和 n=10
22、时的时的 2 分布密度函数图分布密度函数图x=0:0.1:20;y=chi2pdf(x,10);plot(x,y)Lxy,China Jiliang Universty数学建模专题二数学建模专题二 数据的统计分析数据的统计分析抽样分布:抽样分布:F 分布分布q 设随机变量设随机变量 ,且,且 X 与与 Y 相相互独立,则称随机变量互独立,则称随机变量x=0.01:0.1:8.01;y=fpdf(x,4,10);plot(x,y)例:例:F(4,10)的分布密度函数图的分布密度函数图为服从自由度为服从自由度(m,n)的的 F 分布。记做:分布。记做:Lxy,China Jiliang Unive
23、rsty数学建模专题二数学建模专题二 数据的统计分析数据的统计分析抽样分布:抽样分布:t 分布分布q 设随机变量设随机变量 ,且,且 X 与与 Y 相相互独立,则称随机变量互独立,则称随机变量x=-6:0.01:6;y=tpdf(x,4);plot(x,y)例:例:t(4)的分布密度函数图的分布密度函数图为服从自由度为服从自由度 n 的的 t 分布。记做:分布。记做:Lxy,China Jiliang Universty数学建模专题二数学建模专题二 数据的统计分析数据的统计分析频数直方图或频数表频数直方图或频数表q 对于给定的数据集,假设它们满足以上十种分布之对于给定的数据集,假设它们满足以上
24、十种分布之一,如何确定属于哪种分布?一,如何确定属于哪种分布?x=load(data1.txt);x=x(:);hist(x)例例 1:某次某次笔试的分数见笔试的分数见 data1.txt,试画出频数直方图,试画出频数直方图绘制绘制频数频数直方图,或列出频数表直方图,或列出频数表n 从图形上看,笔试成绩较为接近正态分布从图形上看,笔试成绩较为接近正态分布Lxy,China Jiliang Universty数学建模专题二数学建模专题二 数据的统计分析数据的统计分析频数直方图或频数表频数直方图或频数表x=load(data2.txt);x=x(:);hist(x)例例 2:某次某次上机考试的分数
25、见上机考试的分数见 data2.txt,试画出频数直方图,试画出频数直方图n 从图形上看,上机考试成绩较为接近离散均匀分布从图形上看,上机考试成绩较为接近离散均匀分布x=load(data3.txt);x=x(:);hist(x)例例 3:上海上海1998年来的月降雨量的数据年来的月降雨量的数据见见 data3.txt,试画出频数直方图试画出频数直方图n 从图形上看,月降雨量较为接近从图形上看,月降雨量较为接近 2 分布分布Lxy,China Jiliang Universty数学建模专题二数学建模专题二 数据的统计分析数据的统计分析频数直方图或频数表频数直方图或频数表q 在重复数据较多的情况
26、下,我们也可以利用在重复数据较多的情况下,我们也可以利用Matlab自带的自带的 tabulate 函数生成频数表,并以频数表的形函数生成频数表,并以频数表的形式来发掘数据分布的规律。式来发掘数据分布的规律。x=load(data4.txt);x=x(:);tabulate(x)hist(x)例例 4:给出数据给出数据 data4.txt,试画出其直方图,并生成频数表,试画出其直方图,并生成频数表Lxy,China Jiliang Universty数学建模专题二数学建模专题二 数据的统计分析数据的统计分析频数直方图或频数表频数直方图或频数表x=load(data5.txt);x=x(:);h
27、ist(x)fiugrehistfit(x)%加入较接近的正态分布密度曲线加入较接近的正态分布密度曲线例例 5:现累积有现累积有100次刀具故障记录,当故障出现时该批刀具完次刀具故障记录,当故障出现时该批刀具完成的零件数成的零件数见见 data5.txt,试画出其直方图。,试画出其直方图。n 从图形上看,较为接近正态分布从图形上看,较为接近正态分布Lxy,China Jiliang Universty数学建模专题二数学建模专题二 数据的统计分析数据的统计分析参数估计参数估计q 当我们可以基本确定数据集当我们可以基本确定数据集 X 符合某种分布后,我符合某种分布后,我们还需要确定这个分布的参数。
28、们还需要确定这个分布的参数。q 由于正态分布情况发生的比较多,故我们主要考由于正态分布情况发生的比较多,故我们主要考虑正态分布的情形。虑正态分布的情形。q 对于未知参数的估计,可分两种情况:对于未知参数的估计,可分两种情况:l 点估计点估计l 区间估计区间估计Lxy,China Jiliang Universty数学建模专题二数学建模专题二 数据的统计分析数据的统计分析参数估计:点估计参数估计:点估计q 构造样本构造样本 X 与某个统计量有关的一个函数,作为与某个统计量有关的一个函数,作为该统计量的一个估计,称为该统计量的一个估计,称为点估计点估计。q Matlab 统计工具箱中,一般采用最大
29、似然估计法统计工具箱中,一般采用最大似然估计法给出参数的点估计。给出参数的点估计。n 泊松分布泊松分布 P()的的 最大似然估计是最大似然估计是n 指数分布指数分布 Exp()的的 最大似然估计是最大似然估计是Lxy,China Jiliang Universty数学建模专题二数学建模专题二 数据的统计分析数据的统计分析点估计举例点估计举例n 正态分布正态分布 N(,2)中,中,最大似然估计是最大似然估计是 ,2 的最大似然估计是的最大似然估计是x=load(data1.txt);x=x(:);mu,sigma=normfit(x)例例 6:已知例已知例 1 中的数据服从正态分布中的数据服从正
30、态分布 N(,2),试求其,试求其参数参数 和和 的值。的值。使用使用 normfit 函数函数Lxy,China Jiliang Universty数学建模专题二数学建模专题二 数据的统计分析数据的统计分析参数估计:区间估计参数估计:区间估计q 构造样本构造样本 X 与某个统计量有关的两个函数,作为与某个统计量有关的两个函数,作为该统计量的下限估计与上限估计,下限与上限构成该统计量的下限估计与上限估计,下限与上限构成一个区间,这个区间作为该统计量的估计,称为一个区间,这个区间作为该统计量的估计,称为区区间估计间估计。Lxy,China Jiliang Universty数学建模专题二数学建模
31、专题二 数据的统计分析数据的统计分析区间估计举例区间估计举例x=load(data6.txt);x=x(:);mu,sigma,muci,sigmaci=normfit(x,0.01)例例 8:从自动机床加工的同类零件中抽取从自动机床加工的同类零件中抽取16件,测得长度值见件,测得长度值见 data6.txt,已知零件长度服从正态分布,已知零件长度服从正态分布 N(,2),试求零件,试求零件长度均值长度均值 和标准差和标准差 的置信度为的置信度为 99%的置信区间。的置信区间。Lxy,China Jiliang Universty数学建模专题二数学建模专题二 数据的统计分析数据的统计分析假设检
32、验假设检验q 对总体的分布律或分布参数作某种假设,根据抽取对总体的分布律或分布参数作某种假设,根据抽取的样本观察值,运用数理统计的分析方法,检验这种的样本观察值,运用数理统计的分析方法,检验这种假设是否正确,从而决定接受假设或拒绝假设,这就假设是否正确,从而决定接受假设或拒绝假设,这就是是假设检验假设检验问题。问题。q 以正态假设检验为例,来说明假设检验的基本过程以正态假设检验为例,来说明假设检验的基本过程。Lxy,China Jiliang Universty数学建模专题二数学建模专题二 数据的统计分析数据的统计分析正态假设检验正态假设检验q 正态假设检验的一般过程:正态假设检验的一般过程:
33、l 假设检验:利用假设检验:利用 Matlab 统计工具箱给出的常用的假设检验统计工具箱给出的常用的假设检验方法的函数方法的函数 ttest,进行显著性水平为,进行显著性水平为 alpha 的的 t 假设检验,假设检验,以检验正态分布样本以检验正态分布样本 x(标准差未知)的均值是否为(标准差未知)的均值是否为 m。运行。运行结果中,当结果中,当 h=1 时,表示拒绝零假设;当时,表示拒绝零假设;当 h=0 时,表示不能时,表示不能拒绝零假设。拒绝零假设。l 对比正态分布的概率密度函数分布图,判断某统计量的对比正态分布的概率密度函数分布图,判断某统计量的分布可能服从正态分布分布可能服从正态分布
34、l 利用统计绘图函数利用统计绘图函数 normplot 进行正态分布检验进行正态分布检验Lxy,China Jiliang Universty数学建模专题二数学建模专题二 数据的统计分析数据的统计分析正态假设检验举例正态假设检验举例x=load(data5.txt);x=x(:);normplot(x)例例 9:试说明例试说明例 5 中的刀具使用寿命服从正态分布,并且说明中的刀具使用寿命服从正态分布,并且说明在方差未知的情况下其均值在方差未知的情况下其均值 m 取为取为 597 是否合理。是否合理。(1)对比刀具使用寿命分布图与正态分布的概率密度分对比刀具使用寿命分布图与正态分布的概率密度分布
35、函数图,得初步结论:该批刀具的使用寿命可能服从正态布函数图,得初步结论:该批刀具的使用寿命可能服从正态分布。分布。解:解:(2)利用统计绘图函数利用统计绘图函数 normplot 进行分布的正态性检验进行分布的正态性检验结果显示:这结果显示:这 100 个离散点非常靠近倾斜直线段,即图形为线性个离散点非常靠近倾斜直线段,即图形为线性的,因此可得结论:该批刀具的使用寿命近似服从正态分布。的,因此可得结论:该批刀具的使用寿命近似服从正态分布。Lxy,China Jiliang Universty数学建模专题二数学建模专题二 数据的统计分析数据的统计分析正态假设检验举例正态假设检验举例x=load(data5.txt);x=x(:);h=ttest(x,597,0.05)(3)利用函数利用函数 ttest 进行显著性水平为进行显著性水平为 alpha 的的 t 假设检验假设检验检验结果:检验结果:h=0。表示不拒绝零假设,说明所提出的假设。表示不拒绝零假设,说明所提出的假设“寿命均值为寿命均值为 597”是合理的是合理的Lxy,China Jiliang Universty
限制150内