matlab数学建模数据分析.ppt
《matlab数学建模数据分析.ppt》由会员分享,可在线阅读,更多相关《matlab数学建模数据分析.ppt(146页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、L/O/G/O第四单元第四单元第四单元第四单元 数据分析数据分析数据分析数据分析Matlab统计工具箱一一:统计工具箱简介统计工具箱简介二二:概率分布概率分布三三:参数估计参数估计四四:描述性统计描述性统计五五:假设检验假设检验六六:统计绘图统计绘图一.matlab统计工具箱(statistics toolbox)简介 统计学是处理数据的艺术和科学,通过收集,分析,解释和表达数据来探索事物中蕴含的规律.随着科技水平的迅猛发展,知识经济的时代来临,海量的数据需要人们处理.matlab统计工具箱为人们提供了一个强有力的统计分析工具.统计工具箱基于matlab数值计算环境,支持范围广泛的统计计算任务
2、.它包括200多个处理函数(m文件)主要应用于以下几方面:1.1 统计工具箱的几大功能*概率分布概率分布 *参数估计参数估计 *描述性统计描述性统计 *假设检验假设检验 *统计绘图统计绘图统计工具箱提供了20种概率分布类型,其中包括离散型离散型分布:(如binomial二项分布,即n次贝努里试验中出现k次成功的概率.poisson分布,和分布等).1.1.1概率分布-离散型1.1.2 概率分布连续型连续型分布如正态分布F(x)=beta分布,uniform平均分布等.每种分布提供5类函数:1概率密度2(累积)分布函数3逆累积分布函数4随机数产生器5均值和方差函数.1.1.3另外4大功能*参数估
3、计参数估计-依据原始数据计算参数估计值置信区域依据原始数据计算参数估计值置信区域.*描述性统计描述性统计-方差方差,期望等数字特征期望等数字特征.*假设检验假设检验-提供最通用的假设检验函数提供最通用的假设检验函数t-检验检验,z-检验检验.*统计绘图统计绘图-box图函数图函数,正态概率图函数等正态概率图函数等.注意:统计工具箱中的说有函数都可用typefunction_name语句查看其代码,也可进行修改,从而变为己用,加入到工具箱中.二 概率分布随机变量的统计行为取决于其概率分布,而分布函数常用连续和离散型分布。统计工具箱提供20种分布。每种分布有五类函数。1:概率密度(pdf);2:累
4、积分布函数(cdf);3:逆累积分布函数(icdf);4:随机数产生器5:均值和方差函数;一:离散型概率密度函数:为观察到的特定值的概率。连续型概率密度函数定义为:如存在非负函数p(x)0,使对任意ba,X在(a,b)上取值概率为paXb=;则称p(x)为随机变量X的概率密度函数。二:累积分布(cdf):它取决于pdf.表达式为F(x)=.逆累积分布(icdf):实际上是cdf的逆,它返回给定显著概率条件下假设检验的临界值。2.1三:随机数产生器所有随机数产生方法都派生于均匀分布随机数。产生方法有:直接法、反演法、拒绝法。四:均值和方差均值和方差是分布函数的简单函数。在Matlab里用“sta
5、t”结尾的函数可计算得到给定参数的分布的均值和方差。以下以正态分布为例说明在Matlab里的实现。一:概率密度函数X=-3:0.5:3;f=normpdf(x,0,1);(其中normpdf为正态分布的Matlab分布实现函数,可由以下介绍的函数代替。)功能:可选分布的概率密度函数。格式:Y=pdf(name,X,A1,A2,A3)说明:name为特定分布的名称,如Normal,Gamma等。X为分布函数的自变量X的取值矩阵,而A1,A2,A3分别为相应的分布参数值。Y给出结果,为概率密度值矩阵。举例:p=pdf(Normal,-2:2,0,1)给出标准正态分布在-2到2的分布函数值。而p=p
6、df(Poisson,0:4,1:5)给出Poisson分布函数。2.2累积分布函数与逆累积分布函数同样地,累积分布和逆累积分布对每个分布都有特定地Matlab实现函数,这里只介绍通用的cdf,icdf.-cdf,icdf功能:计算可选分布的累积分布函数和逆累积分布函数。格式:P=cdf(name,X,A1,A2,A3)X=icdf(name,X,A1,A2,A3)说明:cdf和icdf中的参数使用和pdf中的相同。只是计算结果不同。举例:p=cdf(Normal,0:5,1:6)X=icdf(Normal,0.1:0.2:0.9,0,1)2.3随机数产生器在Matlab里和pdf,cdf与i
7、cdf一样,随机数的产生也有通用函数random.-random功能:产生可选分布的随机数。格式:y=random(name,A1,A2,A3,m,n)说明:random函数产生统计工具箱中任一分布的随机数。name为相应分布的名称。A1,A2,A3为分布参数,意义同pdf参数。m,n确定了结果y的数量,如果分布参数A1,A2,A3为矢量,则m,n是可选的,但应注意,它们给出的长度或矩阵行列数必须与分布参数的长度相匹配。举例:rn=random(Normal,0,1,2,4)2.4均值和方差和以上其他函数不同的是均值和方差的运算没有通用的函数,只能用各个分布的函数计算。对应于正态分布的计算函数
8、为normstat();它返回两个参数的向量,分别为均值和方差。举例:m,n=normstat(mu,sigma)2.5三.参数估计参数估计参数估计:某分布的数学形式已知某分布的数学形式已知,应用子样信息来估计其有限个参数的值应用子样信息来估计其有限个参数的值本节主要介绍3.1最大似然估计最大似然估计(Maximum likelihood estimation)3.2对数似然函数对数似然函数3.1最大似然估计基本思想基本思想:已知一组观测值,给定这组值出自的某类分布中,求得最有可能出现这组值的一个分布.调用方法调用方法:phat,pci=mlsdist,data,alpha phat为参数估计
9、结果,pci为置信区间计算结果dist为用户给定的分布名称,data为数据列表,(1-alpha)置信区域.3.1.1 最大似然估计(mls)举例例:rv=binornd(20,0.75)rv=17p,pci=mle(binomial,rv,0.05,20)p=0.8000pci=0.56340.94273.2 对数似然函数统计工具箱提供了分布,分布,正态分布和威布尔分布的负对数似然函数值的求取函数.正态分布的负对数似然函数正态分布的负对数似然函数调用方法调用方法 L=normlike(params,data)Params为正态分布参数:params(1)为,params(2)为3.2.1其他
10、负对数似然函数分布的负对数似然函数分布的负对数似然函数logL=betalike(params,data)分布的负对数似然函数分布的负对数似然函数 logL=gamlike(params,data)威布尔分布的负对数似然函数威布尔分布的负对数似然函数 logL=weiblike(params,data)参数设置与正态分布的负对数似然函数类似,不加冗述.四四 描述性统计描述性统计概述:人们希望用少数样本来体现样本总体的规律。描述性统计就是收集、整理、加工和分析统计数据,使之系统化、条理化,以显示出数据资料的趋势、特征和数量关系。根据统计量特征性质的不同,工具箱提供了位置度量、散布度量、自助法以及
11、在缺失数据情况下处理方法等方面的描述性统计工具函数。4.1中心趋势(位置)度量中心趋势(位置)度量数据样本中心度量的目的在于对数据样本的数据分布线上分布的中心予以定位,即中心位置的度量。均值是对位置的简单和通常的估计量。但野值的存在往往影响位置的确定。而中位数和修正的均值则受野值的干扰很小。中位数是样本的50%分位点。而修正的均值所蕴涵的思想则是剔除样本中最高值和最低值来确定样本的中心位置。几何均值和调和均值对野值都较敏感。当样本服从对数正态分布或偏斜程度很大时,它们也都是有效的方法。以下介绍位置度量有关函数。4.2.1:几何平均数(几何平均数(geomean)功能:样本的几何均值。格式:m=
12、geomean(X)说明:几何均值的定义为 m=(1.4.1)geomean 函数计算样本的几何均值。X若为矢量,它返回X中元素的几何均值;X若为矩阵,它的结果为一个行矢量,每个元素为X对应列元素的几何均值。举例:x=exprnd(1,10,6);geometric=geomean(X);average=mean(X);4.2.2:(调和均值)(调和均值)harmmean功能:样本数据的调和均值。格式:m=harmmean(X)说明:调和均值定义为举例:样本均值大于或等于调和均值。X=exprnd(1,10,6);harmonic=harmmean(X)average=mean(X)(平均值)
13、(平均值)mean功能:样本数据的平均值。说明:平均值定义为举例:x=normrnd(0,1,100,5);xbar=mean(X)4.2.4:median功能:样本数据的中值。说明:中值即数据样本的50%中位数。中位数对野值出现的影响较小。举例:xodd=1:5;modd=median(xodd)meven=median(xeven)4.2.5:trimmean功能:剔除极端数据的样本均值。格式:m=trimmean(X,percent)说明:函数计算剔除观测量中最高百分比和最低百分比数据后的均值。函数中percent代表百分比。举例:X=normrnd(0,1,100,100);m=mea
14、n(X)trim=trimmean(X,10)sm=std(m)strim=std(trim)efficiency=(sm/strim).24.3散布度量散布度量散布度量可以理解为样本中的数据偏离其数值中心的程度,也称离差。极差,定义为样本最大观测值与最小观测值之差。标准差和方差为常用的散布度量,对正态分布的样本描述是最优的。但抗野值干扰能力较小。平均绝对值偏差对野值也敏感。四分位数间距为随机变量的上四分位数 和下四分位之差。在Matlab里,有关散布度量计算的函数为:1:计算样本的内四分位数间距的iqr(X).2:求样本数据的平均绝对偏差的mad(X).3:计算样本极差的range(X).4
15、:计算样本方差的var(X,w).5:求样本的标准差的std(X).6:求协方差矩阵的cov(X).这些函数的详细说明可以参见Matlab的帮助文档。4.4 Matlab里有关散布度量计算的函数里有关散布度量计算的函数4.5处理缺失数据的函数处理缺失数据的函数在对大量的数据样本进行处理分析时,常会遇到一些数据无法找到或不能确定的情况。这时可用NaN标注这个数据。而工具箱中有一些函数自动处理它们。如:忽视NaN,求其他数据的最大值的nanmax.格式:m=nanmax(X)举例:m=magic(3);m(1 6 8)=NaN NaN NaN nmax,maxidx=nanmax(m)4.6中心矩
16、中心矩中心矩是关于数学期望的矩。对于任意的r 0,称 为随机变量X的r阶中心矩。一阶中心矩为0,二阶中心矩为方差:函数moment计算任意阶中心矩。格式:m=moment(X,order)说明:order确定阶。4.7相关系数相关系数是两个随机变量间线性相依程度的度量。可用函数corrcoef计算它。格式:R=corrcoef(X)说明:输入矩阵X的行元素为观测值,列元素为变量,R=corrcoef(X)返回相关系数矩阵R.五.假设检验假设检验假设检验 是统计的基本问题.旨在应用得到的少量信息,判断整体是否满足给定条件或达到给定的标准.回顾一下我们以前在统计学中所学的假设检验.其步骤为:5.1
17、 假设检验步骤1.设:零假设.(成立则h=0,否则h=1).2.取得一组观测值(子样).3.给定显著型水平(一般取0.05).4.应用子样的某些统计量特征.5.在成立前提下,若出现已知观测值的概率小于5%,则拒绝,否则认为观测值与假设无显著差别.5.2 ranksum函数调用方法调用方法:p,h=ranksum(x,y,alpha)p返回x,y的母体一致的显著性水平,h为假设检验的返回值.x,y为两组观测值,alpha为显著性水平.请参考下面例子5.2.1 Ranksum函数举例例:检验两组服从poisson分布的随机数样本的均值是否相同.x=poissrnd(5,10,1);y=poissr
18、nd(2,10,1);p,h=ranksum(x,y,0.05)p=0.0028h=15.3 signrank函数调用方法调用方法:p,h=signrank(x,y,alpha)参数与ranksum函数类似.例:检验两个正态分布的样本子样均值是否相等.x=normrnd(0,1,20,1);y=normrnd(0,2,20,1);p,h=signrank(x,y,0.05)p=0.2568h=05.4 ttest-t检验调用方法调用方法:h,sig,ci=ttest(x,m,alpha)h为假设检验的返回值.sig与T统计量有关,T=.ci为均值的(1-alpha)置信区域.m为假设的样本均值
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- matlab 数学 建模 数据 分析
限制150内