MATLAB数据分析方法-(1).ppt
《MATLAB数据分析方法-(1).ppt》由会员分享,可在线阅读,更多相关《MATLAB数据分析方法-(1).ppt(74页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第2 2章章 数据描述性分析数据描述性分析普通高等院校计算机课程规划普通高等院校计算机课程规划教材教材MATLAB数据分析方法数据分析方法 李柏年 吴礼斌 主编 张孔生 丁 华 参编 2/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第2 2章章 数据描述性分析数据描述性分析第第2章章 数据描述性分析数据描述性分析 数据描述性分析是从样本数
2、据出发,概括分析数据数据描述性分析是从样本数据出发,概括分析数据的集中位置、分散程度、相互关联关系等,分析数据分的集中位置、分散程度、相互关联关系等,分析数据分布的正态或偏态特征布的正态或偏态特征.描述性分析是进行数据进一步分描述性分析是进行数据进一步分析的基础析的基础.对不同类型量纲的数据有时还要进行变换,对不同类型量纲的数据有时还要进行变换,然后再作出合理分析然后再作出合理分析.本章主要介绍样本数据的基本统本章主要介绍样本数据的基本统计量、数据的可视化、数据分布检验及数据变换等内容计量、数据的可视化、数据分布检验及数据变换等内容.2.1基本统计量与数据可视化基本统计量与数据可视化 2.1.
3、1样本数据的基本统计量样本数据的基本统计量 描述数据基本特征主要为集中位置和分散程度。描述数据基本特征主要为集中位置和分散程度。设从所研究的对象设从所研究的对象(即总体即总体)X中观测得到中观测得到n个观测值个观测值3/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第2 2章章 数据描述性分析数据描述性分析1.均值、中位数、分位数与三均值均值、中位数、分位数与三均值 数据数据(x1,x2,xn)的平均值称为该数据的均值,记的平均值称为该数据的均值,记为为x1,x2,xn这这n个值称为样本数据
4、个值称为样本数据,简称数据,简称数据,n称为样本容量称为样本容量.我们的任务就是要对样本数据我们的任务就是要对样本数据(2.1.1)进行分析,进行分析,提取数据中所包含的有用的信息,从而进一步对总提取数据中所包含的有用的信息,从而进一步对总体的特性作出推断体的特性作出推断.(2.1.1)(2.1.2)样本均值描述了数据取值的平均位置样本均值描述了数据取值的平均位置.样本均值计算样本均值计算简易简易,但易受异常值的影响而不稳健但易受异常值的影响而不稳健.4/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业
5、出版社)第第2 2章章 数据描述性分析数据描述性分析又将数据(又将数据(2.1.1)按从小到大的次序排列,排序)按从小到大的次序排列,排序为为k的数记为的数记为x(k)(1 k n),即,即x(1)x(2)x(n),称,称 (2.1.3)为数据(为数据(2.1.1)的次序统计量)的次序统计量.由次序统计量定义数由次序统计量定义数M,称称M为数据(为数据(2.1.1)的中位数。)的中位数。(2.1.4)中位数是描述数据的中心位置的数字特征,若数据的中位数是描述数据的中心位置的数字特征,若数据的分布对称,则均值与中位数比较接近。若数据的分布分布对称,则均值与中位数比较接近。若数据的分布为偏态,则均
6、值与中位数差异会较大。中位数的一个为偏态,则均值与中位数差异会较大。中位数的一个显著特点是受异常值的影响较小,具有较好的稳健性显著特点是受异常值的影响较小,具有较好的稳健性.5/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第2 2章章 数据描述性分析数据描述性分析设设0 p1,样本数据(,样本数据(2.1.1)的)的p分位数定义分位数定义为为(2.1.5)其中其中np表示表示np的整数部分的整数部分.显然,当显然,当p=0.5时,时,M0.5=M,即数据的,即数据的0.5分位数分位数等于其
7、中位数等于其中位数.一般来说,从整批数据(总体)中抽取样本数一般来说,从整批数据(总体)中抽取样本数据,则整批数据中约有据,则整批数据中约有100p%个不超过样本数据的个不超过样本数据的p分位数分位数.在实际应用中,在实际应用中,0.75分位数与分位数与0.25分位数分位数比较重要,它们分别称为上、下四分位数,记为比较重要,它们分别称为上、下四分位数,记为Q3,Q1.6/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第2 2章章 数据描述性分析数据描述性分析 虽然均值与中位数都是描述数据集中
8、位置的虽然均值与中位数都是描述数据集中位置的数字特征,但是均值用了数据的全部信息,中位数数字特征,但是均值用了数据的全部信息,中位数只用了部分信息,因此通常情况下均值比中位数有只用了部分信息,因此通常情况下均值比中位数有效效.当数据有异常值时,中位数比较稳健。为了兼当数据有异常值时,中位数比较稳健。为了兼顾两者的优势,因此人们提出三均值的概念,定义顾两者的优势,因此人们提出三均值的概念,定义三均值如下:三均值如下:(2.1.6)由定义可知:三均值是上四分位数、中位数与下由定义可知:三均值是上四分位数、中位数与下四分位数的加权平均,即分位数向量四分位数的加权平均,即分位数向量(M0.25,M,M
9、0.75)与权向量为与权向量为w=(0.25,0.5,0.25)的内积。的内积。7/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第2 2章章 数据描述性分析数据描述性分析MATLAB提供了求均值、中位数、分位数的命令提供了求均值、中位数、分位数的命令.(1)均值命令)均值命令mean,其调用格式,其调用格式 m=mean(X);其中,输入其中,输入X为样本数据为样本数据(2.1.1),输出输出m为样本均值。为样本均值。(2)中位数命令)中位数命令median,其调用格式,其调用格式 MD=
10、median(X);其中输入参数其中输入参数X是样本数据是样本数据(2.1.1),输出,输出MD为中位数为中位数.(3)P分位数命令分位数命令prctile,其调用格式,其调用格式 SM=prctile(X,P);其中输入参数其中输入参数X是样本数据是样本数据(2.1.1),P为介于为介于0至至100间的整数,间的整数,P=100*p,输出,输出SM为为P%分位数。分位数。8/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第2 2章章 数据描述性分析数据描述性分析注意:当样本数据注意:当样本
11、数据X是矩阵时,上述三个命令的输出是矩阵时,上述三个命令的输出将给出将给出X的每列数据的相对应的数值,参见例的每列数据的相对应的数值,参见例2.1.1.(4)根据分位数命令及公式()根据分位数命令及公式(2.1.6),可编写求三),可编写求三均值的均值的MATLAB程序如下。程序如下。w=0.25,0.5,0.25;%输入权向量输入权向量wSM=w*prctile(X,w);%由由(2.1.5)式计算式计算X三均值三均值例例2.1.1.根据安徽省统计年鉴数据(表根据安徽省统计年鉴数据(表2.1)计算)计算各指标均值、中位数以及三均值各指标均值、中位数以及三均值.解:将表解:将表2-1中的数据粘
12、贴到中的数据粘贴到MATLAB软件软件A=53.93,3252.88;%粘贴原始数据粘贴原始数据M=mean(A);%计算各指标均值计算各指标均值MD=median(A);%计算各指标中位数计算各指标中位数SM=0.25,0.5,0.25*prctile(A,25,50,75);%计算三均值计算三均值M;MD;SM%输出计算结果输出计算结果(表表1.2)表表2.1.doc9/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第2 2章章 数据描述性分析数据描述性分析表表2.2安徽省森林资源均值、
13、中位数与三均值安徽省森林资源均值、中位数与三均值(2008年)年)统计统计量量 林地面林地面积积森林面森林面积积森林覆盖率森林覆盖率活立木蓄活立木蓄积积量量森林蓄森林蓄积积量量均均值值270.9240.626.980.6954.3中位数中位数148.5145.517.1842.1591.2三均三均值值225.8205.020.51051.6834.42.方差与变异系数方差与变异系数方差是描述数据取值分散性的一种度量,它是数据相方差是描述数据取值分散性的一种度量,它是数据相对于均值的偏差平方的平均对于均值的偏差平方的平均.样本数据(样本数据(2.1.1)的方)的方差记为差记为(2.1.7)其算术
14、平方根称为标准差或根方差,即其算术平方根称为标准差或根方差,即(2.1.8)10/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第2 2章章 数据描述性分析数据描述性分析刻画数据刻画数据x1,x2,xn相对分散性的指标可以用变异相对分散性的指标可以用变异系数,其计算公式为系数,其计算公式为(2.1.9)变异系数是一个无量纲的量,一般用百分数表示变异系数是一个无量纲的量,一般用百分数表示.在在MATLAB中,计算方差命令中,计算方差命令var,调用格式,调用格式 S=var(x);计算标准差命
15、令计算标准差命令std,调用格式,调用格式 d=std(x)其中输入其中输入x是样本数据,输出是样本数据,输出S为方差为方差,d为标准差为标准差.当当输入输入x是矩阵时,输出是矩阵时,输出x每列数据的方差与标准差每列数据的方差与标准差.由均值与方差命令,可设计变异系数的计算程序为由均值与方差命令,可设计变异系数的计算程序为v=std(x)./mean(x),或者,或者v=std(x)./abs(mean(x)当输入当输入x是矩阵时,输出是矩阵时,输出x每列数据的变异系数每列数据的变异系数.11/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法
16、(机械工业出版社)数据分析方法(机械工业出版社)第第2 2章章 数据描述性分析数据描述性分析例例2.1.2.计算例计算例2.1.1中各指标的方差、标准差中各指标的方差、标准差与变异系数与变异系数解:将表解:将表2-1中的数据粘贴到中的数据粘贴到MATLAB软件软件A=53.93,3252.88;%粘贴原始数据粘贴原始数据M=mean(A);%计算各指标均值计算各指标均值D=var(A);%计算各指标方差计算各指标方差SD=std(A);%计算各指标标准差计算各指标标准差V=SD./abs(M)%计算各指标变异系数计算各指标变异系数D;SD;V%输出计算结果输出计算结果表表2.3安徽省森林资源方
17、差、标准差与变异系数安徽省森林资源方差、标准差与变异系数(2008年)年)统计统计量量 林地面林地面积积森林面森林面积积森林覆盖率森林覆盖率活立木活立木总总蓄蓄积积量量森林蓄森林蓄积积量量方差方差75464.4859198.14394.491065554.981040590.73标标准差准差274.71243.3119.861032.261020.09变变异系数异系数1.011.010.740.961.0712/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第2 2章章 数据描述性分析数据描
18、述性分析 3.样本的极差与四分位极差样本的极差与四分位极差极差的计算公式为:极差的计算公式为:它是表示数据的分散性的数字特征它是表示数据的分散性的数字特征.MATLAB中公式为:中公式为:max(data)-min(data),或,或 range(data)上、下四分位数上、下四分位数Q3,Q1之差称为四分位极差,即之差称为四分位极差,即 R1=Q3-Q1MATLAB中计算数据中计算数据data的公式为:的公式为:iqr(data)4.异常点判别异常点判别先求上、下截断点:先求上、下截断点:R上上=Q3+1.5R1 ,R下下=Q1-1.5R1小于小于R下下或大于或大于R上上的数据均为异常值的数
19、据均为异常值.13/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第2 2章章 数据描述性分析数据描述性分析例例2.1.3 根据根据2007年华东地区各高校教职工数据,年华东地区各高校教职工数据,计算专任教师、计算专任教师、行政人员、教辅人员以及工勤人行政人员、教辅人员以及工勤人员占在职教工的百分比,以及百分比的极差、四分员占在职教工的百分比,以及百分比的极差、四分位极差以及上、下截断点位极差以及上、下截断点.表表2.4 2007年华东地区各高校教职工数据年华东地区各高校教职工数据地地 区区
20、在在职职教工教工专专任教任教师师行政人行政人员员教教辅辅人人员员工勤人工勤人员员上上 海海61385354801028278427781江江 苏苏13421588568201721337112104浙浙 江江67763456221096067984383安安 徽徽5914940743727857635365福福 建建4786431385771250343733江江 西西6339245153817954954565山山 东东1209968188916342116141115114/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社
21、)数据分析方法(机械工业出版社)第第2 2章章 数据描述性分析数据描述性分析解:解:A=61385 354801028278427781134215 8856820172133711210467763456221096067984383591494074372785763536547864313857712503437336339245153817954954565120996 81889163421161411151;B=A(:,2:5)./A(:,1)*ones(1,4);%计算百分比计算百分比R=range(B);%计算极差计算极差 R1=iqr(B);%计算四分位极差计算四分位极差 X
22、J=prctile(B,25)-1.5*R1;%计算下截断点计算下截断点SJ=prctile(B,75)+1.5*R1;%计算上截断点计算上截断点5.偏度与峰度偏度与峰度 偏度是用于衡量分布的不对称程度或偏斜程度的偏度是用于衡量分布的不对称程度或偏斜程度的指标指标.随机变量的偏度是变量的三阶中心矩除以标准随机变量的偏度是变量的三阶中心矩除以标准差的三次方,计算样本的偏度公式为:差的三次方,计算样本的偏度公式为:15/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第2 2章章 数据描述性分析数
23、据描述性分析其中其中u3,s 分别表示数据的分别表示数据的3阶中心矩与标准差阶中心矩与标准差.Matlab计算数据偏度的命令为计算数据偏度的命令为:skewness(data,0)正态分布正态分布的偏度为零,若的偏度为零,若pd0称分布具有正偏离,也称右偏态,情况相称分布具有正偏离,也称右偏态,情况相反;而偏度接近反;而偏度接近0则可认为分布是对称的则可认为分布是对称的.若知道若知道分布分布有可能在偏度上有可能在偏度上偏离偏离正态分布时,可用偏离来检验分正态分布时,可用偏离来检验分布的正态性布的正态性.16/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社
24、)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第2 2章章 数据描述性分析数据描述性分析峰度峰度 峰度用来衡量数据尾部分散性,正态分布峰度峰度用来衡量数据尾部分散性,正态分布峰度为零,峰度为零,峰度0,则厚尾,峰度,则厚尾,峰度0,则细尾,在金融,则细尾,在金融时间序列分析中,通常要研究数据是否为尖峰、细时间序列分析中,通常要研究数据是否为尖峰、细腰、厚尾等特性。腰、厚尾等特性。随机变量的峰度是变量的四阶中心矩除以标准随机变量的峰度是变量的四阶中心矩除以标准差的四次方,计算样本的峰度公式为:差的四次方,计算样本的峰度公式为:其中其中u4,s 分别表示数据的分别表示数据的4阶中
25、心矩与标准差阶中心矩与标准差.Matlab计算峰度的命令为:计算峰度的命令为:kurtosis(data,0)-3.17/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第2 2章章 数据描述性分析数据描述性分析例例2.1.4 计算计算1995年年1月月3日至日至1999年年4月月1日日IBM公司股票开盘价、最高价、最低价、收盘价以及公司股票开盘价、最高价、最低价、收盘价以及成交量的偏度、峰度成交量的偏度、峰度.解:首先在解:首先在MATLAB编辑窗口键入编辑窗口键入ibm=ascii2fts
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- MATLAB 数据 分析 方法
限制150内