数据分析方法MATLAB实现ppt课件.ppt
《数据分析方法MATLAB实现ppt课件.ppt》由会员分享,可在线阅读,更多相关《数据分析方法MATLAB实现ppt课件.ppt(79页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1/24第第2 2章章 数据描述性分析数据描述性分析普通高等院校计算机课程规划普通高等院校计算机课程规划教材教材MATLAB数据分析方法数据分析方法 李柏年 吴礼斌 主编 张孔生 丁 华 参编 2/24第第2 2章章 数据描述性分析数据描述性分析第第2章章 数据描述性分析数据描述性分析 数据描述性分析是从样本数据出发,概括分析数数据描述性分析是从样本数据出发,概括分析数据的集中位置、分散程度、相互关联关系等,分析数据的集中位置、分散程度、相互关联关系等,分析数据分布的正态或偏态特征据分布的正态或偏态特征.描述性分析是进行数据进一描述性分析是进行数据进一步分析的基础步分析的基础.对不同类型量纲的
2、数据有时还要进行变对不同类型量纲的数据有时还要进行变换,然后再作出合理分析换,然后再作出合理分析.本章主要介绍样本数据的基本章主要介绍样本数据的基本统计量、数据的可视化、数据分布检验及数据变换本统计量、数据的可视化、数据分布检验及数据变换等内容等内容.2.1基本统计量与数据可视化基本统计量与数据可视化 2.1.1样本数据的基本统计量样本数据的基本统计量 描述数据基本特征主要为集中位置和分散程度。描述数据基本特征主要为集中位置和分散程度。设从所研究的对象设从所研究的对象(即总体即总体)X中观测得到中观测得到n个观测值个观测值3/24第第2 2章章 数据描述性分析数据描述性分析1.均值、中位数、分
3、位数与三均值均值、中位数、分位数与三均值 数据数据(x1,x2,xn)的平均值称为该数据的均值,记为的平均值称为该数据的均值,记为11niixxnx1,x2,xn这这n个值称为样本数据个值称为样本数据, 简称数据,简称数据,n称为样本容量称为样本容量.我们的任务就是要对样本数据我们的任务就是要对样本数据(2.1.1)进行分析,提进行分析,提取数据中所包含的有用的信息,从而进一步对总体取数据中所包含的有用的信息,从而进一步对总体的特性作出推断的特性作出推断. (2.1.1)(2.1.2)样本均值描述了数据取值的平均位置样本均值描述了数据取值的平均位置.样本均值计算样本均值计算简易简易, 但易受异
4、常值的影响而不稳健但易受异常值的影响而不稳健.4/24第第2 2章章 数据描述性分析数据描述性分析又将数据(又将数据(2.1.1)按从小到大的次序排列,排序)按从小到大的次序排列,排序为为k的数记为的数记为x(k)(1 k n),即,即x(1) x(2) x(n),称,称 )()2()1(,nxxx (2.1.3) 为数据(为数据(2.1.1)的次序统计量)的次序统计量.由次序统计量定义数由次序统计量定义数M,1222()( )(1).1()2nnnxnMxxn为奇数为偶数称称M为数据(为数据(2.1.1)的中位数。)的中位数。(2.1.4)中位数是描述数据的中心位置的数字特征,若数据的中位数
5、是描述数据的中心位置的数字特征,若数据的分布对称,则均值与中位数比较接近。若数据的分布分布对称,则均值与中位数比较接近。若数据的分布为偏态,则均值与中位数差异会较大。中位数的一个为偏态,则均值与中位数差异会较大。中位数的一个显著特点是受异常值的影响较小,具有较好的稳健性显著特点是受异常值的影响较小,具有较好的稳健性.5/24第第2 2章章 数据描述性分析数据描述性分析设设0 p M_MD_SM %M文件名ans = 1.0e+03 * 0.2883 0.2599 0.0290 1.2056 1.0830 0.1482 0.1455 0.0171 0.8421 0.6775 0.0449 0.0
6、404 0.0129 0.2111 0.0654即如表6-2所示。13/24第第2 2章章 数据描述性分析数据描述性分析统计量林业用地面积(khm2)森林面积(khm2)森林覆盖率(%)活立木总蓄积量(m3*104)森林蓄积量(m3*104)均值288.3259.929.01205.61083.0中位数148.2145.517.1842.1677.5三均值44.940.412.9211.165.4表表6-2 某省森林资源均值、中位数与三均值某省森林资源均值、中位数与三均值14/24第第2 2章章 数据描述性分析数据描述性分析2.方差与变异系数方差与变异系数方差是描述数据取值分散性的一种度量,它
7、是数据相方差是描述数据取值分散性的一种度量,它是数据相对于均值的偏差平方的平均对于均值的偏差平方的平均.样本数据(样本数据(2.1.1)的方)的方差记为差记为 22221111()11nniiiisxxxn xnn(2.1.7) 其算术平方根称为标准差或根方差,其算术平方根称为标准差或根方差,即即 22111niisxn xn(2.1.8) 15/24第第2 2章章 数据描述性分析数据描述性分析刻画数据刻画数据x1,x2,xn相对分散性的指标可以用变异系相对分散性的指标可以用变异系数,其计算公式为数,其计算公式为 / |vs xsx,或(2.1.9) 变异系数是一个无量纲的量,一般用百分数表示
8、变异系数是一个无量纲的量,一般用百分数表示.在在MATLAB中,计算方差命令中,计算方差命令var,调用格式,调用格式 S=var(x);计算标准差命令计算标准差命令std,调用格式,调用格式 d=std(x)其中输入其中输入x是样本数据,输出是样本数据,输出S为方差为方差,d为标准差为标准差.当当输入输入x是矩阵时,输出是矩阵时,输出x每列数据的方差与标准差每列数据的方差与标准差.由均值与方差命令,可设计变异系数的计算程序为由均值与方差命令,可设计变异系数的计算程序为v=std(x)./mean(x),或者,或者v=std(x)./abs(mean(x)当输入当输入x是矩阵时,输出是矩阵时,
9、输出x每列数据的变异系数每列数据的变异系数.16/24第第2 2章章 数据描述性分析数据描述性分析例例2.1.2. 计算例计算例2.1.1中各指标的方差、标准差中各指标的方差、标准差与变异系数与变异系数解:将表解:将表2-1中的数据粘贴到中的数据粘贴到MATLAB软件软件A=53.93,3252.88; % 粘贴原始数据粘贴原始数据M=mean(A); % 计算各指标均值计算各指标均值D=var(A); % 计算各指标方差计算各指标方差SD=std(A); % 计算各指标标准差计算各指标标准差V=SD./abs(M) % 计算各指标变异系数计算各指标变异系数D;SD;V % 输出计算结果输出计
10、算结果表表2.3安徽省森林资源方差、标准差与变异系数安徽省森林资源方差、标准差与变异系数 (2008年)年)统计量统计量 林地面积林地面积森林面积森林面积森林覆盖率森林覆盖率活立木总蓄积量活立木总蓄积量森林蓄积量森林蓄积量方差方差75464.4859198.14394.491065554.981040590.73标准差标准差274.71243.3119.861032.261020.09变异系数变异系数1.011.010.740.961.0717/24第第2 2章章 数据描述性分析数据描述性分析 3. 样本的极差与四分位极差样本的极差与四分位极差极差的计算公式为:极差的计算公式为: ( )(1)
11、-nRxx它是表示数据的分散性的数字特征它是表示数据的分散性的数字特征.MATLAB中公式为:中公式为:max(data)-min(data),或,或 range(data)上、下四分位数上、下四分位数Q3,Q1之差称为四分位极差,即之差称为四分位极差,即 R1=Q3-Q1MATLAB中计算数据中计算数据data的公式为:的公式为:iqr(data)4. 异常点判别异常点判别先求上、下截断点:先求上、下截断点:R上上=Q3+1.5R1 , R下下=Q1-1.5R1小于小于R下下或大于或大于R上上的数据均为异常值的数据均为异常值.18/24第第2 2章章 数据描述性分析数据描述性分析例例2.1.
12、3 根据根据2007年华东地区各高校教职工数据,年华东地区各高校教职工数据,计算专任教师、计算专任教师、 行政人员、教辅人员以及工勤人行政人员、教辅人员以及工勤人员占在职教工的百分比,以及百分比的极差、四分员占在职教工的百分比,以及百分比的极差、四分位极差以及上、下截断点位极差以及上、下截断点.表表2.4 2007年华东地区各高校教职工数据年华东地区各高校教职工数据地地 区区在职教工在职教工专任教师专任教师行政人员行政人员教辅人员教辅人员工勤人员工勤人员上上 海海61385354801028278427781江江 苏苏13421588568201721337112104浙浙 江江6776345
13、6221096067984383安安 徽徽5914940743727857635365福福 建建4786431385771250343733江江 西西6339245153817954954565山山 东东1209968188916342116141115119/24第第2 2章章 数据描述性分析数据描述性分析解:解:A=61385 354801028278427781134215 885682017213371121046776345622109606798438359149407437278576353654786431385771250343733633924515381795495456
14、5120996 81889163421161411151;B=A(:,2:5)./A(:,1)*ones(1,4); % 计算百分比计算百分比R=range(B); % 计算极差计算极差 R1=iqr(B); % 计算四分位极差计算四分位极差 XJ=prctile(B,25)-1.5*R1; % 计算下截断点计算下截断点SJ=prctile(B,75)+1.5*R1; % 计算上截断点计算上截断点5.偏度与峰度偏度与峰度 偏度是用于衡量分布的不对称程度或偏斜程度的偏度是用于衡量分布的不对称程度或偏斜程度的指标指标.随机变量的偏度是变量的三阶中心矩除以标准随机变量的偏度是变量的三阶中心矩除以标准
15、差的三次方,计算样本的偏度公式为:差的三次方,计算样本的偏度公式为:20/24第第2 2章章 数据描述性分析数据描述性分析233(1)(2)dn upnns,其中其中u3,s 分别表示数据的分别表示数据的3阶中心矩与标准差阶中心矩与标准差.Matlab计算数据偏度的命令为计算数据偏度的命令为: skewness(data,0) 正态分布正态分布的偏度为零,若的偏度为零,若pd0称分布具有正偏离,也称右偏态,情况称分布具有正偏离,也称右偏态,情况相反;而偏度接近相反;而偏度接近0则可认为分布是对称的则可认为分布是对称的.若知道若知道分分布布有可能在偏度上有可能在偏度上偏离偏离正态分布时,可用偏离
16、来检验正态分布时,可用偏离来检验分布的正态性分布的正态性.21/24第第2 2章章 数据描述性分析数据描述性分析峰度峰度 峰度用来衡量数据尾部分散性,正态分布峰度峰度用来衡量数据尾部分散性,正态分布峰度为零,峰度为零,峰度0,则厚尾,峰度,则厚尾,峰度0,则细尾,在金融,则细尾,在金融时间序列分析中,通常要研究数据是否为尖峰、细时间序列分析中,通常要研究数据是否为尖峰、细腰、厚尾等特性。腰、厚尾等特性。 随机变量的峰度是变量的四阶中心矩除以标准随机变量的峰度是变量的四阶中心矩除以标准差的四次方,计算样本的峰度公式为:差的四次方,计算样本的峰度公式为:22443( -1)(1)(2)( -2)(
17、 -3)dn unfnnsnn-,其中其中u4,s 分别表示数据的分别表示数据的4阶中心矩与标准差阶中心矩与标准差.Matlab计算峰度的命令为:计算峰度的命令为:kurtosis (data,0)-3.22/24第第2 2章章 数据描述性分析数据描述性分析例例2.1.4 计算计算1995年年1月月3日至日至1999年年4月月1日日IBM公司股票开盘价、最高价、最低价、收盘价以及公司股票开盘价、最高价、最低价、收盘价以及成交量的偏度、峰度成交量的偏度、峰度.解:首先在解:首先在MATLAB编辑窗口键入编辑窗口键入ibm = ascii2fts(ibm9599.dat, 1, 3, 2);得到数
18、据共有六列,分别为得到数据共有六列,分别为:日期、股票开盘价、最高日期、股票开盘价、最高价、最低价、收盘价以及成交量数据价、最低价、收盘价以及成交量数据. 然后键入然后键入tsmat = fts2mat(ibm); % 提取提取ibm数据的后五列数据矩阵数据的后五列数据矩阵pd=skewness(tsmat,0); % 计算偏度计算偏度fd=kurtosis (tsmat,0)-3; % 计算峰度计算峰度pd;fd % 输出计算结果输出计算结果subplot(221),histfit(tsmat(:,1),title(open) % 做开盘价直方图做开盘价直方图subplot(222),his
19、tfit(tsmat(:,2),title(high) % 做最高价直方图做最高价直方图subplot(223),histfit(tsmat(:,3),title(low) % 做最低价直方图做最低价直方图subplot(224),histfit(tsmat(:,4),title(close) % 做收盘价直方图做收盘价直方图23/24第第2 2章章 数据描述性分析数据描述性分析 表表2.5 IBM公司股票偏度与峰度公司股票偏度与峰度.统计量统计量开盘价开盘价最高价最高价最低价最低价收盘价收盘价成交量成交量偏度偏度0.93470.88980.90780.89122.9448峰度峰度0.1745
20、-0.02360.0018-0.022516.2246由于正态分布的偏度与峰度都应等于零,从表由于正态分布的偏度与峰度都应等于零,从表1.5可知可知IBM公司股票各指标均不服从正态分布公司股票各指标均不服从正态分布.上述上述数据的直方图(图数据的直方图(图1.1)也验证了这一点)也验证了这一点.-1000100200300050100150open-1000100200300050100150high-1000100200300050100150low-1000100200300050100150close图图2.1 IBM公司股票直方图公司股票直方图24/24第第2 2章章 数据描述性分析数
21、据描述性分析2.1.2 样本数据可视化样本数据可视化1.可视化可视化 数据可视化是指数据的图形表示。借助几何图形数据可视化是指数据的图形表示。借助几何图形可形象说明数据的特征与分布情况。常用的图形有条可形象说明数据的特征与分布情况。常用的图形有条形图、直方图、盒图、阶梯图和火柴棒图等形图、直方图、盒图、阶梯图和火柴棒图等.(1)条形图)条形图. 条形图是用宽度相同的直线条的高低或条形图是用宽度相同的直线条的高低或长短来表示统计指标数值的大小长短来表示统计指标数值的大小.条形图根据表现资条形图根据表现资料的内容可分为单式条形图、复式条形图和结构条形料的内容可分为单式条形图、复式条形图和结构条形图
22、图.单式条形图反映统计对象随某一因素变化而改变单式条形图反映统计对象随某一因素变化而改变的情况的情况.复式条形图可以反映统计对象随两个因素变复式条形图可以反映统计对象随两个因素变动而变动的情况动而变动的情况.结构条形图则反映不同统计对象内结构条形图则反映不同统计对象内部结构的变化情况部结构的变化情况.25/24第第2 2章章 数据描述性分析数据描述性分析在在MATLAB中,绘制条形图命令中,绘制条形图命令bar,调用格式,调用格式 bar(X) bar(x,Y)作样本数据作样本数据X的条形图;的条形图; x的元素在横坐标轴的元素在横坐标轴上按从小到大排列,作上按从小到大排列,作Y和和x对应的条
23、形图对应的条形图.(2)直方图)直方图.将观测数据的取值范围分为若干个区将观测数据的取值范围分为若干个区间间, 计算落在每个区间的频数或频率计算落在每个区间的频数或频率.在每个区间上在每个区间上画一个矩形画一个矩形, 以估计总体的概率密度以估计总体的概率密度.在在MATLAB中,绘制直方图命令中,绘制直方图命令hist,调用格式,调用格式 hist(x,n)%作数据作数据x的直方图,其中的直方图,其中n表示分组的个数,缺省表示分组的个数,缺省时时n=10 h,stats = cdfplot(x)26/24第第2 2章章 数据描述性分析数据描述性分析%作数据作数据x的经验分布函数图,的经验分布函
24、数图,stats给出数据的最大值给出数据的最大值、最小值、中位数、平均值和标准差、最小值、中位数、平均值和标准差.附加有正态密度曲线的直方图命令附加有正态密度曲线的直方图命令histfit,调用格式,调用格式 histfit(X)%X为样本数据向量,返回直方图和正态曲线为样本数据向量,返回直方图和正态曲线. histfit(X,nbins)% nbins指定指定bar的个数,缺省为的个数,缺省为X中数据个数的平方根中数据个数的平方根.(3)盒图)盒图.盒图是由五个数值点组成:最小值,下四盒图是由五个数值点组成:最小值,下四分位数,中位数,上四分位数,最大值分位数,中位数,上四分位数,最大值.中
25、间的盒子是中间的盒子是从从Q1延伸到延伸到Q3,盒子里的直线标示出中位数的位置,盒子里的直线标示出中位数的位置,盒子两端有直线往外延伸到最小数与最大数盒子两端有直线往外延伸到最小数与最大数.27/24第第2 2章章 数据描述性分析数据描述性分析在在MATLAB中,绘制盒图命令中,绘制盒图命令boxplot,调用格式,调用格式 boxplot(X)%产生矩阵产生矩阵X的每一列的盒图和的每一列的盒图和“须须”图,图,“须须”是是从盒的尾部延伸出来,并表示盒外数据长度的线,如从盒的尾部延伸出来,并表示盒外数据长度的线,如果果“须须”的外面没有数据,则在的外面没有数据,则在“须须”的底部有一个的底部有
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析 方法 MATLAB 实现 ppt 课件
限制150内