matlab__数据分析和统计.doc
《matlab__数据分析和统计.doc》由会员分享,可在线阅读,更多相关《matlab__数据分析和统计.doc(17页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、【精品文档】如有侵权,请联系网站删除,仅供学习与交流matlab_数据分析和统计.精品文档.数据分析和统计面向列的数据集 这年头似乎十分风行”面向”这个词,这儿故也套用,其英文为Column-Oriented Data Sets,可理解为MatLab按列的存储方式来分析数据,下面是一个例子: Time Location 1 Location 2 Location 3 01h00 11 11 9 02h00 713 11 03h00 14 17 20 04h00 11 13 9 05h00 43 51 69 06h00 38 46 76 07h00 61 132186 08h00 75 1351
2、80 09h00 38 88 115 10h00 28 36 55 11h00 12 12 14 12h00 18 27 30 13h00 18 19 29 14h00 17 15 18 15h00 19 36 48 16h00 32 47 10 17h00 42 65 92 18h00 57 66 151 19h00 44 55 90 20h00 114 145 257 21h00 35 58 68 22h00 11 12 15 23h00 13 915 24h00 10 9 7 以上数据被保存在一个称为count.dat的文件中11 11 9 7 13 11 14 17 20 11 13
3、9 43 51 69 38 46 76 61 132 186 75 135 180 38 88 115 28 36 55 12 12 14 18 27 30 18 19 29 17 15 18 19 36 48 32 47 10 42 65 92 57 66 151 44 55 90 114 145 257 35 58 68 11 12 15 13 9 15 10 9 7下面,我们调入此文件,并看看文件的一些参数load count.datn,p = size(count) n = 24 p = 3 创建一个时间轴后,我们可以把图画出来:t = 1:n;set(0,defaultaxeslin
4、estyleorder,-|-|-.) set(0,defaultaxescolororder,0 0 0) plot(t,count), legend(Location 1,Location 2,Location 3,0) xlabel(Time), ylabel(Vehicle Count), grid on 足以证明,以上是对个对象的次观测基本数据分析函数(一定注意是面向列的) 继续用上面的数据,其每列最大值均值及偏差分别为:mx = max(count) mu = mean(count) sigma = std(count) mx = 114 145 257 mu = 32.0000
5、46.5417 65.5833 sigma = 25.3703 41.4057 68.0281重载函数,还可以定位出最大最小值的位置mx,indx = min(count) mx = 7 9 7 indx = 2 23 24试试看,你能看懂下面的命令是干什么的吗?n,p = size(count) e = ones(n,1) x = count e*mu点这看看答案!下面这句命令则找出了整个矩阵的最小值:min(count(:)ans = 7 协方差及相关系数下面,我们来看看第一列的方差:cov(count(:,1) ans = 643.6522cov()函数作用于矩阵,则会计算其协方差矩阵.
6、corrcoef()用于计算相关系数,如:corrcoef(count)ans = 1.0000 0.9331 0.9599 0.9331 1.0000 0.9553 0.9599 0.9553 1.0000 数据的预处理未知数据NaN(Not a Number-不是一个数)被定义为未经定义的算式的结果,如 0/0.在处理数据中,NaN常用来表示未知数据或未能获得的数据.所有与NaN有关的运算其结果都是NaN.a = magic(3); a(2,2) = NaN a = 8 1 6 3 NaN 7 4 9 2sum(a) ans = 15 NaN 15 在做统计时,常需要将NaN转化为可计算的
7、数字或去掉,以下是几种方法:注:判断一个值是否为NaN,只能用 isnan(),而不可用 x=NaN; i = find( isnan(x);x = x(i) 先找出值不是NaN的项的下标,将这些元素保留x = x(find( isnan(x)同上,去掉NaNx = x( isnan(x);更快的做法x(isnan(x) = ;消掉NaNX(any(isnan(X),:) = ;把含有NaN的行都去掉用此法可以从数据中去掉不相关的数据,看看下面的命令是干什么用的:mu = mean(count); sigma = std(count);n,p = size(count) outliers =
8、abs(count mu(ones(n, 1),:) 3*sigma(ones(n, 1),:); nout = sum(outliers) nout = 1 0 0 count(any(outliers),:) = ;点这看看答案 回归与曲线拟合我们经常需要把观测到的数据表达为函数,假如有如下的对时间的观测:t = 0 .3 .8 1.1 1.6 2.3; y = 0.5 0.82 1.14 1.25 1.35 1.40; plot(t,y,o), grid on多项式回归由图可以看出应该可以用多项式来表达:y=a0+a1*t+a2*t2系数a0,a1,a2可以由最小平方拟合来确定,这一步可
9、由反除号来完成解下面的三元方程组可得: X = ones(size(t) t t.2 X = 1.0000 00 1.0000 0.3000 0.0900 1.0000 0.8000 0.6400 1.0000 1.1000 1.2100 1.0000 1.6000 2.5600 1.0000 2.3000 5.2900 a = Xy a = 0.5318 0.9191 0.2387 a即为待求的系数,画图比较可得T = (0:0.1:2.5); Y = ones(size(T) T T.2*a; plot(T,Y,t,y,o,), grid on结果令人失望,但我们可以增加阶数来提高精确度,
10、但更明智的选择是用别的方法线性参数回归形如:y=a0+a1*exp(-t)+a2*t*exp(-t)计算方法同上:X = ones(size(t) exp( t) t.*exp( t); a = Xy a = 1.3974 0.8988 0.4097 T = (0:0.1:2.5); Y = ones(size(T) exp( T) T.exp( T)*a; plot(T,Y,t,y,o), grid on 看起来是不是好多了!例子研究:曲线拟合下面我们以美国人口普查的数据来研究一下有关曲线拟合的问题(MatLab是别人的,教学文档是别人的,例子也是别人的,我只是一个翻译而已)load cen
11、sus这样我们得到了两个变量,cdate是1790至1990年的时间列向量(10年一次),pop是相应人口数列向量.上一小节所讲的多项式拟合可以用函数polyfit()来完成,数字指明了阶数p = polyfit(cdate,pop,4) Warning: Matrix is close to singular or badly scaled. Results may be inaccurate. RCOND = 5.429790e20 p = 1.0e+05 * 0.0000 0.0000 0.0000 0.0126 6.0020产生警告的原因是计算中的cdata值太大,在计算中的Vande
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- matlab_ 数据 分析 统计
限制150内