数据分析处理4.ppt
《数据分析处理4.ppt》由会员分享,可在线阅读,更多相关《数据分析处理4.ppt(56页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1.一元数据处理方法 一维插值拟合 一元线性回归2.多元数据处理方法 2维插值拟合 多元线性回归3.灰色分析4.神经网络数据具体分析方法数据具体分析方法二、多元数据处理方法1 1、二维插值、二维插值2 2、多元回归分析、多元回归分析二维插值的定义二维插值的定义 xyO O第一种(网格节点):第一种(网格节点):已知已知 m n个节点个节点 其中其中互不相同,不妨设互不相同,不妨设 构造一个二元函数构造一个二元函数通过全部已知节点通过全部已知节点,即即再用再用计算插值,即计算插值,即第二种(散乱节点):第二种(散乱节点):yx0 0已知已知n个节点个节点其中其中互不相同,互不相同,构造一个二元函
2、数构造一个二元函数通过全部已知节点通过全部已知节点,即即再用再用计算插值,即计算插值,即 注意:注意:最邻近插值一般不连续。具有连续性的最简单的插值是分片线性插值。最邻近插值最邻近插值x y(x1,y1)(x1,y2)(x2,y1)(x2,y2)O O 二维或高维情形的最邻近插值,与被插值点最邻近的节点的函数值即为所求。将四个插值点(矩形的四个顶点)处的函数值依次简记为:分片线性插值分片线性插值xy (xi,yj)(xi,yj+1)(xi+1,yj)(xi+1,yj+1)O Of(xi,yj)=f1,f(xi+1,yj)=f2,f(xi+1,yj+1)=f3,f(xi,yj+1)=f4插值函数
3、为:第二片(上三角形区域):(x,y)满足插值函数为:注意注意:(x,y)当然应该是在插值节点所形成的矩形区域内。显然,分片线性插值函数是连续的;分两片的函数表达式如下:第一片(下三角形区域):(x,y)满足 双线性插值是一片一片的空间二次曲面构成。双线性插值函数的形式如下:其中有四个待定系数,利用该函数在矩形的四个顶点(插值节点)的函数值,得到四个代数方程,正好确定四个系数。双线性插值双线性插值x y(x1,y1)(x1,y2)(x2,y1)(x2,y2)O O 要求要求x0,y0 x0,y0单调;单调;x x,y y可取可取为矩阵,或为矩阵,或x x取行向量,取行向量,y y取为列向量,取
4、为列向量,x,yx,y的值分别不能超出的值分别不能超出x0,y0 x0,y0的范围。的范围。z=interp2(x0,y0,z0,x,y,method)被插值点插值方法用用MATLAB作网格节点数据的插值作网格节点数据的插值插值节点被插值点的函数值nearestnearest 最邻近插值最邻近插值linearlinear 双线性插值双线性插值cubiccubic 双三次插值双三次插值缺省时缺省时,双线性插值双线性插值例:测得平板表面例:测得平板表面3*53*5网格点处的温度分别为:网格点处的温度分别为:82 81 80 82 84 82 81 80 82 84 79 63 61 65 81 7
5、9 63 61 65 81 84 84 8484 82 85 86 82 85 86 试作出平板表面的温度分布曲面试作出平板表面的温度分布曲面z=f(x,y)z=f(x,y)的图形。的图形。输入以下命令:x=1:5;y=1:3;temps=82 81 80 82 84;79 63 61 65 81;84 84 82 85 86;mesh(x,y,temps)1.先在三维坐标画出原始数据,画出粗糙的温度分布曲图.2以平滑数据,在x、y方向上每隔0.2个单位的地方进行插值.再输入以下命令:xi=1:0.2:5;yi=1:0.2:3;zi=interp2(x,y,temps,xi,yi,cubic)
6、;mesh(xi,yi,zi)%画出插值后的温度分布曲面图.通过此例对最近邻点插值、双线性插值方法和双三次插值方法的插值效果进行比较。插值函数插值函数griddata格式为格式为:cz=griddata(x,y,z,cx,cy,method)用用MATLABMATLAB作散点数据的插值计算作散点数据的插值计算 要求要求cxcx取行向量,取行向量,cycy取为列向量取为列向量。被插值点插值方法插值节点被插值点的函数值nearestnearest 最邻近插值最邻近插值linearlinear 双线性插值双线性插值cubiccubic 双三次插值双三次插值v4-Matlab提供的插值方法提供的插值方
7、法缺省时缺省时,双线性插值双线性插值 例例 在某海域测得一些点在某海域测得一些点(x,y)(x,y)处的水深处的水深z z由由下下表给出,船的吃水深度为表给出,船的吃水深度为5 5英尺,在矩形区域(英尺,在矩形区域(7575,200200)*(-50-50,150150)里的哪些地方船要避免进入。)里的哪些地方船要避免进入。4.作出水深小于5的海域范围,即z=5的等高线.3、作海底曲面图clearx=129 140 103.5 88 185.5 195 105 157.5 107.5 77 81 162 162 117.5;y=7.5 141.5 23 147 22.5 137.5 85.5-
8、6.5-81 3 56.5 -66.5 84 -33.5;z=4 8 6 8 6 8 8 9 9 8 8 9 4 9 ;cx=min(x):10:max(x);cy=min(y):10:max(y);cz=griddata(x,y,z,cx,cy,cubic)%cy取列向量取列向量mesh(cx,cy,cz)可线性化的一元非线性回归曲线回归可线性化的一元非线性回归曲线回归例例2 出钢时所用的盛钢水的钢包,由于钢水对耐火材料的侵蚀,容积不断增大.我们希望知道使用次数与增大的容积之间的关 系.对一钢包作试验,测得的数据列于下表:散点图此即非线性回归非线性回归或曲线回归曲线回归问题(需要配曲线)配曲
9、线的一般方法是:配曲线的一般方法是:通常选择的六类曲线如下:多元线性回归多元线性回归数学模型及定义数学模型及定义模型参数估计模型参数估计 解得估计值多元线性回归中的检验与预测多元线性回归中的检验与预测(残差平方和)残差平方和)F检验法检验法多元线性回归多元线性回归 b=regress(Y,X)1)确定回归系数的点估计值:确定回归系数的点估计值:MATLAB多元回归命令多元回归命令对一元线性回归,取p=1即可.3、画出残差及其置信区间:画出残差及其置信区间:rcoplot(r,rint)2)求回归系数的点估计和区间估计、并检验回归模型:求回归系数的点估计和区间估计、并检验回归模型:b,bint,
10、r,rint,stats=regress(Y,X,alpha)回归系数的区间估计残差用于检验回归模型的统计量,有三个数值:相关系数r2、F值、与F对应的概率p置信区间 显著性水平(缺省时为0.05)法一法一 直接作二次多项式回归:直接作二次多项式回归:t=1/30:1/30:14/30;s=11.86 15.67 20.60 26.69 33.71 41.93 51.13 61.49 72.90 85.44 99.08 113.77 129.54 146.48;p,S=polyfit(t,s,2)得回归模型为:法二法二化为多元线性回归:化为多元线性回归:t=1/30:1/30:14/30;s=
11、11.86 15.67 20.60 26.69 33.71 41.93 51.13 61.49 72.90 85.44 99.08 113.77 129.54 146.48;T=ones(14,1),t,(t.2);b,bint,r,rint,stats=regress(s,T);b,stats得回归模型为:Y=polyconf(p,t,S)plot(t,s,k+,t,Y,r)预测及作图预测及作图(2)预测预测(A)点预测)点预测(B)区间预测)区间预测逐步回归分析逐步回归分析 实际问题中影响因变量的因素可能很多,我们希望从中挑选出影响显著的自变量来建立回归模型,这就涉及到变量选择的问题。逐步
12、回归是一种从众多变量中有效地选择重要变量的方法。它是在多元线性回归的基础上派生出来的一种算法技巧。“最最优优”的的回回归归方方程程就是包含所有对Y有影响的变量,而不包含对Y影响不显著的变量回归方程。如果采用的自变量越多,则回归平方和越大,残差平方和越小,然而较多的变量来拟合回归方程,得到的防策划能够稳定性差,用它作预测可靠性差,精度低另一方面,如果采用了y 影响较小的变量而遗漏了重要变量,可导致估计量产生偏崎和不一致性为此,我们希望得到“最优”的回归方程(4)“有进有出”的逐步回归分析。(1)从所有可能的因子(变量)组合的回归方程中选择最优者;(2)从包含全部变量的回归方程中逐次剔除不显著因子
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析 处理
限制150内