数据分析处理幻灯片.ppt
《数据分析处理幻灯片.ppt》由会员分享,可在线阅读,更多相关《数据分析处理幻灯片.ppt(56页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据分析处理第1页,共56页,编辑于2022年,星期六二、多元数据处理方法1 1、二维插值、二维插值2 2、多元回归分析、多元回归分析第2页,共56页,编辑于2022年,星期六二维插值的定义二维插值的定义 xyO O第一种(网格节点):第一种(网格节点):第3页,共56页,编辑于2022年,星期六 已知已知 m n个节点个节点 其中其中互不相同,不妨设互不相同,不妨设 构造一个二元函数构造一个二元函数通过全部已知节点通过全部已知节点,即即再用再用计算插值,即计算插值,即第4页,共56页,编辑于2022年,星期六第二种(散乱节点):第二种(散乱节点):yx0 0第5页,共56页,编辑于2022年
2、,星期六已知已知n个节点个节点其中其中互不相同,互不相同,构造一个二元函数构造一个二元函数通过全部已知节点通过全部已知节点,即即再用再用计算插值,即计算插值,即第6页,共56页,编辑于2022年,星期六 注意:注意:最邻近插值一般不连续。具有连续性的最简单的插值是分片线性插值。最邻近插值最邻近插值x y(x1,y1)(x1,y2)(x2,y1)(x2,y2)O O 二维或高维情形的最邻近插值,与被插值点最邻近的节点的函数值即为所求。第7页,共56页,编辑于2022年,星期六 将四个插值点(矩形的四个顶点)处的函数值依次简记为:分片线性插值分片线性插值xy (xi,yj)(xi,yj+1)(xi
3、+1,yj)(xi+1,yj+1)O Of(xi,yj)=f1,f(xi+1,yj)=f2,f(xi+1,yj+1)=f3,f(xi,yj+1)=f4第8页,共56页,编辑于2022年,星期六插值函数为:第二片(上三角形区域):(x,y)满足插值函数为:注意注意:(x,y)当然应该是在插值节点所形成的矩形区域内。显然,分片线性插值函数是连续的;分两片的函数表达式如下:第一片(下三角形区域):(x,y)满足第9页,共56页,编辑于2022年,星期六 双线性插值是一片一片的空间二次曲面构成。双线性插值函数的形式如下:其中有四个待定系数,利用该函数在矩形的四个顶点(插值节点)的函数值,得到四个代数方
4、程,正好确定四个系数。双线性插值双线性插值x y(x1,y1)(x1,y2)(x2,y1)(x2,y2)O O第10页,共56页,编辑于2022年,星期六 要求要求x0,y0 x0,y0单调;单调;x x,y y可取为矩阵,或可取为矩阵,或x x取行向量,取行向量,y y取为列取为列向量,向量,x,yx,y的值分别不能超出的值分别不能超出x0,y0 x0,y0的范围。的范围。z=interp2(x0,y0,z0,x,y,method)被插值点插值方法用用MATLAB作网格节点数据的插值作网格节点数据的插值插值节点被插值点的函数值nearestnearest 最邻近插值最邻近插值linearli
5、near 双线性插值双线性插值cubiccubic 双三次插值双三次插值缺省时缺省时,双线性插值双线性插值第11页,共56页,编辑于2022年,星期六例:测得平板表面例:测得平板表面3*53*5网格点处的温度分别为:网格点处的温度分别为:82 81 80 82 84 82 81 80 82 84 79 63 61 65 81 79 63 61 65 81 84 84 82 85 86 84 84 82 85 86 试作出平板表面的温度分布曲面试作出平板表面的温度分布曲面z=f(x,y)z=f(x,y)的图形。的图形。输入以下命令:x=1:5;y=1:3;temps=82 81 80 82 84
6、;79 63 61 65 81;84 84 82 85 86;mesh(x,y,temps)1.先在三维坐标画出原始数据,画出粗糙的温度分布曲图.第12页,共56页,编辑于2022年,星期六2以平滑数据,在x、y方向上每隔0.2个单位的地方进行插值.再输入以下命令:xi=1:0.2:5;yi=1:0.2:3;zi=interp2(x,y,temps,xi,yi,cubic);mesh(xi,yi,zi)%画出插值后的温度分布曲面图.第13页,共56页,编辑于2022年,星期六 通过此例对最近邻点插值、双线性插值方法和双三次插值方法的插值效果进行比较。第14页,共56页,编辑于2022年,星期六
7、 插值函数插值函数griddata格式为格式为:cz=griddata(x,y,z,cx,cy,method)用用MATLABMATLAB作散点数据的插值计算作散点数据的插值计算 要求要求cxcx取行向量,取行向量,cycy取为列向量。取为列向量。被插值点插值方法插值节点被插值点的函数值nearestnearest 最邻近插值最邻近插值linearlinear 双线性插值双线性插值cubiccubic 双三次插值双三次插值v4-Matlab提供的插值方法提供的插值方法缺省时缺省时,双线性插值双线性插值第15页,共56页,编辑于2022年,星期六 例例 在某海域测得一些点在某海域测得一些点(x,
8、y)(x,y)处的水深处的水深z z由下表给由下表给出,船的吃水深度为出,船的吃水深度为5 5英尺,在矩形区域(英尺,在矩形区域(7575,200200)*(-50-50,150150)里的哪些地方船要避免进入。)里的哪些地方船要避免进入。第16页,共56页,编辑于2022年,星期六4.作出水深小于5的海域范围,即z=5的等高线.3、作海底曲面图第17页,共56页,编辑于2022年,星期六clearx=129 140 103.5 88 185.5 195 105 157.5 107.5 77 81 162 162 117.5;y=7.5 141.5 23 147 22.5 137.5 85.5
9、-6.5-81 3 56.5 -66.5 84 -33.5;z=4 8 6 8 6 8 8 9 9 8 8 9 4 9 ;cx=min(x):10:max(x);cy=min(y):10:max(y);cz=griddata(x,y,z,cx,cy,cubic)%cy取列向量取列向量mesh(cx,cy,cz)第18页,共56页,编辑于2022年,星期六第19页,共56页,编辑于2022年,星期六可线性化的一元非线性回归曲线回归可线性化的一元非线性回归曲线回归例例2 出钢时所用的盛钢水的钢包,由于钢水对耐火材料的侵蚀,容积不断增大.我们希望知道使用次数与增大的容积之间的关 系.对一钢包作试验,
10、测得的数据列于下表:第20页,共56页,编辑于2022年,星期六散点图此即非线性回归非线性回归或曲线回归曲线回归问题(需要配曲线)配曲线的一般方法是:配曲线的一般方法是:第21页,共56页,编辑于2022年,星期六通常选择的六类曲线如下:第22页,共56页,编辑于2022年,星期六多元线性回归多元线性回归数学模型及定义数学模型及定义第23页,共56页,编辑于2022年,星期六第24页,共56页,编辑于2022年,星期六第25页,共56页,编辑于2022年,星期六第26页,共56页,编辑于2022年,星期六模型参数估计模型参数估计 第27页,共56页,编辑于2022年,星期六解得估计值第28页,
11、共56页,编辑于2022年,星期六第29页,共56页,编辑于2022年,星期六多元线性回归中的检验与预测多元线性回归中的检验与预测第30页,共56页,编辑于2022年,星期六(残差平方和)残差平方和)F检验法检验法第31页,共56页,编辑于2022年,星期六多元线性回归多元线性回归 b=regress(Y,X)1)确定回归系数的点估计值:确定回归系数的点估计值:MATLAB多元回归命令多元回归命令对一元线性回归,取p=1即可.第32页,共56页,编辑于2022年,星期六3、画出残差及其置信区间:画出残差及其置信区间:rcoplot(r,rint)2)求回归系数的点估计和区间估计、并检验回归模型
12、:求回归系数的点估计和区间估计、并检验回归模型:b,bint,r,rint,stats=regress(Y,X,alpha)回归系数的区间估计残差用于检验回归模型的统计量,有三个数值:相关系数r2、F值、与F对应的概率p置信区间 显著性水平(缺省时为0.05)第33页,共56页,编辑于2022年,星期六法一法一 直接作二次多项式回归:直接作二次多项式回归:t=1/30:1/30:14/30;s=11.86 15.67 20.60 26.69 33.71 41.93 51.13 61.49 72.90 85.44 99.08 113.77 129.54 146.48;p,S=polyfit(t,
13、s,2)得回归模型为:第34页,共56页,编辑于2022年,星期六法二法二化为多元线性回归:化为多元线性回归:t=1/30:1/30:14/30;s=11.86 15.67 20.60 26.69 33.71 41.93 51.13 61.49 72.90 85.44 99.08 113.77 129.54 146.48;T=ones(14,1),t,(t.2);b,bint,r,rint,stats=regress(s,T);b,stats得回归模型为:Y=polyconf(p,t,S)plot(t,s,k+,t,Y,r)预测及作图预测及作图第35页,共56页,编辑于2022年,星期六(2)
14、预测预测(A)点预测)点预测(B)区间预测)区间预测第36页,共56页,编辑于2022年,星期六逐步回归分析逐步回归分析 实际问题中影响因变量的因素可能很多,我们希望从中挑选出影响显著的自变量来建立回归模型,这就涉及到变量选择的问题。逐步回归是一种从众多变量中有效地选择重要变量的方法。它是在多元线性回归的基础上派生出来的一种算法技巧。“最最优优”的的回回归归方方程程就是包含所有对Y有影响的变量,而不包含对Y影响不显著的变量回归方程。如果采用的自变量越多,则回归平方和越大,残差平方和越小,然而较多的变量来拟合回归方程,得到的防策划能够稳定性差,用它作预测可靠性差,精度低另一方面,如果采用了y 影
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析 处理 幻灯片
限制150内