数据拟合方法g.ppt
数据拟合方法g Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望引例 某种合成纤维的强度与其拉伸倍数有直接关系,下表是实际测定的24个纤维样品的强度与拉伸倍数的记录。提示:将拉伸倍数作为x,强度作为y,在座标纸上标出各点,可以发现什么?从上图中可以看出强度与拉伸倍数大致成线形关系,可用一条直线来表示两者之间的关系。解:设 y*=a+bxi i ,令=yi-y*i=yi-a-bxi,根据最小二乘原理,即使误差的平方和达到最小,也就是令 为最小,即求使有最小值的有最小值的a a和和b b的值。的值。计算出它的正规方程得计算出它的正规方程得解得:a=0.15 ,b=0.859 直线方程为:y*=0.15+0.859x定义1:向量范数向量范数映射:满足:非负性齐次性三角不等式称该映射为向量的一种范数范数预备知识我们定义两点的距离距离为:常见的范数有:定义2:函数f,g的关于离散点列的离散内积离散内积为:定义3:函数f的离散范数离散范数为提示:该种内积,范数的定义与向量的2范数一致我们还可以定义函数的离散范数为:仍然是已知仍然是已知 x1 xm;y1 ym,求一个简单易求一个简单易算的近似函数算的近似函数 P(x)f(x)。但是但是 m 很大;很大;yi 本身是测量值,不准确,即本身是测量值,不准确,即 yi f(xi)这时没必要取这时没必要取 P(xi)=yi,而要使而要使 P(xi)yi 总体上总体上尽可能小。尽可能小。常见做法:常见做法:使使 最小最小/*minimax problem*/太复杂太复杂 使使 最小最小不可导,求解困难不可导,求解困难 使使 最小最小 /*Least-Squares method*/问题的提出问题的提出曲线拟合的最小二乘法曲线拟合的最小二乘法最小二乘原理 当由实验提供了大量数据时,不能要求拟合函数 在数据点 处的偏差,即 (i=1,2,m)严格为零,但为了使近似曲线尽量反映所给数据点的变化趋势,需对偏差有所要求.通常要求偏差平方和 最小,此即称为最小二乘原理 最小二乘法的求法最小二乘法的求法最小二乘法的几种特例最小二乘法的几种特例最小二乘拟合最小二乘拟合多项式多项式 /*L-S approximating polynomials*/确定多项式确定多项式 ,对于一组数据,对于一组数据(xi,yi)(i=1,2,m)使得使得 达到达到极小极小,这里,这里 n m。naaa10 实际上是实际上是 a0,a1,an 的多元函数,即的多元函数,即 =+=miinininyxaxaaaaa121010.),.,(在在 的极值点应有的极值点应有kiminjijijxyxa =102=+njmikiimikjijxyxa0112记记 =mikiikmikikxycxb11,1 L-S Approximating Polynomials定理定理L-S 拟合多项式拟合多项式存在唯一存在唯一(n m)。证明:证明:记法方程组为记法方程组为 Ba=c.则有则有 其中其中对任意对任意 ,必有,必有 。若不然,则若不然,则存在一个存在一个 使得使得 即即是是 n 阶多项式阶多项式的根的根则则 B为为正定阵正定阵,则非奇异,所以法方程组,则非奇异,所以法方程组存在唯一存在唯一解。解。例例 题题曲线拟合问题最常用的解法曲线拟合问题最常用的解法最小二乘法的基本思路最小二乘法的基本思路第一步:先选定一组函数先选定一组函数 r1(x),r2(x),rm(x),mn,令令 f(x)=a1r1(x)+a2r2(x)+amrm(x)(1)其中其中 a1,a2,am 为待定系数。为待定系数。第二步:确定确定a1,a2,am 的准则(最小二乘准则):的准则(最小二乘准则):使使n个点个点(xi,yi)与与曲线曲线 y=f(x)的距离的距离 i 的平方和最小的平方和最小。记记问题归结为,求问题归结为,求 a1,a2,am 使使 J(a1,a2,am)最小。最小。最小二乘法的求解:预备知识最小二乘法的求解:预备知识超定方程组超定方程组:方程个数大于未知量个数的方程组:方程个数大于未知量个数的方程组即即 Ra=y其中其中超定方程一般是不存在解的矛盾方程组。超定方程一般是不存在解的矛盾方程组。如果有向量如果有向量a使得使得 达到最小,达到最小,则称则称a为上述为上述超定方程的最小二乘解超定方程的最小二乘解。最小二乘法的求解最小二乘法的求解 定理:定理:当当R RT TR R可逆时,超定方程组(可逆时,超定方程组(3 3)存在最小二乘解,)存在最小二乘解,且即为方程组且即为方程组 R RT TRa=RRa=RT Ty y的解:的解:a=(Ra=(RT TR)R)-1-1R RT Ty y 所以,曲线拟合的最小二乘法要解决的问题,实际上就是所以,曲线拟合的最小二乘法要解决的问题,实际上就是求以下超定方程组的最小二乘解的问题。求以下超定方程组的最小二乘解的问题。其中其中Ra=y (3)三 拟合模型的正规方程关于拟合模型必须能反映离散点分布基本特征。常选取是拟合模型,既所属函数类为M =Span 0,1,n,其中 0,1,n 是线性无关的基函数 m于是 (x)=c j j(x)j=0通常选取每个j是次数j的简单多项式,即M 是次数 n 的n次多项式空间。取 j(x)=x j ,j=0,1,n M=Span1,x,x2,x n,从而(x)=C0 +C1 x1+C n x n=Pn(x)n 设离散数据模型 (x)=c j j(x)j=0则求解归结为 n+1元函数S的 极值问题:m n S(c0,c1,c n)=i y i c j j(xi)2 i=0 j=0显然S达最小值必要条件是 S m n =2 i y i c j j(xi)k(x i)=0 C k i=0 j=0 (k=0,1,n)这是关于 c0,c1,c n 的方程组,n改写成 (j,k)c j=(y,k)(k=0,1,2,n)称为正规方程组 j=0其中 m n(j,k)=i j(xi)k(x i)i=0 j=0一般,n m,函数 0,1,n,线性无关能保证正规方程组的系数矩阵 (0,0)(1,0),(n ,0 )G=,(*)(0,n )(1,n ),(n ,n )的行列式不为零。因此正规方程组有唯一解。设其解为 c j=c j*,j=0,1,n则所要求的离散点的拟合函数(最佳平方逼近)为 n *(x)=c j*j(x)。J=0对已知连续函数f(x)的最佳平方逼近问题与离散点的最佳平方逼近有相同形式的正规方程组和结论,只不过内积公式变为 表中提供离散数据(x i ,y i),(0i4)试用二次多项式进行拟合.i xi yi *(xi)yi-*(xi)0 0 1.0000 1.0052 -0.0052 1 0.25 1.2840 1.2740 0.0100 2 0.50 1.6487 1.6482 0.0005 3 0.75 2.1170 2.1279 -0.0109 4 1.00 2.7183 2.7130 0.0053四拟合模型举例解:取 M=Span(1,x,x2 )其三个基函数为 j(x)=x j (j=0,1,2)拟合函数 是基函数的线性组合:(x)=c0+c1x+c2x2 取0=1=4=1,由公式 5 5(j,k)=xi j+k,(y,k)=y i x i k,i=1 i=1 (j,k=0,1,2)可以算出(0 ,0)=5,(1,1)=1.875,(2 ,2)=1.3828(0 ,1)=(1 ,0)=2.5,(0 ,2)=(2,0)=1.875(1 ,2)=(2,1)=1.5625(y ,0)=8.7680,(y,1)=5.4514,(y,2)=4.4215 正规方程为5C0+2.5C1+1.875C2 =8.76802.5C0+1.875C1+1.5625C2 =5.45141.875C0+1.5625C1+1.3828C2=4.415解得 C0=1.0052,C1=0.8641,C2=0.8427所求连续模型*为,*(x)=1.0052+0.8641x+0.8437x2最小平方残差 5|y*|22=(yi *(x i)2=2.7610-4 i=1第一步:函数空间的基,然后列出法方程第一步:函数空间的基,然后列出法方程例:第一步:函数空间的基,然后列出法方程由,可以先做由上述我 们已经知到上述模型实际上是最小二乘法的推广,实际上也就是多项式逼近函数的问题。它不仅可以解决一元问题还可用于多元问题。除此外还可求解某些非线性问题。求解方法是将其通过一定的代数变换转换为可用线性模型求解的问题。比如对方程 y=a e b x 取对数,得l n y=l n a+b x,令 Y=lny,A=l n a,B=b 则问题转化为解 Y=A+Bx的线性问题。类似的再如,对y=a+b/x拟和可对此方程取倒数,则新变量1/y于x成线性关系。五 非线性曲线的拟合六最小二乘法方法评注最小二乘法方曲线拟和是实验数据处理的常用方法。最佳平方逼近可以在一个区间上比较均匀的逼近函数且具有方法简单易行,实效性大,应用广泛等特点。但当正规方程阶数较高时,往往出现病态。因此必须谨慎对待和加以巧妙处理。有效方法之一是引入正交多项式以改善其病态性。曲曲 线线 拟拟 合合 问问 题题 的的 提提 法法已知一组(二维)数据,即平面上已知一组(二维)数据,即平面上 n个点个点(xi,yi)i=1,n,寻求一个函数(曲线)寻求一个函数(曲线)y=f(x),使使 f(x)在某种准则下与所有在某种准则下与所有数据点最为接近,即曲线拟合得最好。数据点最为接近,即曲线拟合得最好。+xyy=f(x)(xi,yi)i i 为点为点(xi,yi)与与曲线曲线 y=f(x)的距离的距离拟合与插值的关系拟合与插值的关系 函数插值与曲线拟合都是要根据一组数据构造一个函数作函数插值与曲线拟合都是要根据一组数据构造一个函数作为近似,由于近似的要求不同,二者的数学方法上是完全不同为近似,由于近似的要求不同,二者的数学方法上是完全不同的。的。实例:实例:下面数据是某次实验所得,希望得到X和 f之间的关系?问题:问题:给定一批数据点,需确定满足特定要求的曲线或曲面解决方案:解决方案:若不要求曲线(面)通过所有数据点,而是要求它反映对象整体的变化趋势,这就是数据拟合数据拟合,又称曲线拟合或曲面拟合。若要求所求曲线(面)通过所给所有数据点,就是插值问题插值问题;最临近插值、线性插值、样条插值与曲线拟合结果:最临近插值、线性插值、样条插值与曲线拟合结果:线性最小二乘拟合线性最小二乘拟合 f(x)=a1r1(x)+amrm(x)中函数中函数rr1 1(x),r(x),rm m(x)(x)的选取的选取 1.1.通过机理分析建立数学模型来确定通过机理分析建立数学模型来确定 f(x)f(x);+f=a1+a2xf=a1+a2x+a3x2f=a1+a2x+a3x2f=a1+a2/xf=aebxf=ae-bx 2.2.将数据将数据 (xi,yi)i=1,n 作图,通过直观判断确定作图,通过直观判断确定 f(x):拟合多项式clc;clear;x=1:12;fx=12 234 34-1 34 2 5 23 34 9 45 23;xi=1:0.2:12;y=polyfit(x,fx,11)%对于所给数据x,fx对,计算11阶拟合多项式的系数yz=polyval(y,xi);%求多项式值plot(x,fx,O,xi,z)多项式的向量表示结果y=1.0e+004*Columns 1 through 7-0.0000 0.0000 -0.0001 0.0011 -0.0128 0.1017 -0.5499Columns 8 through 12 2.0033 -4.7632 6.9430 -5.4951 1.7733拟合曲线的图形