误差理论与数据处理自主学习报告.docx
本科生自主学习报告误差理论与数据处理学生姓名专业学号学院二。一九年五月y = b0 + b式中,为和b为回归方程的回归系数。实际测得值先与这个回归值之差就是剩余误差% =儿一?=儿一坛 一 bxt,t = 12 ,N应用最小二乘法求解回归系数,就是在使剩余误差平方和为最小的条件下求 解回归系数为和b,这种方法我们在第五章中已经熟悉了,用矩阵形式,令那么误差方程的矩阵形式为Y-Xb = V对照= 又,设测得值%的精度相等,那么有b =(xTxy1xTY计算上式的以下矩阵A = XTX = <N£维t=lN 、 % t=lN t蛭c = 4T =-<一 N£2那-八2NN W好t=lNt=lNt=lB =XtY = f N£儿t=l Nt=l将C、B代入第一个式子中,解得为和b可221儿一(£之1%)。之1%) n =NEL%/ 一(2丁吟2Ixx(£占呼)(2屋九)-(港瓦=i式中Nt=lN歹=0 t=lNNiNIxx = W8 I' = W后 2 与¥t=lt=lt=lNN NN%y = W (/一君(九一歹)二W/九一万(W%)t=it=it=it=iNNNGy = 2(儿一为2 = W 婷 4(W %y t=lt=lt=l由此可通过上面的公式来计算b。和b序号x/y/X2/2丫八2/。-2xy/. Q119. 076. 45361.005844.6031452. 55225.078.0625. 006084.0001950. 00330.079. 90900. 006384.0102397. 00436.081.01296. 006561.0002916.00540.082. 301600. 006773.2903292. 00647.083.992209. 007054.3203947. 53750.085. 352500. 007284.6234267. 50247566. 999491.0045985.8520222.58平均值35. 28680. 999(1X1-)2 O / J.5.5 /J. O NL = W 蛭-叱*2 = 775.429 6 t=l"=:%)= 45925.380122N,yy=W窕= 6047)t=l(E之1%。(2匕%) = 20006.6470 N(2匕/)QXi先)=215.9332 N4y = W勺儿一t=ib = = 0.2785。/。bxb0 = y bx = 71.17/2y = 71.17/2 +0.2785 % ) %这说明,温度为零时,电阻为71. 17Q,温度每升高1C,电阻平均增加0. 2785Q o2、回归方程的误差分析及显著性检验回归方程式求出了,但是它是否有实际意义呢?这里有两个问题需要解决: 其一;就是这种求回归直线的方法本身而言,对任何两个变量x和y的一组数据 (xl? yt) , t=l, 2, , N,都可以用最小二乘法给它们拟合一条直线,要知道这条 直线是否基本符合y和x之间的客观规律,这就是回归方程的显著性检验要解决 的问题。其二,由于x与y之间是相关关系,知道了 x值,并不能精确地知道y 值,那么,用回归方程,根据自变量x值预报因变量y值,其效果如何?这就是 回归方程的预报问题。为此,必须对回归问题作进一步分析。先介绍一种常用的 方差分析法,其实质是对N个观测值与其算术平均值之差的平方和进行分解, 将对N个观测值的影响因素从数量上区分开,然后用F检验法对所求回归方程进 行显著性检验。1)回归问题的方差分析观测值门, 丫2,y”之间的差异,是有两方面原因引起的:自变量x取值的 不同,其他因素的影响。为了对回归方程进行检验,首先必须把它们所引起的 变差从y的总变差中分解出来它的方差分析的方法,对N个观测值与其算术平均值之差的平方和进行分 解;从量值上区别对N个观测值的影响因素;用F检验法对所求回归方程进 行显著性检验。N个观测值之间的变差,可用观测值y与其算术平均值歹的离差平方和来表 示,称为总的离差平方和,记作NS = 2(% - 9)2 = lyyt=lvs = N - 1因为s = ZtLi(yt - y)2 = £ 匕 3 - %) +- y)2+ £Ni(%一+ 2 器式九一 %)(% y)10可以证明,交叉项NNNW(九一步)2 = W(% 一 为2 + W(九 一 %)2t=lt=lt=l或者写成S=U+Q其中NU = W(% 一9)2t=lNQ = W(yt-t=l通常U和Q的具体按下式计算NNW(炙一为2 = W(b。+ b%t - b° - bxY t=lt=l=b2- x)2 =之式维一君(0一夕)=b lxyNQ = (yt -yY = s -u = lyy- blxyt=lu一回归平方和,反映总变差中由于X和y的线性关系而引起y变化的部 分。Q剩余平方和,反映所有观测点到回归直线的剩余误差,即其它因素对y 变差的影响。对每个平方和都有一个称为“自由度”的数据跟它相联系。如果总的离差平 方和是由N项组成,其自由度就是NT。如果一个平方和是由几局部相互独立的 平方和组成,那么总的自由度等于个局部自由度之和。正如总的离差平方和组成, 那么总的自由度等于各局部自由度之和,正如总的离差平方和在数值上可以分解回 归平方和与剩余平方和两局部一样,总的离差平方和的自由度氏也等于回归平方 和的自由度力与剩余平方和的自由度气之和,即% = % + vQ在回归问题中,巩=N - 1,而为对应于自变量的个数,因此在一元线性回归问题中勺;=1, Q的自由度% = N-2。2)回归方程的显著性检验11基本思路:方程是否显著取决于U和Q的大小,U越大,Q越小,说明y与 X的线性关系愈密切。计算统计量F:对一元线性回归,应为U/1r =Q/(N - 2)查F分布表,根据给定的显著性a和的自由度1和N-2进行检验:假设F > %oi(l,N 2),回归在0. 01的水平上高度显著。0.05(LN - 2)<F< Fo,oi(LN - 2),回归在 0. 05 的水平上显著。%io(l,N 2)<F< %o5(LN 2),回归在0. 1的水平上显著。F<Fo,io(l,N 2),回归不显著。3)剩余方差与剩余标准差剩余方差:排除了 X对y的线性影响后,衡量y随机波动的特征量。剩余标准差:含义:与。2的意义相似,它可以用来衡量所有随机因素对y的一次性观测的 平均变差的大小,。越小,回归直线的精度越高。当回归方程的稳定性较好时, 。可作为应用回归方程时的精度参数。4)方差分析表把平方和及自由度进行分解的方差分析所有结果可归纳在一个简单的表格中,这种表称为方差分析表。来 源平方和自由度方差F显著性回 归 残 余U-1= Q/(N -2)n u/iF Q/(N-2)Q-N-2总 计s=lyyN-1那么可计算出电阻对温度的回归中,方差分析的结果12来源平方和自由度方差F显著性回归 剩余60. 13710. 0666902.958a =0. 010. 3335总计60. 47063、重复实验情况1)重复试验的意义“回归方程显著”:只说明因素x的一次项对y的影响显著;难以确定影响 y的是否还有其它不可忽略的因素? x和y是否线性?不说明该方程拟合得很好。 为检验一个回归方程拟合的好坏,可通过重复试验,获得误差平方和题和失 拟平方和Ql,然后用Qe对Ql进行F检验。2)重复试验回归直线的求法设取N个实验点,每个实验点都重复m次实验,此时各种平方和及其相应的 自由度可按以下各式计算:S = U + qe + qlVs = Vu + Vi + vEN ms = W W(w %)2, “E = N(m1)t=li=lNu = mW(% 一 9)2,加=1t=lN mQe = W W仇一吊/,Vqe =t=l i=lNQi =租 W(9t 一刃2,1 = N -2t=l当用同求回归直线时,各平方和可按下式顺序计算:U = mblxyQl = mlyy _ UN mQe=WW(3%)2t=l i=lS = U + Qe + Ql13于是,可得来源平方和自由度方差F显著性回归 失拟、口 味差U = mblrvQl = mlyy - UN mQe =%)2t=li=l"u = 1vL = N - 2vE = N(m 1)U/vu Ql/l Qe/ve昨外Qe/veF = QlI、l1 Qe/veFa(yuE) 70小E)总计S = U + Qe + Qlvs = Nm 13)方差检验尸=翳,:判断一元回归方程拟合效果6=般,:判断失拟平方和对试验误差的影响F =u/yu2(Qe+Ql)/(ve+l),:综合判断一元回归方程拟合效果4、回归直线的简便求法1)分组法一平均值法将自变量由小到大次序排列,分成个数(近于)相等的两个组(分组数等于 未知数个数),建立相应观测方程:7i =坛 + bxr *yk =坛 + bxk7fc+i =坛 + bxk+1yN =坛 + bxN(kkW % =岫+ b WNt=k+lt=it=iNW 九=(N - k)bo + bt=k+l五、两个变量都具有误差时线性回归方程确实定1、回归方程的求法一戴明(Deming)解法假设,外分别具有误差&N(0,q),N(0,%), t=l,2,N,假定x, y 之间为线性关系,其数学模型为% = 0o + 6(%t &) + Et所求回归方程为y = bQ + bx14式中,宠、y. b。、b分别为、y,/、夕的估计值。为使、y的误差在求回归方程式具有等价性,令受2/%/=;/ fy,那么 回归方程可写成y z = b()/ + b / 元/式中,b0 / = VAbo, b 7 = VAb根据戴明推广的最小二乘原理,点。力儿/ )到回归直线的垂直距离的平 方和221 dj为最小条件下所求得的回归系数坛、匕是最正确估计值。由解析几何可知,点(维,儿,)到回归直线的距离dj为,/ yj bo,b' Xt VIdt = , dtVi + bz 2 vmF式中,dt = yt _ bo _ bxtX根据最小二乘原理,为使ENidJ为最小,即求解观品人)一侬一 二°至占dj)-Ob- = °J得15变量、y的方差可用下式估计:受=N -21 + Ab22坂2为二丁六、一元非线性回一、求解思路1、确定函数类型并检验。2、求解未知参数。可化曲线回归为直线回归,用最小二乘法求解;可化曲 线回归为多项式回归。二、回归曲线函数类型的选取和检验1、直接判断法2、作图观察法,与典型曲线比拟,确定其属于何种类型,然后检验。3、直线检验法(适用于待求参数不多的情况)a预选回归曲线= 0b、f(x,y,a,b = 0= A + BZ2c、求出几对与x,y相对应的Z1,Z2值d、以Z1,Z2为坐标作图,假设为直线,那么说明原选定的曲线类型是合适的,否那么重新考虑。4、表差法(适用于多项式回归,含有常数项多于两个的情况)a、用试验数据画图;b、确定定差列出xi,yi各对应值;c、根据x,y的读出值作出差值与匕看其是否与确定方程式的标准相符,假设一致,那么说明原选定的曲线类型是合适的。三、化曲线回归为直线回归问题用直线检验法或表差法检验的曲线回归方程都可以通过变量代换转为直线 回归方程,利用线性回归分析方法可求得相应的参数估II值。回归曲线方程的效果与精度:剩余平方和16Q = W(%-汨2t=l剩余标准差可以作为根据回归方程预报y值的精度指标 相关指数t -衡量回归曲线效果好坏的指标七、多元线性回归一、多元线性回归方程假如因变量y与M个自变量%1,上,m的内在联系是线性的,通过试验得到 N组观测数据:那么这批数据的测量方程为:(% =为 + biXn + b2X21 + F bkXkl + %y2 = b0 + bX2 + b2X22 HH bkXk2 + 2(匕=% + brXln + b2X2n + F bkXkn + un式中,仇,瓦,/?2,b”是k+1个待估计参数;%, 112,N是N个相互独立, 服从同一正态分布的随机变量。N(0jO)令总体回归模型n个随机方程的矩阵表达式为y = xp + 1X nnl? Q,pi-_ J_ 2=02 = :OnXILk(/c+i)xl1 X”1 XI2 X21X?2L1 X2Xk2xknx(Z + l)17目录第五章线性测量的参数最小二乘法处理1一、测量数据的精度估计21、等精度测量数据的精度估计22、不等精度测量数据的精度估计3二、最小二乘估计量的精度估计3第六章回归分析5一、函数与相关51 .函数关系52 .相关关系5二、回归分析的主要内容6三、回归分析与最小二乘法的区别7四、一元线性回归71、回归方程72、回归方程的误差分析及显著性检验103、重复实验情况13五、两个变量都具有误差时线性回归方程确实定14六、一元非线性回16一、求解思路16二、回归曲线函数类型的选取和检验16三、化曲线回归为直线回归问题16七、多元线性回归17一、多元线性回归方程17二、回归方程的显著性和精度20三、每个自变量在多元回归中所起的作用21样本回归函数:用来估计总体回归函数匕=庆 + Ban + p2x2i + + BiAi其随机表示式:X = 6o + BiXn + 82X21 + + BkXkt + et9称为残差或剩余项(residuals),可看成是总体回归模型中随机扰动项u1的 近似替代。样本回归函数和样本回归模型的矩阵表达:Y = x8Y = XB8 + e其中:4-?2对于随机抽取的n组观测值:(均为)i = 1,2,,nJ = 0,1,2,北如果样本函数的参数估计值已经得到,那么有:匕=6o + 8Xii + 82X21 + + 8风1(i = l,,n)根据最小二乘原理,参数估计值应该是以下方程组的解(dQ璃dQ拓dQ-=0邨2dQ-=0其中i=i=n2二Z(匕-(瓦 + 自 X” + AX2, + + 瓦XQ) i=l18Q = W(K _ (60 + PlXli + 82X21 T卜 BkXki)2i=l于是得到关于待估参数估计值的正规方程组:“/八八/XZ(o + xu + p2x2i +. + pkxki)=-A + 自 Xu + 62X2, + + 瓦 XQXu = ”,以3。+ 又XQ %x*+ &XGXEYiX2iBXi+BkXki)Xki=wXki正规方程组的矩阵形式:“ 2h XX: zz.z H X X H zxwz72 H :X - zo >1 kAnp Anp :八夕1 %zf122 匕 l 17版 匕I n匕 li211 X X . W22iMX2iW不I )为 XkipolB=庆A-X f Y = 2乂1生即(X' X)8 = x' Y由于x,x满秩,故有6 = (X ' X)TX ' Y将上述过程用矩阵表示如下19寻找一组参数估计值,使得残差平方和最小nQ = We'e =(y-x6)'(y-x6)i=l即求解方程组:U人,人瓦(y-X0)(丫-xs)= 0/ / / / / / / /瓦(y Y - B x Y-Y X6 + 6 X x6) = 0等(y' y - 2y'x6 + 6'x'x6)= ox' y + x' x6 = o得至U:x,y = x,xg于是6 = (X ' X)_" ' Y正规方程组的另一种写法:对于正规方程组X,Y = X,X8将Y = xB + e带入得:X , XR + X ' e = x ' XB于是X/e = 0寸2 G = 0= O j = 12,k上面两个式子是多元线性回归模型正规方程组的另一种写法。二、回归方程的显著性和精度来源平方和臼由度方差F回 归 残 余M U=W(RP)2=2型小 t) = 1MU/MU/M a2Q =一%)2 =lyyutN-M-1 = QN-M-1总C / J - LyyN-120三、每个自变量在多元回归中所起的作用问题:一个回归方程显著,并不意味着每个自变量对因变量y的影响都是重 要的,有些重要,有些次要,如何确定?解决方法:考察偏回归平方和外的F统计量衡量每个自变量为在回归中所起 的作用。偏回归平方和/ b/R = U U / =QiU-M个变量%1,%2,M所引起的回归平方和;U'去除勺后的M-1个变量。用剩余平方和Q对它进行F检验::PJ1当代 > 七(LN - M 一 1)时,那么认为变量修对y的影响在a水平上显著。21第五章线性测量的参数最小二乘法处理测力计示值与测量时的温度t的对应值独立测得如下表所示。t/151821242730F/N43.6143. 6343. 6843.7143. 7443. 78设t无误差,F值随t的变化呈线性关系F = kO + kt,试给出线性方程中系 数左。和k的最小二乘估计及其相应精度。A解:利用正规方程的矩阵形式求解,误差方程丫 = L - AX可写成W r1,21,3%15-18自左 一14 7 02 2 2 31111V2%刀6.%力6-43.61-43.6343.6843.7143.7443.781 1A= 1 1 1 -115-1821242730-可得夕=附 =L屋L = (AtA)-1AtL-K -式中c', 二 (A/A)76135-13561353195所以19453195-135-i35ir i6 J1543.6143.63111111 43.6818 21 24 27 30J 43.7143.7443.7843.43240.01152A 将最正确估计值代入误差方程P = L AX,得43.43240.011520.0048-0.009760.005680.00112-0.003440.002为求出估计量的,k的精度,首先需要给出直接测量所得测量数据的精度。测量数据的精度也以标准差。来表示。因为无法求得。的真值,因而只能依据有限 次的测量结果给出。的估计值6,所谓给出精度估计,实际上是求出估计值6。一、测量数据的精度估计1、等精度测量数据的精度估计对儿进行n次等精度测量,给出。2的估计量。可以证明QX1巧2)"2是自由度 可一血的42变量。因而由此可知,去残差误差平方的平均值作为。2的估计量存2,那么所得户将对有系 统偏移,即将不是M无偏估计量。因为in)所以,可取八2(J作为。2的无偏估计量。因此测量数据的标准差的估计量为一般写成2、不等精度测量数据的精度估计不等精度测量的精度估计与等精度测量数据的精度估计相似,只是公式中的 剩余误差平方和变为加权的剩余误差平方和,那么2 EJUp”/=n t故测量数据的单位权标准差为(J =二、最小二乘估计量的精度估计最小二乘法所确定的估计量%1,%2,,打的精度取决于测量数据的精度和线 性方程组所给出的函数关系。对给定的线性方程组,假设测量数据h。,品 的精度,就可以求最小二乘法估计值的精度。对于等精度测量最小二乘估计量的精度估计,设有正规方程W ail 卜=W ailail X1 + W Q"Qi2 + , + W 五 Xti=lni=lni=lni=lnai2ail X1 + ai2ai2 %2 + l ai2ait xti=li=li=li=l2 ait k = W。江心1 X1 + E aitai2 x2 +f- W Q比Q比 Xti=li=li=li=l(*4)T =dn21利用上述不定乘数,可求得X1 =Ji + 2% + + nln其中:41 = dii0ii + di2a12 HF dltalt"/=1121 + %2a22 + + 源田2t >JL乙g4n = llanl + di2%i2 dltant>由于,1/2,八"为等精度。的相互独立的正态随机变量,那么222+2 + +4力)°2 二 JL JL乙JL / L同理可得xi2 =狐。2。= 12*")那么相应的最小二乘估计值的标准差为GX1 = 00xt = o如)式中,。为测量的数据的标准差。对于不等精度测量的精度估计,经过推导可得:ffxt = 0Vdtt J式中,。为单位权标准差。各不定乘数du,d22f,“由(*P/)T求得:(*PA)T =dii21di2422ditd2t那么根据上面的推导,可得:dn41n222-3195945 L-135 135-63195= qa r = 3.380956d22 = 0.00635可得估计量的标准差为(jko = 0.00647,3.38095 = 0.00119(jkl =(t722 = 0.0 0 6 47V0.00635 = 0.000516第六章回归分析一、函数与相关人们通过实践,发现变量之间的关系可分为两种类型1 .函数关系确定性现象之间的关系常常表现为函数关系,即一种现象的数量确定以后 另一种现象的数量也随之完全确定,表现为一种严格的函数关系。当一个或几个 变量取一定的值时,另一个变量有确定值与之对应,那么称这种关系为确定性的函 数关系,记为y=f(x),其中x称为自变量,y称为因变量。一只股票的成交额与该股票的成交量之间的关系,保持成交价格P不变的情 况下,当股票的成交量X确定后,其成交额丫也随之确定,三者之间的关系是: Y=PXO2 .相关关系事物或现象之间的关系是错综复杂的,但大致可以分为三种情况。第一种是 因果关系,这种关系说明的是事物之间相互依存,互为因果的关系,是事物之间 存在的一种必然关系,即一种引起与被引起的关系,因在前果在后的顺序是不能 颠倒的。第二种是共变关系,例如夏天冷饮的销量和中暑人数的关系。当天气炎 热时,两者都会增加,但通常我们不认为它们之间有什么因果关系。但事实上两 者皆起因于天气炎热的因素,它们之间并没有直接的关系。第三种是相关关系, 即两类现象在开展变化的方向与大小方面存在一定的联系,但不是前面两种关系。具有相关关系的两种现象之间的关系是比拟复杂的,甚至可能包含有暂时甚 至可能包含有暂时尚未认识的因果关系以及共变关系在内。例如,同一组学生的 数学成绩和语文成绩的关系。事物或现象的相关种类可以从方向、形态及变量个数诸多方面划分。1、正相关、负相关和零相关正相关是指两列变量变动方向相同,一列变量由大到小或由小到大变化时, 另一列变量亦由大到小或由小到大变化。如身高与体重,身高越长,体重就越重。负相关是指两列变量变动方向相反,一列变量由大到小或由小到大变化时, 另一列变量反而由小到大或由大到小变化。例如随着计算练习次数增加或练习时 间加长,计算错误就越少等等。零相关是指两列变量之间没有关系,即一列变量变动时,另一列变量作无规 律的变动,又称为无相关。如相貌与人的行为等现象之间的关系,都属于零相关。2、直线相关和曲线相关直线相关是指两列变量中的一列变量在增加(或减少)时,而另一列变量随 之而增加(或减少),或这一列变量在增加时,而另一列变量那么相应地减少。它 们之间存在一种直线关系,或线性相关。直线相关可用直线拟合。曲线相关是指两列伴随相变化的变量,未能形成直线关系。曲线相关有很多 种,不能用曲线拟合。3、完全相关、强相关和弱相关完全相关是指两列变量的关系是一一对应,完全确立的关系。在坐标轴上描 绘两列变量时会形成一条直线。强相关又称高度相关,即当一列变量变化时,与之相应的另一列变量增大(或 减少)的可能性非常大。在坐标图上那么表现为散点图较为集中在某条直线的周围O弱相关又称低度相关,即当一列变量变化时,与之相对应的另一列变量增大 (或减少)的可能性较小。亦即两列变量之间虽然有一定的联系,但联系的紧密 程度较低。在坐标涂上表现出散点比拟分散地分布在某条直线的周围,如图lo二、回归分析的主要内容从一组数据出发,确定某些变量之间的定量关系式,即建立数学模型并估 计其中的未知参数。估计参数的常用方法是最小二乘法。对这些关系式的可信程度进行检验。在许多自变量共同影响着一个因变量的关系中,判断哪个(或哪些)自变 量的影响是显著的,哪些自变量的影响是不显著的,将影响显著的自变量加入模 型中,而剔除影响不显著的变量,通常用逐步回归、向前回归和向后回归等方法。6利用所求的关系式对某一生产过程进行预测或控制。三、回归分析与最小二乘法的区别最小二乘法是基于既定模型对未知参数的一种估计方法,以函数残差和最小 的条件对未知参数进行估计。回归分析包括:建立带有参数的函数模型(即经验公式),通过最小二乘法、 最大似然估计法等方法对模型参数进行估计;讨论有关的点估计、区间估计、假 设检验等问题;通过函数模型进行预测等内容。总而言之,回归分析属于统计推断问题,最小二乘法是一种参数估计方法,在回归分析的模型建立阶段,可选择最小二乘法对参数进行估计。四、一元线性回归确定某段导线的电阻与温度之间的关系:x/19.025.030.036.040.047.050.0Y/Q76. 4578. 0079. 9081.0082. 3083. 9985. 35是找出它们之间的关系,并分析误差。1、回归方程为了研究电阻y与温度x之间的关系,把数据点在坐标纸上,这种图叫散点图。848280787620 25 30 35 40 45 50假设X与y之间的关系为一条直线,设测量数据有如下结构形式:%+0-+ 4 , t = 1,2,N式中,邑,£2,,£可分别表示其它随机因素对电阻值丫1,丫2,Yn影响的总和,一般 假设它们是一组互相独立并服从同一正态分布的随机变量。要求电阻y与x的关 系,即根据测量数据要求出,仇和B的估计值。根据测量数据,可以得到7个测量方 程,结合前面所学,未知数有两个,而方程个数大于未知数的个数,适合于用最 小二乘法求解。设得到的回归方程