《误差ppt第六章精.ppt》由会员分享,可在线阅读,更多相关《误差ppt第六章精.ppt(45页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、误差ppt第六章第1页,本讲稿共45页重点与难点n回归分析的基本概念和主要内容n一元线性回归方程的求法n回归方程的方差分析和显著性检验n一元非线性回归方法 前几章的目的是寻求被测量的最佳值及其精度,本章讨论生产和科学实验中的另一类问题,即测量与数据处理的目的是寻求两个或多个变量之间的内在寻求两个或多个变量之间的内在关系关系;表达变量之间关系的方法有散点图、表格、曲线、数学表达式等,其中数学表达式具有诸多优点,其获得方法是回归分析回归分析。第2页,本讲稿共45页6.1 回归分析的基本概念6.1.1 函数与相关函数与相关(变量间关系分类)1 1 函数关系函数关系(确定性关系)可用明确的函数关系式精
2、确表示的关系。如以速度v匀速运动的物体,走过的距离s与时间t之间,有确定的函数关系。2 2 相关关系相关关系 这些变量之间既存在着密切的关系,又不能由一个(或几个)自变量的数值精确地求出另一个因变量的数值,而是要通过试验和调查研究,才能确定它们之间的关系。如车床上加工零件,零件的加工误差与零件直径之间有一定关系,可大致依据零件直径估计加工误差,但不能精确预知加工误差。结论:结论:该两种变量关系虽类型不同,但无严格界限。(1)因测量误差,函数关系在实际中往往表现为相关关系。(2)对事物内部规律性了解深刻时,相关关系可转化为函数关系。第3页,本讲稿共45页6.1.2 回归分析的主要内容 回归分析(
3、Regression Analysis)是英国生物学家兼统计学家高尔顿(Galton)在1889年出版的自然遗传一书中首先提出的,是处理变量之间相关关系的一种数理统计方法。回归分析回归分析就是应用数学的方法,对大量的观测数据进行处理,从而得出比较符合事物内部规律的数学表达式。由于相关变量之间不存在确定性关系,因此,在生产实践和科学实验所记录的这些变量的数据中,存在着不同程度的差异。回归分析一般思路回归分析一般思路:1 由一组数据确定变量之间的数学表达式回归方程或经验公式。2 对回归方程的可信度进行统计检验。3 因素分析。如找出哪些是主要因素,哪些是次要因素。第4页,本讲稿共45页6.2 一元线
4、性回归 一元回归处理两个变量之间的关系,通过试验,分析所得数据,找出两者的经验公式,若两者之间关系是线性的就称为一元一元线性回归线性回归,即工程上和科研中常遇到的直线拟合问题。6.2.1 一元线性回归方程一元线性回归方程通过例题来讨论这个问题。【例【例6.1】测量某导线在一定温度x下的电阻值y 得如下结果:19.125.030.136.040.046.550.076.3077.8079.7580.8082.3583.9085.101 回归方程的求法回归方程的求法试找出它们之间的内在关系。第5页,本讲稿共45页6.2.1 一元线性回归方程解:解:绘制散点图,从散点图可以看出:电阻与温度大致成线性
5、关系。设测量数据有如下结构形式:表示其它随机因素对电阻值 影响的总和,并假设其相互独立并服从同一正态分布N(0,)。变量x可为随机变量,也可为一般变量,按一般变量处理,即为精确测量或严格控制的变量。故变量y是服从N(0+xt,)的随机变量。式(6-1)就是一元线性回归的数学模型。思路:思路:要求电阻y与x的关系,即根据测量数据要求出 和 的估计值。根据测量数据,可以得到7个测量方程,大于未知数的个数2,适合用最小二乘法求解。散点图:2025 303540 45507678828084(6-1)第6页,本讲稿共45页6.2.1 一元线性回归方程设得到的回归方程:残差方程为:根据最小二乘原理可求得
6、回归系数b0和b。由第5章最小二乘法的矩阵形式,令(6-2)(6-3)则误差方程的矩阵形式为因 ,设测得值 的精度相等,则有(6-4)(6-5)第7页,本讲稿共45页6.2.1 一元线性回归方程可计算得(6-6)(6-7)(6-8)式中后面式子带入验证第8页,本讲稿共45页6.2.1 一元线性回归方程(1)将式(6-8)代入回归直线式(6-2),可得回归直线的另一形式所以,回归直线通过点回归直线通过点 ,这对回归直线的作图非常有益。结论:结论:(2)回归方程的具体计算,通常是通过列表进行的。例6.1的计算参见表6.1、6.2。序序 号号123456719.125.030.136.040.046
7、.550.076.3077.8079.7580.8082.3583.9085.10 364.81 625.00 906.011296.001600.002162.252500.005821.6906052.8406360.0626528.8406781.5227039.2107242.0101457.3301945.0002400.4752908.8003294.0003901.3504255.000246.7566.009454.0745825.97420161.955表表6.1(6-14)第9页,本讲稿共45页6.2.1 一元线性回归方程表表6.2(6-15)由此可得回归方程:第10页,本
8、讲稿共45页式中,、为 、的标准差,为 和 的协方差。回归方程的稳定性回归方程的稳定性是指回归值 的波动大小,波动愈小,回归方程的稳定性愈好。波动大小用标准差 来表示。由随机误差传递公式及回归方程(6-2)得 6.2.1 一元线性回归方程2 回归方程的稳定性回归方程的稳定性(6-16)设为测量数据y的残余标准差,由相关矩阵(6-6)可得(6-17)(6-18)第11页,本讲稿共45页6.2.1 一元线性回归方程可得(6-20)(6-21)(6-19)结论:结论:回归值的波动大小不仅与残余标准差有关,而且与实验次数N及自变量取值范围有关。N越大,范围越小,精度越高。第12页,本讲稿共45页6.2
9、.2 方差分析及显著性检验已求出回归直线,但是是否具有实际意义呢?有两个问题:(1)能否反映y与x之间的客观规律,即显著性检验显著性检验;(2)根据自变量x预报(控制)效果如何,即预报精度预报精度问题。(1)对N个观测值与其算术平均值之差的平方和进行分解;(2)从量值上区别开 对个观测值的影响因素;(3)用F检验法对所求回归方程进行显著性检验。最常用的方法是方差分析法:方差分析法:1 回归问题的方差分析回归问题的方差分析(1)变差:观测值 之间的差异。原因:A、自变量x取值的不同;B、其它因素(包括试验误差)的影响。第13页,本讲稿共45页(2)方差分析总的离差平方和总的离差平方和(即N个观测
10、值与其算术平均值的离差平方和),即(6-22)因6.2.2 方差分析及显著性检验可证明:故:(6-23)第14页,本讲稿共45页其中(6-25)(6-26)U称为回归平方和回归平方和,反映y总的变差中由于x和y的线性关系而引起y变化的部分。因此回归平方和也就是考虑了x与y的线性关系部分在总离差平方和S中所占的成分。Q称为残余平方和残余平方和,即所有观测点距回归直线的残余误差的平方和。反映除x对y线性影响外的一切因素(包括试验误差、x对y的非线性影响以及其它未加控制的因素)对y的变差作用,这部分的变差是考虑x与y的线性关系所不能减少的部分。具体计算U和Q,通常不按上述定义式,而按下式计算:6.2
11、.2 方差分析及显著性检验第15页,本讲稿共45页(6-27)(6-28)对每个平方和都有一个称为“自由度”的数据跟它联系。如果总的离差平方和是由N项组成,其自由度就是(N-1)。如果一个平方和是由几部分相互独立的平方和组成,则总的自由度等于各部分自由度之和。正如总的离差平方和在数值上可以分解成回归平方和回归平方和与残残余平方和余平方和两部分一样,总的离差平方和的自由度也等于回归平方和自由度与残余平方和自由度之和,即(6-29)在回归问题中,对应于自变量的个数,因此在一元线性回归问题中 故Q的自由度为 。6.2.2 方差分析及显著性检验第16页,本讲稿共45页若 ,一般认为回归不显著。若 ,回
12、归在0.1的水平上显著;若 ,回归在0.05的水平上显著;2 回归方程显著性检验回归方程显著性检验 F检验法检验法基本思路:基本思路:方程是否显著取决于U和Q的大小,U越大,Q越小,说明y与x的线性关系愈密切。计算统计量F对一元线性回归查F分布表,根据给定的显著性水平 和已知的自由度1和N-2进行检验:(6-30)(6-31)若 ,回归在0.01的水平上高度显著;6.2.2 方差分析及显著性检验第17页,本讲稿共45页3 残余方差与残余标准差残余方差与残余标准差残余方差残余方差:排除x 对y的线性影响后,衡量y随机波动的特征量。残余标准差残余标准差:(6-32)(6-33)4 方差分析表方差分
13、析表来源来源平方和平方和自由度自由度方差方差 F显著性显著性回归回归残余残余 1 N-2总计总计 N-1 6.2.2 方差分析及显著性检验 越小,回归直线的精度越高。表6.3第18页,本讲稿共45页来源来源平方和平方和/2 2自由度自由度方差方差/2 2F F显著性显著性回归回归残余残余60.5740.25715-0.05141.18103-=0.01-总计总计60.831 6-【例【例6.2】在例6.1电阻对温度的回归中,由表6.2及表6.3可得表6.4的方差分析结果。显著性一栏中的=0.01,表明前面所得的回归方程(6-15)在=0.01水平上显著,即可信赖程度为99%以上,这是高度显著的
14、。表6.46.2.2 方差分析及显著性检验第19页,本讲稿共45页6.2.3 重复试验情况1 重复试验的意义重复试验的意义 “回归方程显著”:只表明相对于其它因素及试验误差来说,因素x的一次项对y的影响是主要的。但并没有告诉我们影响y的是否还有其它不可忽略的因素?x和y是否确实为线性?即并不一定表明该方程拟合得很好该方程拟合得很好。为检验一个回归方程拟合的好坏,可通过重复试验,获得误差平方误差平方和和 和失拟平方和失拟平方和 (反映非线性及其它未加控制的因素的影响),然后用 对 进行F检验,就可确定回归方程拟合的好坏。第20页,本讲稿共45页6.2.3 重复试验情况2 重复试验回归直线的求法重
15、复试验回归直线的求法(1)设N个试验点,每个试验点重复m次试验,则将这m次试验取平均值,然后再按照前面的方法进行拟合。(2)方差分析(6-35)(6-34)(6-36)(6-37)(6-38)第21页,本讲稿共45页6.2.3 重复试验情况来源来源 平方和平方和 自由度自由度 方差方差 F F 显著性显著性回归回归失拟失拟误差误差总计总计(4)方差检验:判断一元回归方程拟合效果:判断失拟平方和对试验误差的影响:综合判断一元回归方程拟合效果(3)方差分析表第22页,本讲稿共45页6.2.3 重复试验情况结论:结论:1 一般情况,重复试验可将误差平方和误差平方和与失拟平方和失拟平方和从残余平方残余
16、平方和和中分离,利于统计分析。2 在精密测试仪器中,失拟平方和失拟平方和及误差平方和误差平方和分别与仪器的原理原理误差误差(定标误差、非线性误差、模型误差)及仪器的随机误差随机误差相对应。3 分析传感器或非电量电测仪器及其它类似需要变换参量的测量仪器精度时,重复试验可分离系统误差与随机误差,并可用回归分析进一步找出仪器的误差方程,对仪器的系统误差进行修正,明显提高仪器的精度。4 重复试验的回归分析利于了解仪器的误差来源和提高仪器精度。5 习惯上,把检验结果显著与不显著说成拟合的好与坏。6 方程拟合的好的真正含义真正含义是失拟平方和相对于误差平方和来讲是不显著的。第23页,本讲稿共45页6.2.
17、4 回归直线的简便求法1 分组法(平均值法)分组法(平均值法)将自变量按由小到大次序排列,分成个数相等或近于相等的两个组(分组数等于未知数个数),则可建立相应的两组观测方程:将两组观测方程分别相加,得b和b0 回归分析以最小二乘为基础,但计算较为复杂,为减少计算,在精度要求不太高或实验数据线性较好的情况下,可采用简便算法:(6-43)特别的N=2k时(6-44)第24页,本讲稿共45页6.2.4 回归直线的简便求法2 图解法(紧绳法)图解法(紧绳法)把N对观测数据画出散点图于坐标纸上,在点群中画一条直线,使得多数点位于直线上或接近此线并均匀分布在直线的两边。这条直线可以近似地作为回归直线,回归
18、系数可直接由图中求得。图解法由于作图时全凭经验画直线,主观性较大,精度较低,但是简单,精度要求不高时经常采用。第25页,本讲稿共45页6.4 一元非线性回归2 求解相关函数中的未知参数。可化曲线回归为直线回归,用最小二乘法求解;可化曲线回归为多项式回归。1 确定函数类型。6.4.1 回归曲线函数类型的选取和检验回归曲线函数类型的选取和检验1 直接判断法直接判断法 根据专业知识,从理论上推导或据以往经验,确定两变量之间的函数类型。2 作图观察法作图观察法 将观测数据作图,与典型曲线比较,确定其属于何种类型,然后检验。实际问题中,有时两变量的内在关系并不是线性关系,而是某种曲线关系,此时可分两步进
19、行:第26页,本讲稿共45页6.4.1 曲线类型选取与检验3 直线检验法直线检验法(适用于待求参数不多的情况)(1)预选回归曲线(2)利用变量代换将 写成(3)求出几对与x,y相对应的Z1,Z2值,以选择x,y值相距较远为好;(4)以Z1,Z2为变量作图,若为直线,则说明原选定的曲线类型是合适的,否则重新考虑。如只有一个或两个参数时,直线检验法效果较好。步骤如下:第27页,本讲稿共45页 4 表差法表差法(适用于多项式回归,含有常数项多于两个的情况)一组试验数据可用一多项式表示,且含有常数的项多于两个,则用表差法确定方程的次数或检验方程的次数较为合理。步骤如下:(1)用试验数据画图;(2)自图
20、上根据定差 ,列出xi,yi各对应值;(3)根据x,y的读出值作出差值 ,看其是否与确定方程式的标准相符,若一致,则说明原选定的曲线类型是合适的。为第一阶差为第二阶差为第三阶差6.4.1 曲线类型选取与检验第28页,本讲稿共45页6.4 一元非线性回归 用直线检验法或一阶表差法检验的曲线回归方程都可以通过变量代换转为直线回归方程,利用线性回归分析方法可求得相应的参数估计值。6.4.3 6.4.3 回归曲线方程的效果与精度回归曲线方程的效果与精度6.4.2 6.4.2 化曲线回归为直线回归问题化曲线回归为直线回归问题剩余平方和 求曲线回归方程的目的是使所配曲线与观测数据拟合的较好,故需要讨论拟合
21、的效果与精度。残余标准差可以作为根据回归方程预报y值的精度指标第29页,本讲稿共45页6.4.3 回归方程的效果与精度相关指数衡量回归曲线效果好坏的指标 R也称相关系数,但它与经过变量代换后的线性相关系数不是一回事。R2或R越接近1,则所配曲线的拟合效果越好。通常,化曲线为直线时,y也进行变换,故所求的回归线不能说明用最小二乘法所配的曲线为最佳拟合曲线。因此必要时采用不同类型函数计算后比较,择其最优者。可比较Q、R中任意一个或多个。变量代换后的直线方程可作显著性检验,反映直线拟合情况,作为曲线拟合效果的参考,但不能确切表明原始变量x与y之间的拟合情况。第30页,本讲稿共45页6.5 多元线性回
22、归 在很多工程技术和科学实验中,常需讨论多变量间试验结果的数学表示,即多元回归分析问题多元回归分析问题。6.5.1 多元线性回归方程多元线性回归方程 设因变量y与另外M个自变量 具有线性的内在联系,通过试验得到N组观测数据:(6.67)则(6.68)是M+1个待估计参数;是M个可精确测量或控制的一般变量;是N个相互独立且服从同一正态分布N(0,)的随机变量。1 全局模型全局模型多元回归数学模型第31页,本讲稿共45页6.5.1 多元线性回归方程研究矩阵形式更为方便,令则多元线性回归的数学模型为(6.69)(6.70)采用最小二乘法估计参数,设 分别为 的最小二乘估计,则回归方程为最小二乘原理可
23、知,使观测值 与估计值 的残差平方和最小,(6.71)第32页,本讲稿共45页6.5.1 多元线性回归方程Q是 的非负式,故最小值一定存在。根据微分学中的极值定理,应是下列方程组的解(6.72)简化为:(6.73)正规方程组第33页,本讲稿共45页6.5.1 多元线性回归方程显然正规方程组系数矩阵为对称矩阵,用A表示则A=XTX,即正规方程组的常数项矩阵B为第34页,本讲稿共45页6.5.1 多元线性回归方程正规方程组的矩阵形式为(6.74)或(6.75)则(6.76)系数矩阵A的逆矩阵可通过行列式法或初等变换法求解。另外,采用计算机求解逆矩阵比较方便。处理多元回归模型主要是计算X、A、B、C
24、、Y五个矩阵:(1)X和Y由观测数据构造,称为结构矩阵结构矩阵;(2)A为正规方程的系数矩阵系数矩阵,也称为信息矩阵信息矩阵;(3)C是正规方程系数矩阵的逆矩阵,也称为相关矩阵相关矩阵;(4)B为正规方程的常数项矩阵常数项矩阵,决定了X与Y的直接联系。第35页,本讲稿共45页6.5.1 多元线性回归方程2 局部域模型局部域模型 在多元线性回归模型中,常用的另一种数据结构式(6.78)相应的回归方程(6.79)其结构矩阵X、常数项矩阵B和系数矩阵A分别为第36页,本讲稿共45页6.5.1 多元线性回归方程令(6.80)所以第37页,本讲稿共45页6.5.1 多元线性回归方程逆矩阵C:回归系数:故
25、优点:优点:(1)常数项回归系数 与 无关;(2)求逆矩阵降低一阶。(6.81)第38页,本讲稿共45页6.5.1 多元线性回归方程该类问题一般计算过程:该类问题一般计算过程:(1)求(2)求(3)求(4)求L-1(5)求回归系数第39页,本讲稿共45页6.5.2 显著性和精度 回归方程是否反映客观规律,主要靠实践来检验。从数学角度,也可用数理统计检验的方法来检验。故需对其进行方差分析。来源平方和自由度方差 F显著性回归残余MN-M-1 U/M总计N-1 回归方程显著性校验可使用残余平方和对回归平方和的F校验(6.85)预报精度由残余标准差估计(6.86)第40页,本讲稿共45页6.5.3 每
26、个变量在多元回归中所起的作用 一个多元回归方程是显著的,并不意味着每个自变量x1,x2,xM对y的影响都是重要的。在实际中,希望考察哪些是影响y的主要因素,哪些是次要因素,剔除次要因素剔除次要因素,简化数学模型,利于对y进行预报和控制。如何考察每个特定因素在总回归所起的作用?回归平方和U是自变量对y变差的影响。(1)考察自变量越多,回归平方和越大。(2)增加与y关系很小的因素,回归平方和增加较小。故若减少一个因素,回归平方和减少越大,则该因素在回归中作用越大。把取消一个自变量 xi 后回归的平方和减少的数值,称为y对该自变量xi 的偏回归平方和偏回归平方和,记为Pi 则(6.87)故利用偏回归
27、平方和偏回归平方和可以衡量每个自变量在回归中所起作用的大小。第41页,本讲稿共45页6.5.3 每个变量在多元回归中所起的作用(6.88)可证明偏回归平方和可按下式计算为原M元回归的正规方程系数矩阵A或L的逆矩阵中的元素;为原M元回归方程的回归系数。一般地,由于各自变量之间可能有密切的相互关系,故不能按偏回归平方和的大小,把回归中的所有自变量对因变量的重要性进行排序。通常按下面的思路进行分析:(1)凡是偏回归平方和大的变量,一定是对y有重要影响的变量。至于大到什么程度才算显著,可用残余平方和Q进行F检验。(6.89)当 时,认为变量 xi 对y的影响在水平上显著,也称为回归系数显著性检验回归系
28、数显著性检验。第42页,本讲稿共45页6.5.3 每个变量在多元回归中所起的作用(2)凡是偏回归平方和小的变量,却并不一定不显著。但偏回归平方和最小的变量,必是对y有影响最小的变量,如果此时变量检验结果又不显著,则可将该变量剔除。重新建立M-1元新的回归方程,计算回归系数及偏回归平方和。其大小会有所改变。由于建立新的回归方程,需重新进行大量计算,促使人们进一步寻求新老回归系数间的关系,以简化计算。可以证明剔出一个变量xi后,M-1个变量的新回归系数 ,与原来的回归系数 之间有如下关系:(6.90)为原M元回归中相关矩阵C的元素。第43页,本讲稿共45页6.5.3 每个变量在多元回归中所起的作用
29、 多元回归不只是解决多元线性回归关系问题,还可解决许多一元非线性回归和多元非线性回归问题。解决非线性关系的最一般方法是直接通过变量代换或者将非线性关系表示为(或展成)幂级数(多项式)再通过变量代换转化为多元线性回归问题。但是它有两个缺点:(1)计算复杂复杂。其计算复杂度随自变量个数增加迅速增加;(2)回归系数间存在相关性相关性。提出一个变量后,需要重新计算。为避免缺点,可采用回归的正交设计方法,对多项式回归可利用正交多项式来配多项式回归的方法。还有一种直接获得“最优”回归方程的方法逐步回归分析逐步回归分析方法方法。逐步回归分析法的基本思想基本思想:在考察的全部因素中,按对y作用的显著程度的大小,取最显著的变量,逐个引入回归方程,对y作用不显著的变量自始至终不引入;已被引入的变量,在引入新变量后若发现其对y的作用不显著,则随时从方程中剔除;直至没有新变量能引入方程,且已引入的变量均不能剔除,则得到最优回归方程。第44页,本讲稿共45页小小 结结 本章主要阐述回归分析的基本概念,并重点介绍一元线性回归、非线性回归和多元线性回归的基本方法,给出回归方程的方差分析和显著性检验。从而使学生掌握回归分析方法的基本原理,学会从实际测量中寻求两个变量和多个变量之间的内在关系。第45页,本讲稿共45页
限制150内