误差理论与数据处理1.pptx
1先修课程:线性代数、概率论和数理统计、电路理论、线性代数、概率论和数理统计、电路理论、电子电工实验等电子电工实验等.课程目标:对误差理论体系有一个全面的把握;掌握误差对误差理论体系有一个全面的把握;掌握误差的概念、性质及分类方法;通过对固定量测量数据的概念、性质及分类方法;通过对固定量测量数据的处理学习误差处理的基本方法;能利用最小二乘的处理学习误差处理的基本方法;能利用最小二乘法进行参数估计。掌握线性回归方法处理测量数据;法进行参数估计。掌握线性回归方法处理测量数据;能将以上理论运用于具体测量实践。能将以上理论运用于具体测量实践。教材误差理论与数据处理误差理论与数据处理(第(第6 6版)版)费业泰等费业泰等 机械工业出版社机械工业出版社第1页/共95页门捷列夫(1834-1907)(1834-1907)科学始于测量,没有测量,便没有精密的科学。门捷列夫研究误差的意义 第2页/共95页钱学森信息技术包括测量技术、计算机技术和通信技术,测量技术是信息技术的关键和基础。钱学森(1911-)研究误差的意义 第3页/共95页4第一章第一章 绪论绪论1、研究误差的意义2、误差的基本概念3、误差与精度4、有效数字与数据运算第4页/共95页5第一章第一章 绪论绪论第一节 研究误差的意义第二节误差的基本概念 误差的定义误差的分类误差的来源第5页/共95页6误差 绝对误差相对误差粗大误差系统误差随机误差表示形式性质特点误差测得值真值一、误差的定义及表示法 第6页/共95页7引用误差(Fiducial Error of a Measuring Instrument)定义 该标称范围(或量程)上限 最大引用误差 仪器某标称刻度值处的绝对误差 引用误差是一种相对误差,而且该相对误差是引用了特定值,又称为引用相对误差。最大引用误差:引用标称范围上限(或量程)得到的,故该误差又满度误差。最大引用误差:被用来确定仪表的等级精度仪器标称范围(或量程)内的最大绝对误差 第7页/共95页8主要来源 测量方法误差测量装置误差测量环境误差测量人员误差 二、误差的来源 误差的起因:测量过程中,由于实验方法和实验设备的不完善,周围环境的影响,人们认识能力所限,实验所得数据和被测量的真值之间存在差异。第8页/共95页9三、误差分类 系统误差(Systematic Error)在重复性条件下,对同一被测量进行无限多次测量所得结果的平均值与被测量的真值之差。定义特征 在相同条件下,多次测量同一量值时,该误差的绝对值和符号保持不变,或者在条件改变时,按某一确定规律变化的误差。第9页/共95页10按对误差掌握程度,系统误差可分为 误差绝对值和符号已经明确的系统误差。已定系统误差:例:直尺的刻度值误差 误差绝对值和符号未能确定的系统误差,但通常估计出误差范围。未定系统误差:按误差出现规律,系统误差可分为 误差绝对值和符号固定不变的系统误差。不变系统误差:误差绝对值和符号变化的系统误差。按其变化规律,可分为线性系统误差、周期性系统误差和复杂规律系统误差。变化系统误差:第10页/共95页11随机误差(Random Error)测得值与在重复性条件下对同一被测量进行无限多次测量结果的平均值之差。又称为偶然误差。定义特征 在相同测量条件下,多次测量同一量值时,绝对值和符号以不可预定方式变化的误差。产生原因实验条件的偶然性微小变化,如温度波动、噪声干扰、电磁场微变、电源电压的随机起伏、地面振动等。随机误差的大小、方向均随机不定,不可预见,不可修正。大量的重复测量可以发现,它是遵循某种统计规律的。因此,可以用概率统计的方法处理含有随机误差的数据,对随机误差的总体大小及分布做出估计,并采取适当措施减小随机误差对测量结果的影响。随机误差的性质第11页/共95页12粗大误差(Gross Error)指明显超出统计规律预期值的误差。又称为疏忽误差、过失误差或简称粗差。定义产生原因某些偶尔突发性的异常因素或疏忽所致。测量方法不当或错误,测量操作疏忽和失误(如未按规程操作、读错读数或单位、记录或计算错误等)测量条件的突然变化(如电源电压突然增高或降低、雷电干扰、机械冲击和振动等)。由于该误差很大,明显歪曲了测量结果。故应按照一定的准则进行判别,将含有粗大误差的测量数据(称为坏值或异常值)予以剔除。第12页/共95页13三类误差的关系及其对测得值的影响 标准差期望值 均值 某次测得值 奇异值 系统误差和随机误差的定义是科学严谨,不能混淆的。但在测量实践中,由于误差划分的人为性和条件性,使得他们并不是一成不变的,在一定条件下可以相互转化。也就是说一个具体误差究竟属于哪一类,应根据所考察的实际问题和具体条件,经分析和实验后确定。第13页/共95页14第三节误差与精度 测量结果中系统误差的影响程度准确度(Correctness)测量结果中随机误差的影响程度精密度(Precision)精确度(Accuracy)表示测量结果与被测量真值之间的一致程度。就误差分析而言,精确度是测量结果中系统误差和随机误差的综合,误差大,则精确度低,误差小,则精确度高。精确度(精度)在数值上一般多用相对误差来表示,但不用百分数。如某一测量结果的相对误差为0.001%,则其精度为10-5。第14页/共95页15准确度、精密度和精确度三者之间的关系弹着点全部在靶上,但分散。相当于系统误差小而随机误差大,即精密度低,准确度高。弹着点集中,但偏向一方,命中率不高。相当于系统误差大而随机误差小,即精密度高,准确度低。弹着点集中靶心。相当于系统误差与随机误差均小,即精密度、准确度都高,从而精确度高。第15页/共95页16第四节有效数字与数据运算 一、有效数字 测量精度有限 最末一位有效数字应与测量精度同一量级可靠数字+一位存疑数字=有效数字 有效位数是该数中有效数字的个数。指从该数左方第一个非零数字算起到最末一个数字(包括零)的个数,它不取决于小数点的位置。例如:3.14(3位)0.0032(2位)0.00320(3位)3.143.210-33.2010-3正确表示:(20.53 0.01)mm(20.534 0.042)mm第16页/共95页17二、数字舍入规则 计算和测量过程中,对很多位的近似数进行取舍时,应按照下述原则进行凑整:1.若舍去部分的数值,大于保留部分末位的半个单位,则末位数加1。2.若舍去部分的数值,小于保留部分末位的半个单位,则末位数减1。3.若舍去部分的数值,等于保留部分末位的半个单位,则末位凑成偶数,即当末位为偶数时则末位不变,当末位是奇数时则末位加1。第17页/共95页18三、数字运算规则 1.在近似数运算时,为了保证最后结果有尽可能高的精度,所有残余运算的数字,在有效数字后可多保留一维数字作为参考数字(或称为安全数字)。2.在近似数做加减运算时,各运算数据以小数位数最少的数据位数为准,其余各数据可多取一位小数,但最后结果应与小数位数最少的数据小数位相同。3.在近似数乘除运算时,各运算数据以有效位数最少的数据位数为准,其余各数据可多取一位有效数,但最后结果应与有效位数最少的数据位数相同。4.在近似数平方或开方运算时,近似数的选取与乘除运算相同。5.在对数运算时,n位有效数字的数据应该用n位对数表,或用(n+1)位对数表,以免损失精度。6.三角函数运算时,所取函数值的位数应随角度误差的减小而增多第18页/共95页19第二章第二章 误差的基本性质与处理误差的基本性质与处理第一节 随机误差第二节 系统误差第三节 粗大误差第四节 测量结果的数据处理实例第19页/共95页20第一节 随机误差 一、随机误差产生的原因 二、随机误差的分布及其特性 三、算术平均值 四、测量的标准差 五、测量的极限误差 六、不等精度测量 七、随机误差的其他分布 第20页/共95页21一.随机误差的产生原因 误差的出现没有确定的规律 统计规律 二.正态分布第21页/共95页22三.算术平均值 设 为n次测量所得的值,则算术平均值 为:式中:第 个测得值,1,2,n;的残余误差(简称残差)。随机误差:第22页/共95页23正态分布的随机误差分布密度1.单次测量的标准差四.测量的标准差(Bessel公式)2.测量列算术平均值的标准差第23页/共95页24五.测量的极限误差1.单次测量的极限误差t:置信系数;P:置信概率或置信水平2.算术平均值的极限误差第24页/共95页251.权的概念 各个测量结果的可靠程度六.不等精度测量2.权的确定方法最简单确定权的方法:按测量的次数确定权。前提:测量条件和测量水平皆相同。结论:每组测量结果的权与其相应的标准差平方成反比。第25页/共95页26 3.加权算术平均值加权算术平均值4.单位权概念 若将不等精度测量的各组测量结果 皆乘以自身权数的平方根 ,此时得到的新值 的权数就为1。第26页/共95页27用 代替 代入等精度测量的公式得:加权算术平均值的标准差:等精度测量列的残余误差等精度测量列的测量结果 已知各组测量结果的残余误差为:,将各组 单位权化得:加权单次测量的标准差:5.加权算术平均值的标准差第27页/共95页28七.随机误差的其他分布 正态分布是随机误差最普遍的一种分布规律,但不是唯一的分布规律。几种常见的非正态分布:1.均匀分布2.反正弦分布3.三角形分布4.分布5.分布 6.分布第28页/共95页29第二节 系统误差随机误差处理方法的前提:测量数据中不含有系统误差实际情况:系统误差与随机误差同时存在研究系统误差的特征与规律性,找出产生系统误差的原因,提出减加或消除系统误差的方法 给出科学结论一 系统误差产生的原因二 系统误差的特征三 系统误差的发现四 系统误差的减小和消除第29页/共95页30 系统误差是有固定不变的或按确定规律变化的因素造成,这些因素是可以掌握的。测量装置方面的因素 环境方面的因素 测量方法的因素 测量人员的因素计量校准后发现的偏差、仪器设计原理缺陷、仪器制造和安装的不正确等。测量时的实际温度对标准温度的偏差、测量过程中的温度、湿度按一定规律变化的误差等。采用近似的测量方法或计算公式引起的误差等。测量人员固有的测量习性引起的误差等。一 系统误差产生的原因第30页/共95页31二 系统误差的特征在同一条件下,多次测量同一量值时,误差的绝对值和符号保持不变,或者在条件改变时,误差按一定规律变化。1 不变的系统误差2 线性变化的系统误差3 周期性变化的系统误差4 复杂规律变化的系统误差第31页/共95页32三 系统误差的发现第32页/共95页33四 系统误差的减小和消除(一)消误差源法(二)加修正值法(三)改进测量方法 (一)消误差源法:所用基准件、标准件是否准确可靠;所用量具仪器是否处于正常工作状态,是否经过检定;仪器的调整、测件的安装定位和支承装卡是否正确合理;所采用的测量方法和计算方法是否正确,有无理论误差;测量的环境条件是否符合规定要求,如温度、振动、尘污、气流等;注意避免测量人员带入主观误差如视差、视力疲劳、注意力不集中等。(二)加修正值法第33页/共95页34(三)改进测量方法 1、消除恒定系统误差的方法 抵消或反向补偿法丝杠与螺母间的配合间隙等因素引起的定回误差,往往采用往返两个方向的两次读数取均值作为测量结果 代替法:代替法的实质是在测量装置上对被测量测量后不改变测量条件,立即用一个标准量代替被测量,测量差值 被测量标准差差值 交换法:这种方法是根据误差产生原因,将某些条件交换,以消除系统误差。第34页/共95页352、消除线性系统误差的方法对称法 例如测定量块平面平行性时(见图2-20),先以标准量块A的中心0点对零,然后按图中所示被检量块B上的顺序逐点检定,再按相反顺序进行检定,取正反两次读数的平均值作为各点的测得值,就可消除因温度变化而产生的线性系统误差。第35页/共95页363、消除周期性系统误差的方法半周期法第36页/共95页37第三节 粗大误差粗大误差的数值比较大,它会对测量结果产生明显的歪曲,一旦发现含有粗大误差的测量值,应将其从测量结果中剔除一 粗大误差的产生原因1测量人员的主观原因2客观外界条件的原因二 防止与消除粗大误差的方法1避免人为因素的影响,反复多次检查2尽量采用自动化数采系统3加强本底环境监测第37页/共95页38三 判别粗大误差的准则1 准则 测量次数充分大若 则可以认为它含有粗大误差2 t检验准则(罗曼诺夫斯基准则)当测量次数较少时,按 t 分布的实验误差分布范围来判别粗大误差较为合理.特点:首先剔除一个可疑的测量值,然后按t分布检验被剔除的测量值是否含有粗大误差.第38页/共95页39第三章 误差的合成与分配第一节 函数误差第二节 随机误差的合成第三节 系统误差的合成第四节 系统误差与随机误差的合成第五节 误差分配第六节 微小误差取舍准则第七节 最佳测量方案的确定第39页/共95页40 任何测量结果都包含有一定的测量误差,这是测量过程中各环节一系列误差因素共同作用的结果。正确分析与综合这些误差因素,并正确地表述这些误差的综合影响。第一节 函数误差 间接测量:通过直接测量与被测的量之间有一定函数关系的其他量,按照已知的函数关系式计算出被测量。间接测量误差是各直接测量值误差的函数,即函数误差。研究函数误差的实质就是研究误差的传递性的问题。对于这种有确定关系的误差的计算称为误差合成。第40页/共95页41(函数系统误差公式)一.函数系统误差的计算第一节 函数误差二.函数随机误差计算可得:该式即为函数随机误差公式,其中 为第 个测量值和第 个 测量值之间的误差相关系数,为各测量值的误差传递系数。第41页/共95页42若各测量值的随机误差是相互独立的,且当N适当大时,有:则误差公式变为:令(较常使用)第42页/共95页43三.误差间的相关关系和相关系数1.误差间的线性相关关系即线性依赖关系,有强弱之分。2.相关系数由相关系数定义知:式中:误差间的协方差;两误差的标准差。第43页/共95页44第二节 随机误差的合成一.标准差的合成二.极限误差的合成(较常使用)第44页/共95页45一.已定系统误差的合成当 时,有:二.未定系统误差 当各单项未定系统误差均服从正态分布,且 时,极限误差标准差第三节 系统误差的合成第45页/共95页46第四节 系统误差与随机误差的合成一、按极限误差合成设有r个单项已定系统误差 s个单项未定系统误差 q个单项随机误差假设误差传递系数 均为1,则总极限误差为:各个误差间协方差之和第46页/共95页47二按标准差合成s个未定系统误差标准差q个单项随机误差标准差误差传递系数均为1,且各个误差间协方差之和R为0对于多次重复测量:只考虑未定系统误差与随机误差合成问题第47页/共95页48第五节 误差分配单项误差 总误差总误差的允差 各个单项误差综合如:弓高弦长法测大直径D给定直径测量允许极限误差 ,求弓高h和弦长s的测量极限误差已定系统误差通过修正方法消除,则只考虑未定系统误差和随机误差,且这两种误差分配时可同等看待,分配方法完全相同。第48页/共95页49第六节 微小误差取舍准则微小误差:测量过程包含多种误差,有的误差对测量结果总误差影响较小,小到一定程度,计算测量结果总误差可不予考虑。取出部分误差若 ,则 称为微小误差,可从总误差中舍去已知测量结果的标准差为:第49页/共95页50第七节 最佳测量方案的确定 测量结果与多个测量因素有关,采用什么方法确定各个因素,使得测量结果的误差为最小,确定最佳测量方案。函数的标准差为使标准差为最小,确定最佳测量方案,从以下二方面考虑:一 选择最佳函数误差公式二 使误差传递系数等于零或为最小第50页/共95页51第四章:测量不确定度 第四章 测量不确定度第一节 测量不确定度的基本概念第二节 标准不确定度的评定第三节 测量不确定度的合成第四节 测量不确定度应用实例第51页/共95页52第四章:测量不确定度测量不确定度(uncertainty of measurement)是测量结果带有的一个参数,用于表征被测量值的分散性。一个完整的测量结果被测量的最佳估计值分散性参数第一节 测量不确定度的基本概念以分布区间的半宽表示,因此它表示一个区间,强调一个范围。A类评定方法是采用统计分析的方法评定标准不确定度。一、A类评定方法第二节:标准不确定度的评定二、B类评定方法 在很多情况下,我们不能用统计方法来评定标准不确定度,利用其他假设,经验或资料(本次测量以外的其他信息)进行统计分析的B类评定方法。第52页/共95页53第三节:测量不确定度的合成一、合成标准不确定度(combined standard uncertainty)当测量结果受多种因素影响形成了若干个不确定度分量时,测量结果的标准不确定度就用这些分量合成后的合成标准不确定度 表示。一般用下式表示:一般用下式表示:其中,第i个标准不确定度的分量 第i个和第j个标准不确定度分量之间的相关系数 不确定度分量的个数第53页/共95页54二、展伸不确定度(expanded uncertainty)也称为扩展不确定度或范围不确定度。用符号 或 表示。展伸不确定度由合成标准不确定度 乘以包含因子 得到,即 用展伸不确定度作为测量不确定度,则测量结果表示为:三、不确定度的报告第54页/共95页55第四章:测量不确定度 第五章 线性参数的最小二乘法第一节 最小二乘法的原理第二节 正规方程第三节 精度估计第四节 组合测量的最小二乘法处理第55页/共95页5-56第一节最小二乘法原理 最小二乘法的产生是为了解决从一组测量值中寻找最可信赖值的问题。对某量进行测量,得到一组数据 ,不存在系统误差和粗大误差,相互独立,且服从正态分布,其标准差为 测得值落入 的概率 第56页/共95页5-57测得值 同时出现的概率为 最可信赖值满足 权因子 最小二乘法原理 虽然是在正态分布下导出最小二乘法,实际上,按误差或残差平方和为最小进行统计推断已形成一种准则。第57页/共95页0第二节、正规方程组第58页/共95页5-59线性测量方程组线性测量方程组的一般形式为 测量残差方程组 含有随机误差矩阵形式第59页/共95页5-60最小二乘法原理式 求导正规方程组 正规方程组解 不等权正规方程组 第60页/共95页5-61三、标准差的估计 1、直接测量结果的标准差估计(加权)未知量个数方程个数残差2、待求量的标准差估计 直接测量量的标准差对角元素误差传播系数 3、待求量与的相关系数 元素第61页/共95页5-62【例5-】为精密测定1号、2号和3号电容器的电容量,进行了等权、独立、无系统误差的测量。测得1号电容值,2号电容值,1号和3号并联电容值,2号和3号并联电容值。试用最小二乘法求及其标准偏差。【解】列出测量残差方程组 矩阵形式第62页/共95页5-63正规方程组 第63页/共95页5-64正规方程组解 即第64页/共95页5-65标准差的计算代入残差方程组,计算 第65页/共95页5-66第三节非线性参数的最小二乘法测量残差方程组 非线性函数取的初始似值 泰勒展开按线性参数最小二乘法解得 迭代直至满足精度为止第66页/共95页5-67第四节组合测量问题应用举例第67页/共95页5-68【例5-3】要求检定丝纹尺0,1,2,3刻线间的距离。已知用组合测量法测得图所示刻线间隙的各种组合量。试用最小二乘法求及其标准偏差。第68页/共95页5-69计算步骤【解】列出测量残差方程组 第69页/共95页5-70解出即计算结果第70页/共95页5-71代入残差方程组可得 估计的标准差 估计的标准差 第71页/共95页72第四章:测量不确定度 第六章 回 归 分 析 第一节 回归分析的基本概念第二节 一元 线 性 回 归 第三节 两个变量都具有误差映射时线性回归方程的确定 第四节 一元非线性回归 第五节 多 元 线 性 回 归 第72页/共95页 第一节 回归分析的基本概念1.1 函数关系与相关关系 (1)函数关系:能用数学表达式明确变量之间的内在联系和规律的相互关系,即函数关系。(2)相关关系:在实际问题中,影响变量之间的因素实际上是千差万别的,不能简单地决定只由一个或几个影响因数所产生,只能预测估计变量之间的关系,并存在于某一范围之内,这样的变量关系称为相关关系,有时称为“黑箱问题”。如:测量结果的估计值与误差。应该指出,变量之间的函数关系和相关关系并没有严格的界限。实际上由于误差的存在,确定性的关系往往通过相关关系表现出来,并存在一定的不确定变量因素(如:误差),它通常要用实验方法才能确定。第73页/共95页 1.2 回归分析的主要内容回归分析的主要内容 回归分析:是处理变量之间相关关系的一种数理统计方法,是将相关变量之间由生产实践和科学实验得到的变量数据,应用数学方法对大量的实验和观察数据进行处理,从而得到比较符合事物内部变量之间的内部规律的数学表达式的方法。它所涉及到的主要内容如下:(1)从一组数据出发,确定变量之间的数学表达式回归方程或经验公式。(2)对回归方程的可信度进行统计检验。(3)进行因素分析,找出变量之间相互联系或关联的重要因素和次要因素。第74页/共95页第二节一元第二节一元 线线 性性 回回 归归 一一元元回回归方方法法:是通过实验,分析所得到的实验数据,找出两个变量之间的内在相关关系经验公式。一一元元线性性回回归方方法法:是找到两个变量之间满足足线性性规律律的一元回归方法。一元线性回归方程(1 1)回归方程的求法(假假设x x无无测量量误差,差,误差全在差全在y y方向存在方向存在)假设两变量之间一组测量数据 y y、x x 满足如下线性形式性形式或线性数学模型性数学模型:y yt t=0 0+xxt t+t t (t=1,2,N)(t=1,2,N)式中:0 0,为常数或线性系数。t t 分别表示其他随机因素影响 的总和,是一组相互独立,并满足 正态分布N N(0,0,)的随机变量。x xt t 是一组可以精确测量或严格 控制的变量。可是随机变量,也可 是一般变量。第75页/共95页(2)回归方程显著性检验 F 检验法法 检测 x 与 y 的线性关系是否密切,它取决与回归平方和U、残余误差平方和Q的大小,U越大Q越小,则 x 与 y 的线性关系是越密切。通常用 F 检验法进行计量。计算算结果果 F 越大,越大,x 与与 y 的的线性关系是越密切,回性关系是越密切,回归方程方程显著著性越大性越大。一元回归的 F 检验法结果:(3)残余方差与残余标准差 残余方差残余方差:参与平方和Q除以它的自由度vQ所得的商2,是衡量回归方程 y 随机波动量的估计值。(一元回归方程:)第76页/共95页2.3 重复试验情况 用残余误差平方和检验回归方程所做出的“回归方程显著性判断”,只表明相对于其他因素而言,因素 x 的一次项对 y 的影响是主要的,而未告诉是否存在一个或多个其他因素对一次项对 y 的影响程度,从而无无法法肯肯定定的的表表明明 y 和和 x 之之间确确实为线性关系性关系。为了检验一个回归方程是否拟合正确并满足线性条件,可做一些重复性试验,获得误差平方和QE和失拟平方和QL,同样采用F 检验法来法来检验y 和和 x 之之间确确实为线性关系性关系。重复试验的F 检验法法的具体计算方法和过程,再此不作详细的讲解(略)。2.4 回归直线的简便求法 回归分析是以最小二乘法原理为基础,具有所建立的回归直线误差的平方和最小,但是计算相对比较复杂和烦琐。有时在精度要求不高或试验所得的数据线性性较好,这时为了简化计算,可采用下述的简便方法计算回归直线。第77页/共95页 (1)分组法(平均值法)将所测量到的自变量数据(x,y)分成相等或相近的两组数据(xi,yi)和(xj,yj),分别求出两组数据的算术平均值()、(),带入回归线性直线方程 =b0+bx 得以b0、b为未知量的方程组:解这方程组,得到b0、b并带回回归线性直线方程 =b0+bxt,便得到该测量结果的线性直线回归方程。(2)图表法 把测量组的 N 对观察数据在坐标纸上绘出离散点图,在点群之间绘一条直线,使点群的绝大多数点在直线上或接近此直线并均匀分布在直线的两边,便近似地得到测量组的回归直线的简便方法。第78页/共95页第三节第三节 两个变量都具有误差映射时线性回归方程两个变量都具有误差映射时线性回归方程的确定的确定 问题的提出与求解思维方法(1)问题的提出 前面应用最小二乘法原理求得的线性回归方程,是在假设x方向没有误差或存在误差可以忽略不计的条件下,所有误差都归结在y方向而得到的。然而x的测量值存在误差、y的测量值也存在误差,哪如何才能获得x、y之间的线性回归方程呢?(2)求解思维方法:一组测量数据x、y,假设x方向没有误差或存在误差可以忽略不计的条件下,所有误差都归结在y方向,按最小二乘法原理,使 的平方和最小,求得特定参数b0、b,得到线性回归方程。=b0+bx 第79页/共95页 用同一组测量数据x、y,又假设y方向没有误差或存在误差可以忽略不计的条件下,所有误差都归结在x方向,按最小二乘法原理,使 的平方和最小,求得特定参数a0、a,得到 线性回归方程,并转换成 形式的回归直线方程。求解两直线方程 、锐角的某一直线方程 即为测量数据x、y两个方向均存在测量误差的线性直线回归方程,并存在下面四种形式:x方向没有误差或存在误差可以忽略不计的条件下,所有误差都归结在y方向,测量数据的线性直线回归方程为 。y方向没有误差或存在误差可以忽略不计的条件下,所有误差都归结在x方向,测量数据的线性直线回归方程为 。第80页/共95页 x方向和y方向存在的误差大体相当,则可计算两直线方程、锐角的角平分线方程 为测量数据的线性直线回归方程。如果测量数据x、y两个变量中,一个变量存在的测量误差比另一个变量存在的测量误差大,则在两直线方程 、锐角范围内求得的线性直线方程应偏向于误差大的方向,具体偏向多少,应依据测量数据x、y两个方向的误差分配比例而定。注意:随着两个随着两个变量量线性相关性的加性相关性的加强,相关系数越接近于,相关系数越接近于1 1,两条直,两条直线 、越接近;当相关系数越接近;当相关系数为1 1时,两条直,两条直线重重合合。第81页/共95页回归方程的求法 两个变量都存在误差时,比较精确的计算回归方程式回归系数的方法通常采用戴明解法(Deming)。若测量数据组xt,yt分别存在误差t N(0,x),t N(0,y),t=1,2,3,,假设x,y之间存在线性关系,并具有下面的数学模型:yt=0+(xtt)+t 所求的回归方程为:其其中中的 、b0、b 分别为x、y、0、的估计值,为使x、y的 误差在求回归方程式具有等价性,令 ,可写成:其中其中:、。依据戴明(Deming)推广的最小二乘法原理,点(xt,yt)到回归直线 的距离 dt的平方和 为最小条件计算回归系数b0、b 的最佳估计值。第82页/共95页 由点(xt,yt)到回归直线的距离公式,经整理得距离dt为:dt=yt bo bxt 依据最小二乘法原理,为使 最小,求解:;计算得到:从而可得到x方向和y方向均存在误差的线性回归方程:由此可得到x、y的方差估计值:,第83页/共95页第四节第四节 一元非线性回归一元非线性回归 在实际测量问题中,两个变量之间的关系并不是都满足线性关系,可能是某种曲线关系,即:一元非线性关系。要获得这种非线性关系,通常按下面的步骤进行。确定函数类型。求解该相关函数中的未知参数。通常直接应用最小二乘法原理求出非线性回归方程中的未知参数是非常困难的,一般情况下可采用如下两种方法进行。通通过变量量替替换将将非非线性性函函数数转换成成线性性函函数数,用用线性性回回归方方程程的的求求解解方方法法求求出出转换后后线性函数的回性函数的回归方程,在通方程,在通过变量反量反变换求出非求出非线性函数的回性函数的回归方程。方程。将将非非线性性回回归曲曲线方方程程,应用用泰泰勒勒级数数展展开开成成回回归多多项式式来来描描述述两两个个变量量之之间的的关系,把求解曲关系,把求解曲线回回归问题转化成求解多化成求解多项式回式回归问题。第84页/共95页回归曲线函数类型的选取和检验(1)直接判断方法 根据检测对象的特点和相关专业知识,从理论上推导并结合以前处理相近问题的成功经验,确定两个变量之间的函数类型。如化学反映。(2)观察方法 将测量观察得到的数据作图,并与典型曲线(书上图6-6)进行比较,确定属于哪一类函数曲线,再将所选定的函数曲线类型用下述方法进行检验。(3)直线检验方法 当待检验的函数类型中,所含参数不多时,应用此方法检验效果较好。其步骤如下:将预选的回归曲线方程 f(x,y,a,b)=0 写成:Z1=A+BZ2 式中:Z1和Z2是只含一个变量(x 或 y)的函数,A和B是a和b的函数。求出几对与x、y相对应的Z1和Z2值,这几对值与选择x、y值相距较远为好。以Z1和Z2为变量画图,如果所得图形为直线,则证明原先所选定的回归曲线类型是适合的。第85页/共95页(4)表差方法 如果一组试验数据可用1多项式表示,式中含有常数的项多于两个时,可以用表差方法决定回归曲线方程的次数或检验回归方程的次数较为合理。步骤如下:用试验数据绘图。观察试验数据,初步确定试验数据可选函数类型方程(见表6-10)。自图上根据定差x,列出xi,yi各对应值。根据x,y的读出值,计算差值:为第一阶差;为第二阶差;为第三阶差;当方程式的标差(书上表6-10)为常数时,便可决定所选函数类型方程。第86页/共95页化曲线回归问题为直线回归问题 前面所讲到的可用直线检验法或一阶表差法检验的曲线回归方程,都可以通过变量代换转化为直线回归方程,并利用直线回归方程式的确定方法确定研究对象测量数据的回归方程。具体方法:结合例题6-9和作业加以消化。回归曲线方程的效果与精度 求解回归方程的目的在于使所配的曲线与观察数据拟合得更好。因此,在计算回归曲线的剩余平方和Q时,不能用和以及(Q=SU=lyyb lxy)来计算,只能按定义用yt/和 、定义公式Q=计算。(1)回归曲线方程的效果。一般用相关指数R2(R也称相关系数)作为衡量配后曲线的好坏:第87页/共95页第五节第五节 多多 元元 线线 性性 回回 归归 在实际工程和科学实验的许多问题中,多变量之间的试验结果、数学分析与表示问题,可归结为多元回归问题。多元线性回归方程 一个因变量 y 与M个自变量(x1,x2,xM,)之间存在内在的线性关系,通过试验得到N组观察数据:(xt1,xt2,xtM,)。其中:t=1,2,N。由N组观察数据确定的线性方程组的结构形式构形式或数学模型数学模型为:式中:1,2,3,M 是M+1个待估计参数;(x1,x2,xM)是M个可以精确测量或控制的一般变量;(1,2,M)是N个相互独立并服从正态分布的随机变量。第88页/共95页 用矩阵表示,令:Y=;X=;=;=;则有多元回归的矩阵表达形式:Y=X+仍用最小二乘法的估计参数b0,b1,bM作为参数1,2,3,M的估计值,则有回归方程为:依据最小二乘法的原理,全部观察值 yt 与回归值 t 的残余误差平方和最小。有:Q=最小 对于给定的N组观察数据,Q是b0、b1,bM的非负二次式,最小值一定存在,b0、b1,bM 应为下列方程组的解:第89页/共95页 经整理,并写成矩阵形式:(XTX)b=XTY 或 Ab=XTY 式中:A=XTX (6-43)解(6-43)式,得回归方程的估计回归系数 b:b=A-1(XTY)=(XTX)-1XTY (6-44)令:C=A-1=(XTX)-1 有:b=CXTY (6-45)对于于处理多元理多元线性回性回归问题,与,与处理一元回理一元回归问题相似,相似,这里不里不进行行过多的多的讨论。第90页/共95页多元线性回归方程的显著性和精度 一个多元线性回归方程是否更真实反映因变量与自变量之间的客观规律,效果如何,主要靠实践检验。从数学的角度出发,与一元线性回归相似,也可用相应的数理统计的方法进行检验。主要依据是y的总离差平方和S,回归平方和U和残余误差平方和Q的计算结果、以及相应的自由度M,所具有的F检验法计算结果来判定多元线性回归方程的显著特性。计算与F检验法判定如书上表6-18。F检验法的数学统计量计算:同理,多元线性回归方程的预报精度由残余标准差来估计。第91页/共95页每个自变量在多元线性回归中所起的作用 在多元回归方程中,并不是所有的自变量对因变量的影响都是显著的或重要的。在研究实际问题时,我们期望观察和认识到哪些对因变量影响起主要作用的因素,尽可能的去除哪些起次要作用或可有可无的因素,从而进一步简化线性回归方程,利于我们对检测结果的预报和控制。如何观察和认识某一特定自变量因素在总回归方程中起的作用呢?我们可以利用减少或去掉某一自变量因素或某一部分自变量因素,观察回归平方和U的减少量多少,即取消一个自变量后,回归平方和的减少的数值称为y对这个自变量xi的偏回归平方和Pi(Pi=U-U),Pi可用来评价该自变量因素或该部分自变量因素对因变量的影响程度或重要程度。在通常情况下,要直接按定义式(Pi=U-U)来计算偏回归平方和Pi是困难的,可以证明Pi可按下式计算:Pi=bi2/Cii Ci 取消自变量前原回归方程系数矩阵A或L的逆矩阵C或L-1中的相应元素。bi 现回归方程的回归系数。第92页/共95页 但是由于回归方程中各自变量之间可能有着密切关系,即使Pi较小,也不能直接判定自变量对因变量的作用较小,还得用下面的F检验法作进一步的检验,具体方法如下:凡是偏回归平方和Pi大的自变量xi,一定对因变量的影响起重要作用显著;对于偏回归平方和Pi大到什么程度,才影响显著,可对残余平方和Q进行F检验法检验:当FiFa时,则认为自变量xi对因变量y的影响在a水平上显著,即回回归系数系数检验方法。对于偏回归平方和Pi小的自变量xi,并不意味着对因变量y的影响就不显著,但可以肯定所有偏回归平方和Pi最小的自变量xi,对因变量y的影响最小,假如用F检验法检验对该自变量检验结果表明又不显著,则就可以将该自变量剔除,得到新的M-1元回归方程。在新的M-1元回归方程基础上,又重新进行上述步,看是否存在对因变量y的影响最小的自变量xi,若存在则将其剔除;若不存在则所得到的M-n元回归方程为简化后的线性回归方程。第93页/共95页 但是,上述的简化过程在建立新的回归方程中,存在大量的重复计算。因此,若能找到新老回归系数之间的关系,将大大简化计算。可以证明,在剔除某一自变量xi前后,M-1个自变量的新回归系数与M个自变量的原回归系数之间存在如下关系:式中:cii,cij 为原M元回归方程相关矩阵中的元素。例题6-14:。第94页/共95页95感谢您的观看!第95页/共95页