正版2012年的材料科学试验设计课程第2讲(系统误差数据处理)肖林ppt课件.ppt
试验数据的整理2012.12.05一.回顾复习概念(1)残余误差(Residual error),简称残差,也称变差或离差或离均差。测量列的残差之和等于零,通常用残差平方和表示测量列残差的大小,对于有限的n个观察值,残差平方和的自由度为n-1,残差平方和的方差(为消除样本大小的影响),残差平方和除以自由度。也称样本方差或均方(mean square, MS,记为S2)。iivxx 是方差 的无偏估计.2s2标准差(总体量无限大或测量次数n无限大)一.回顾复习概念偏差(Deviation ),等于一个值减去参考值。表示给出值与参考值偏离的程度。通常用偏差平方和衡量测量列的总偏差大小。偏差平方和的方差:偏差平方和除以自由度。当参考值为算术平均值时,偏差平方和即为残差平方和。总偏差平方和各因素形成的偏差平方和相加总偏差平方和各因素形成的偏差平方和相加。回归平方和(或称离回归平方和)表示实测点与回归直线偏离的程度总偏差平方和=回归平方和+残差平方和exniiniiiniiTQQyyyyyyQ211221)()()(4/82小样本标准差小样本标准差已知已知的情形的情形 l 单次测量置信区间半宽度为单次测量置信区间半宽度为 ( )xts ( )/xtsnl n n次测量置信区间半宽度为次测量置信区间半宽度为自由度 ,为样本容量 1nn自由度 ,为测量次数1nn 值可通过查 分布表得到, 为显著水平 tt置信区间置信区间例:测量某批钢材的抗拉强度,由于试验是破坏性的,不可能全部检验,只能抽样试验。测得5个试样的抗拉强度 分别为:798,813,818,820,802(MPa)。试给出该批钢材的抗拉强度试验结果。解:用平均值 作为平均抗拉强度的估计值, 的标准差为若要求90%下的置信水平,查t分布临界值表, t值为2.132,则可将该批钢材的平均抗拉强度的结果报为: 回顾“试验误差分析”误差概念误差概念误差及其不确定度的合误差及其不确定度的合成成随机误差随机误差系统误差系统误差粗大误差粗大误差 (Mistake)误差的传递误差的传递7/82三类误差的关系及其对测得值的影响三类误差的关系及其对测得值的影响 标准差期望值 均值 某次测得值 奇异值 系统误差和随机误差的定义是科学严谨,不能混淆的。f x ( )_33+A.系统误差的定义及分类系统系统误差误差系统误差是在测量中系统误差是在测量中由非偶然因素引起的由非偶然因素引起的,重复测量时其大小,重复测量时其大小恒定不变或者呈某种恒定不变或者呈某种规律性的变化规律性的变化恒值恒值系统误差系统误差线性规律变化系统误差线性规律变化系统误差周期性变化系统误差周期性变化系统误差复杂规律变化系统误差复杂规律变化系统误差 已定系统误差已定系统误差 未定系统误差未定系统误差 其变化其变化规律未规律未被人们被人们掌握掌握系统误差的发现系统误差的发现对测量的物理过程进行分析对实测数据进行统计分析残差观察法 测量数据比较法 秩和法 简单判定准则 残差校核法 实验对比法 准准则则1准准则则2准准则则3准准则则4准准则则5准准则则6准准则则7准准则则8准准则则9准准则则十十判定准则判定准则B.系统误差的发现测量数据比较法测量数据比较法包括两种方法包括两种方法t检验法检验法方差检验法方差检验法方差检验法方差检验法A1x11x12x1mA2x21x22x2mAnxn1xn2xnmmjijixmx11nimjijxmnx11121211)()(xxmxxQniinimjiijT总偏差平方和组间差QA组内差QE) 1(mnfE1 nfA1mnfTEAEAEEAAffFSSfQfQF,22各组间存在着由某个因素显著影响而产生的系统误差实际上在比较实际上在比较Q QA A与与Q QE E之间是否有显著不同,如差别不大,则说明组内之间是否有显著不同,如差别不大,则说明组内残差残差平方和平方和与组间与组间残差平方和残差平方和差异不大,于是可判断没有系统误差。差异不大,于是可判断没有系统误差。C.系统误差的减小和消除系统误差的来源主要有:1)方法误差:由于分析方法本身所造成。如重量分析中沉淀物少量溶解或吸附杂质;容量分析中等差点与滴定终点不完全符合等。2)仪器误差:因仪器本身不够精密所造成。3)试剂误差:来源于试剂或蒸馏水的不纯。4)操作误差:由于每个人掌握操作规程与控制条件常有出入而造成,如不同的操作者对滴定终点颜色变化的判断常会有差别等。 C.系统误差的减小和消除 (一)消误差源法(一)消误差源法 用排除误差源的方法消除系统误差是最理想的方法。用排除误差源的方法消除系统误差是最理想的方法。 从根源上消除系统的误差,要去准确把握测试条件、环境,具体为: (1)在测量的过程中,应尽量选择精确度高的检测方法; (2)对测量过程中可能产生系统误差的环节作仔细的分析,并采取相应措施; (3)对常用分析仪器设备应进行周期定检,以防止仪器精度的降低 (4)作好测试前的准备工作,如仪器零位的调节等; (5)如果外界条件如环境温度,湿度能带来系统误差 ,则应在环境条件较稳定的时候测试; (6)尽可能选用标准方法,标准试剂。(二)加修正值法(二)加修正值法 这种方法是预先将测量器具的系统误差检定出来或计算这种方法是预先将测量器具的系统误差检定出来或计算出来,取与误差大小相同而符号相反的值作为修正值,将测出来,取与误差大小相同而符号相反的值作为修正值,将测得值加上相应的修正值,即可得到不包含该系统误差的测量得值加上相应的修正值,即可得到不包含该系统误差的测量结果。结果。 由于修正值本身也包含有一定的误差,因此用这种方法不由于修正值本身也包含有一定的误差,因此用这种方法不可能将全部系统误差修正掉,总要残留少量的系统误差。由可能将全部系统误差修正掉,总要残留少量的系统误差。由于这些残留的系统误差相对随机误差而言已不明显了,往往于这些残留的系统误差相对随机误差而言已不明显了,往往可以把它们统归成偶然误差来处理。可以把它们统归成偶然误差来处理。 C.系统误差的减小和消除(三)改进测量方法(三)改进测量方法 在测量过程中,根据具体的测量条件和系统误差的在测量过程中,根据具体的测量条件和系统误差的性质,采取一定的技术措施,选择适当的测量方法,使性质,采取一定的技术措施,选择适当的测量方法,使测得值中的系统误差在测量过程中相互抵消而不带入测测得值中的系统误差在测量过程中相互抵消而不带入测量结果之中,从而实现减弱或消除系统误差的目的。量结果之中,从而实现减弱或消除系统误差的目的。(根据系统误差在测量过程中所具有的不同变化特性,将系统误差分为恒定系统误差和可变系统误差两大类。) C.系统误差的减小和消除 1 1、消除恒定系统误差的方法、消除恒定系统误差的方法 1.1 异号法 异号法是通过改变测量中的某些条件,以使两次测量结异号法是通过改变测量中的某些条件,以使两次测量结果中出现的系统误差大小相等而符号相反。因此,当取两果中出现的系统误差大小相等而符号相反。因此,当取两次测量结果的平均值作为测量结果时,可消除系统误差。次测量结果的平均值作为测量结果时,可消除系统误差。1 ixa测得值测得值122iiixxxa2ixa改变测量条件,使误改变测量条件,使误差符号相反测得值差符号相反测得值异号法能完全消除常值系统误差异号法能完全消除常值系统误差1 1、消除恒定系统误差的方法、消除恒定系统误差的方法1.2 交换法交换法 交换法与异号法没有本质上的区别。它是通交换法与异号法没有本质上的区别。它是通过在测量过程中,将某些条件进行交换,借以消过在测量过程中,将某些条件进行交换,借以消除系统误差的方法。除系统误差的方法。1.3 替代法 替代法的实质是在测量后不改变测量条件,替代法的实质是在测量后不改变测量条件,立即用一个标准量替代被测量并放到测量装置上立即用一个标准量替代被测量并放到测量装置上再次进行测量,再次进行测量,从而求出被测量与标准量的差值,从而求出被测量与标准量的差值,即:即: 被测量标准差差值被测量标准差差值 2 2、消除线性系统误差的方法、消除线性系统误差的方法对称法对称法 对称法是消除线性系统误差的有效方法。线性系统误对称法是消除线性系统误差的有效方法。线性系统误差的特点是测量时,误差的大小与测量时间或者测量次数差的特点是测量时,误差的大小与测量时间或者测量次数成线性关系。成线性关系。 在测量时,若选定某点为中心测量定值,并对该点以在测量时,若选定某点为中心测量定值,并对该点以外的测量点作对称安排,然后取各点对称点的两次测量值外的测量点作对称安排,然后取各点对称点的两次测量值的平均值作为测量值,这种方法为对称法。的平均值作为测量值,这种方法为对称法。3 3、消除周期性系统误差的方法、消除周期性系统误差的方法半周期法半周期法 对于周期性误差可以相隔半个周期进行第二次测量,然对于周期性误差可以相隔半个周期进行第二次测量,然后以两次测量的平均值作为测量值,即可以有效地消除周期后以两次测量的平均值作为测量值,即可以有效地消除周期性系统误差,此法称为半周期法。性系统误差,此法称为半周期法。4 4、消除复杂规律变化系统误差的方法、消除复杂规律变化系统误差的方法 通过构造合适的数学模型,进行实验回归统计,对复通过构造合适的数学模型,进行实验回归统计,对复杂规律变化的系统误差进行补偿和修正。杂规律变化的系统误差进行补偿和修正。 二. 试验数据的整理 数据是表达试验结果的最重要方式。 试验数据的整理过程是对所有试验数据进行初步分析,推求所得测量值的代表值。 其任务是研究怎样用有效的的方法收集和使用带随机性影响的数据,正确的判断实验过程的一致性方差、显著性F检验和T检验、可靠性置信区间、有效性试验样本数、变化规律数字拟合回归及解析。二. 试验数据的整理1 有效数据1.1 有效数字与误差限的关系1.2 近似数字的舍入规则 “四舍六入五留双”1.3有效数字的运算规则 试验数据的整理2 异常试验数据的剔除方法 在试验和测试结束后,首要的任务是判断是否有异常数据。 用统计检验方法将不属于总体的异常值判断出来并舍去的过程。 粗大误差2.1 拉依达准则 (Pauta criterion)2.2格拉布斯准则 (Grubbs criterion)2.3迪克逊准则 (Dixon criterion). 拉伊达准则检验步骤:1)计算包括可疑值在内的样本平均值和方差2)计算可疑值与平均值的差的绝对值D3)将D与S比较,如果D大于S的三倍,D3S,则舍弃该可疑值。例题: 测量某氮化层厚度,得到的一组数据是0.128,0.129,0.133,0.135,0.138,0.141,0.142,0.145,0.148,0.167(),其中偏离较大的0.167是否应该舍弃?解: 计算x平均值, = 0.140 和 S= 0.01116, 计算绝对值D: D=0.167-0.140=0.027 3S=0.033,D=0.027 3S 故0.167不应舍弃。 在实际应用中,较为精密的场合可选用二、三种准则同时判断,若一致认为应当剔除时,则可以比较放心地剔除;当几种方法的判定结果有矛盾时,则应当慎重考虑,通常选择,且在可剔与不可剔时,一般以不剔除为妥。试验数据的整理3 测量结果的最佳值3.1算术平均值 用于等精度测量3.2加权平均值 权重因子是一个与测量值的方差成反比的量,简称“权”(Weight) 适用于非等精度测量 权数P是表示处理数据中各数据相对重要程度的指标。精度高的数据误差小、可靠性高、在处理结果中占的地位重要,所以精度高的数据权数大。反之,权数则小。 加权平均值举例说明,下面是一个同学的某一科的考试成绩: 平时测验 80, 期中 90, 期末 95学校规定的科目成绩的计算方式是:平时测验占 20%; 期中成绩占 30%;期末成绩占 50%;这里,每个成绩所占的比重叫做权数或权重。那么,加权平均值 = 80*20% + 90*30% + 95*50% = 90.5算数平均值 = (80 + 90 + 95)/3 = 88.3 确定权数的几种方法:根据经验确定: 用于测量数据不附带任何确定权数的依据,如不标明测量误差或测量次数时。权数分为四等:对粗糙或者错误的测量结果权数定为0;较不可靠的测量结果权数定为1;好的测量结果定为2;更好的测量结果定为3。根据测量次数确定: 用于对于等精度测量,由于测量次数不同而使得测量结果是不等结果时。这种数据的不同完全取决于测量次数的不同,所以可以直接把测量次数当做权数。根据数据的精度参数确定 加权算术平均值的计算加权算术平均值的计算 式中, 就是不等精度测量的测得值;而p1,p2,pm为相应的权数。,21mxxxn, 测量次数试验数据的整理5 测量结果的数字表达 最佳值、最佳值的误差区间、标出区间的置信度6 测量结果的表格表示7测量结果的图形表示 标绘代表点:代表点除了要表示数据的准确数值外,还要表示数据的精度,因此代表点符号的大小应与观测值的精度相当。(矩形、三角形、叉号、圆、I 字形)民谣:丢失一个钉子,坏了一只蹄铁;坏了一只蹄铁,折了一匹战马;折了一匹战马,伤了一位骑士;伤了一位骑士,输了一场战斗;输了一场战斗,亡了一个帝国。误差的传递误差的传递第三讲第三讲试验抽样方案的设计试验抽样方案的设计【第三周(第三周(12月月12日)日)】 刘丽,肖茜,周莹,柳刚,张书婷刘丽,肖茜,周莹,柳刚,张书婷稳健处理的步骤稳健处理的步骤一组测量数据,按从大到小顺序排列为 12,.,nx xx12,.,nx xx1计算数据的标准差 s2判别可疑数据 0iixxkk s 010,0.6,3nkk010,0.7,1nkkn3 3 测量数据的测量数据的稳健稳健处理处理3求截尾均值。0.1 10.12nninxxnn 有可疑有可疑 常取0 无可疑无可疑 不截尾,即常规的算术平均值 4标准差估计 2 1()(2)nnins xn nn2()( )1iixxs xs xn nn 有可疑 无可疑 只修正,不剔除只修正,不剔除例题:重复测量某电阻共10次,其数据如下: 10.0003, 10.0004, 10.0004, 10.0005, 10.0005, 10.0005, 10.0006, 10.0006, 10.0007, 10.0012。试分别用粗差准则和稳健算法处理测量结果(显著性水平=0.05) 解:解:采用狄克逊准则计算结果计算统计量查表(0.05,10)0.530D1091110221119110.0012 10.00070.62510.0012 10.000410.0004 10.00030.2510.0007 10.0003xxrxxxxrxx 111111,(0.05,10)rrrD故根据狄克逊准则数据中为异常值。 1010.0012x 计算0.00025s 查表(0.05,10)2.18G100.00063(0.05,10)2.18 0.000250.00055vGs故按格拉布斯准则应剔除 10 x10.00057x 采用格拉布斯准则计算结果采用格拉布斯准则计算结果稳健估计稳健估计来处理数据来处理数据00.6,3kk10n 取100.000630.6 30.00045s 因故可疑 1010.0012x 920.110.00054102 (0.1 10)iixx 9220.1()0.0000310 102 (0.1 10)iis x