2,实验数据处理.ppt
2 实验数据处理实验数据处理材料学院材料学院 武建军武建军 前一页 休息l在自然界中,有很多的现象是不能用我们以前所学的知识所能解决的研究动机l比如我们在耐液锌蚀腐蚀合金研究过程中,它是由许多种元素配合,再通过高温熔炼而成。可以用多少种成份来配料,熔炼温度需要多高,后续如何处理?这些往往都是未知数。而且没有一定的规律可言。那就需要我们进行大量的试验来寻找它的配方及烧制温度。前一页 休息l在实验过程中将要利用各种方法对样品进行分析测试,产生许多测量数据。l按测量值获得的方法分为:直接测量、间接测量和组合测量l直接测量:如用米尺测量长度l间接测量:利用直接测量结果,根据特定关系计算特定物理量,如晶面间距测量l组合测量:测量长宽,计算面积 前一页 休息第二章第二章 实验数据处理实验数据处理 l在自然科学领域,常用函数表达变量之间的数量关在自然科学领域,常用函数表达变量之间的数量关系系例如扩散层厚度与时间的关系,利用公式便于分析规律l如何利用有限的实验数据拟合出一个近似公式如何利用有限的实验数据拟合出一个近似公式,这这就是参数拟合问题。就是参数拟合问题。确定参数的方法主要有最小二乘法和最大似然法。l如要判断一组数据是否在某个精度范围内与理论公如要判断一组数据是否在某个精度范围内与理论公式一致式一致,就是假设检验问题。就是假设检验问题。l采用代数多项式来表示复杂的函数采用代数多项式来表示复杂的函数,可用插值法可用插值法 前一页 休息2.1 2.1 误差理论简介误差理论简介 l误差的含义误差的含义绝对误差相对误差l置信区间置信区间贝叶斯理论区间估计l不同分布样本的区间估计不同分布样本的区间估计 前一页 休息一、误差的含义一、误差的含义l可以通过一定的试验测试或运算用估可以通过一定的试验测试或运算用估计值表示理论值的近似值。试验值计值表示理论值的近似值。试验值(估计值)与理论值(真值)之间的(估计值)与理论值(真值)之间的差值称绝对误差,简称误差。差值称绝对误差,简称误差。l真值往往很难得到,因而误差的绝对真值往往很难得到,因而误差的绝对值也是无法知道的。但是根据测量工值也是无法知道的。但是根据测量工具或计算情况可以估计误差值上限或具或计算情况可以估计误差值上限或估计值的精确程度。估计值的精确程度。前一页 休息相对误差相对误差l误差限的大小还不能完全表示近似值误差限的大小还不能完全表示近似值的好坏,如的好坏,如101101与与1000510005两个量,两个量,虽然前者绝对误差较小,但是显然后虽然前者绝对误差较小,但是显然后者更精确。者更精确。l所以除了考虑误差的大小以外,还应所以除了考虑误差的大小以外,还应考虑准确值本身的大小,误差与准确考虑准确值本身的大小,误差与准确值的比值称为近似值的相对误差。值的比值称为近似值的相对误差。前一页 休息系统误差与随机误差系统误差与随机误差l系统误差系统误差 由于某种原因所产生,并遵循一定的规由于某种原因所产生,并遵循一定的规律进行变化律进行变化.例如,随样品或试剂用量的大小按比例如,随样品或试剂用量的大小按比例进行变化例进行变化.l系统误差有一定的指向,系统误差有一定的指向,例如称量一种吸湿性物质,例如称量一种吸湿性物质,其误差总是正值其误差总是正值.它属于方法和技术问题,知道了它属于方法和技术问题,知道了产生的原因,便可消除或修正,所以此种误差也称产生的原因,便可消除或修正,所以此种误差也称可定误差可定误差.l随机误差随机误差 在相同条件下重复多次测定同一物理在相同条件下重复多次测定同一物理量时,误差大小或正负变化纯属偶然而毫无规律,量时,误差大小或正负变化纯属偶然而毫无规律,这种误差称为随机误差,也叫偶然误差这种误差称为随机误差,也叫偶然误差.前一页 休息系统误差的特点l重现性l单向性l数值基本恒定l系统误差可以校正。可用一定的方法消除。前一页 休息随机误差分布随机误差分布l随机误差是不可预测、不可避免的随机误差是不可预测、不可避免的l根据统计理论,随机误差服从高斯分布根据统计理论,随机误差服从高斯分布(正态分布)(正态分布)l随机误差具有随机误差具有单峰性:较小误差出现的几率较大对称性:绝对值相等的正负误差出现的几率相等有界性:大误差出现的几率较低l因此,测量次数较多时,均值会趋于真值因此,测量次数较多时,均值会趋于真值 前一页 休息随机误差的估算随机误差的估算l算术平均误差算术平均误差 用算用算术平均代替真值,术平均代替真值,可以计算绝对误差可以计算绝对误差的平均值。的平均值。l标准误差(方差)标准误差(方差)反映数据偏离真值反映数据偏离真值的分散程度,即均的分散程度,即均值与真值之间的接值与真值之间的接近程度。近程度。前一页 休息几个精度概念几个精度概念l精密度:多次测量结果之间的符合程精密度:多次测量结果之间的符合程度,反映随机误差的大小,重现性度,反映随机误差的大小,重现性l正确度:系统误差的大小正确度:系统误差的大小l准确度:测量值与真值的一致程度,准确度:测量值与真值的一致程度,反映系统误差与随机误差的综合反映系统误差与随机误差的综合 前一页 休息在在热热工工、电电工工仪仪表表中中,正正确确度度等等级级一一般般都都用用引引用用误误差差来来表表示示,通通常常分分为为0.1,0.2,0.5,1.0,1.5,2.5,5.0 七级。七级。例例如如,某某仪仪表表正正确确度度等等级级为为R级级(引引用用误误差差R%),满满量量程程的的刻刻度度为为X,实实际使用时的测量值为际使用时的测量值为 x(x X),),则则 前一页 休息l通过上面的分析,可知为了减少通过上面的分析,可知为了减少仪表测量的误差,提高正确度,仪表测量的误差,提高正确度,应该使仪表尽可能在靠近满量程应该使仪表尽可能在靠近满量程刻度的刻度的2/3以上的区域内使用的原以上的区域内使用的原则。则。前一页 休息提高实验数据准确度的方法 减少系统误差的途径 对照实验 空白实验 校准仪器 校正方法 减少偶然误差的途径 多次测量、取平均值 防范过失!前一页 休息粗大粗大误差误差l粗大误差也称过失误差,是一种不应发生,粗大误差也称过失误差,是一种不应发生,而仅由于粗心、疏忽等引起的误差。而仅由于粗心、疏忽等引起的误差。l往往是由于非正常实验条件或非正常操作往往是由于非正常实验条件或非正常操作所造成的所造成的.如测量时对错了标志如测量时对错了标志,误读了数误读了数码码,实验仪器未达到预想的指标,记录计算实验仪器未达到预想的指标,记录计算错误,加错了试剂等错误,加错了试剂等l粗大误差的数值远大于系统误差和随机误粗大误差的数值远大于系统误差和随机误差,实际上已超出了误差范围差,实际上已超出了误差范围l含有粗差的测量值常称为坏值或异常值含有粗差的测量值常称为坏值或异常值,应应予以剔除予以剔除,否则会影响结果否则会影响结果 前一页 休息坏值剔除坏值剔除l用统计法进行坏值剔除的基本思想是:用统计法进行坏值剔除的基本思想是:给定一显著性水平给定一显著性水平,并确定一门限,并确定一门限值,凡超过这个门限的误差就认为它值,凡超过这个门限的误差就认为它不属于随机误差的范畴,而是粗差,不属于随机误差的范畴,而是粗差,并予以剔除并予以剔除.前一页 休息拉依达拉依达()准则准则l拉依达准则又被简称为拉依达准则又被简称为3准则。由于随准则。由于随机误差服从正态分布规律,因此机误差服从正态分布规律,因此 P|3=99.7l有限次测量误差超过有限次测量误差超过3的几率很小,可的几率很小,可以剔除以剔除l由于实际上由于实际上未知,如果未知,如果 可以剔除,弃真几率很小可以剔除,弃真几率很小 前一页 休息例例某合金导线的电阻值测量次序电阻值/W 测量次序电阻值/W 测量次序电阻值/W140.42940.401740.42240.431040.431840.41340.381140.421940.39440.441240.432040.39540.461340.392140.30640.421440.362240.42740.401540.402340.43840.431640.432440.43 前一页 休息l24个测量值的均值为个测量值的均值为40.41l24个测量值的标准差个测量值的标准差S0.0321l3S0.0963l与平均值偏差最大的是与平均值偏差最大的是21次测量结果次测量结果40.30,偏差,偏差0.11,超过,超过3S,坏值,坏值l去掉该值后,均值去掉该值后,均值40.41,S0.0225l偏差最大(偏差最大(5,14)0.053S,有效,有效 前一页 休息肖维勒准则肖维勒准则l肖维勒认为,在肖维勒认为,在n次测次测量中,某误差可能出现量中,某误差可能出现的次数小于半次时,则的次数小于半次时,则舍去这个误差值。舍去这个误差值。l误差等于或大于误差等于或大于出现出现的相对频数可近似地取的相对频数可近似地取为为1-Pl测量次数为测量次数为n,误差等,误差等于或大于于或大于 出现的次数出现的次数为为n(1-P)S S,即可判断为粗即可判断为粗差差 前一页 休息Chauvenet系数的数值表系数的数值表 n in in i34567891011121.381.531.651.731.801.861.921.962.002.03131415161718192021222.072.102.132.152.172.202.222.242.262.28232425304050751002005002.302.312.332.392.492.582.712.813.023.20 前一页 休息Grubbs准则准则l 格拉布斯格拉布斯(FEGrubbs)准则同样适用于准则同样适用于对同一参数进行重复测量得到的一列测量数对同一参数进行重复测量得到的一列测量数据的处理。据的处理。l这个准则经蒙持卡罗法考验后,认为是最有这个准则经蒙持卡罗法考验后,认为是最有效的判别方法。效的判别方法。l同上,当同上,当 时则认为时则认为xi是含有粗值是含有粗值的坏值,应予剔除的坏值,应予剔除 前一页 休息Grubbs系数数值表系数数值表n n n 0.010.050.010.050.010.05345678910111.151.491.751.912.102.222.322.412.481.151.461.671.821.912.032.112.182.241213141516171819202.552.612.662.702.742.782.822.852.882.292.332.372.412.412.472.502.532.562122232425303540502.912.942.952.993.013.103.183.213.342.582.602.622.642.662.742.812.872.96 前一页 休息t检验法检验法l该准则又可称为罗曼诺夫准则。当测该准则又可称为罗曼诺夫准则。当测量次数较小时,按量次数较小时,按t分布的实际误差分分布的实际误差分布范围来判断粗大误差较为合理。布范围来判断粗大误差较为合理。lt检验准则的原则是:首先剔除一个与检验准则的原则是:首先剔除一个与均值偏离最大的数据,然后对剩余的均值偏离最大的数据,然后对剩余的数据进行统计计算,以判定该次剔除数据进行统计计算,以判定该次剔除是否合理,即判定已被剔除的那个数是否合理,即判定已被剔除的那个数据是否含有粗大误差。据是否含有粗大误差。前一页 休息l在剔除某一数据在剔除某一数据xi后,重新计算均值和方后,重新计算均值和方差,如果时,剔除坏值差,如果时,剔除坏值xil其中其中lT为为t分布,自由度分布,自由度f=n-2 前一页 休息Dixon 准则准则l狄克松狄克松(Dixon)准则采用了极差比的方法,不必求方差。准则采用了极差比的方法,不必求方差。l对于某一等精度重复测量,按测量值的大小排列为对于某一等精度重复测量,按测量值的大小排列为 x1x2xnl如果上述测量值中有含有粗大误差的测量数据,首先值得怀如果上述测量值中有含有粗大误差的测量数据,首先值得怀疑的是疑的是x1、xn。l狄克松首先定义了一个与狄克松首先定义了一个与x1,xn和、和、n有关的极差比统计量有关的极差比统计量f(f的计算公式见表的计算公式见表),如果,如果 f临界值临界值f(a,n)l则认为在显著性水平下,则认为在显著性水平下,x1、xn含有粗大误差,应予以剔除。含有粗大误差,应予以剔除。l 狄克松准则一次能判别两个数据狄克松准则一次能判别两个数据x1,xn,如果这两个数据都如果这两个数据都不含粗大误差,判断结束。不含粗大误差,判断结束。l如果这两个数据中有含粗大误差的数据,则予以剔除。剔除如果这两个数据中有含粗大误差的数据,则予以剔除。剔除后的数据列当做新的数据列,重新进行判断后的数据列当做新的数据列,重新进行判断 前一页 休息 前一页 休息实验结果的表示实验结果的表示l测量结果最常用的表示方式是均值和标准偏差。前测量结果最常用的表示方式是均值和标准偏差。前者表征测试量的大小,后者表征测试的精密度。者表征测试量的大小,后者表征测试的精密度。l与之有关的是有效位的取舍与之有关的是有效位的取舍.所谓有效位是指某种所谓有效位是指某种测量所达到的精度测量所达到的精度.如下列测试值:如下列测试值:10.09,10.11,10.09,10.10和和10.12,其均值为,其均值为10.102,标准偏差为,标准偏差为0.0130.但测试值仅准确到小但测试值仅准确到小数点后面第一位,而第二位为可疑位,故结果的表数点后面第一位,而第二位为可疑位,故结果的表示为:示为:前一页 休息二、置信度与置信区间二、置信度与置信区间l设一未知参数设一未知参数X(例如材料的硬度例如材料的硬度),虽然其虽然其精确值未知,但是可由若干试验值(样本)精确值未知,但是可由若干试验值(样本)估计它在某个范围内。如果有区间估计它在某个范围内。如果有区间x1,x2,对于给定值对于给定值m(0 m1),),X值在值在X1-X2之间出现的概率满足之间出现的概率满足lP(X1XX2)=ml则称随机区间则称随机区间x1,x2是是X的的100m%置信区置信区间,间,X1是置信下限,是置信下限,X2是置信上限,百分是置信上限,百分数数100m%称为置信度。称为置信度。前一页 休息置信区间举例置信区间举例l假如真值为假如真值为XoXo,拟合出参数的值拟合出参数的值XX,XX,意味着在某个概率下意味着在某个概率下,多次测量的多次测量的X X估计值估计值(近似等于近似等于Xo)Xo)可以落在以上范围内。可以落在以上范围内。l如果估计值如果估计值X X服从正态分布服从正态分布,X,X在某范围在某范围(如如XX1 1,X,X2 2 区间区间)选值的概率等于高斯概率密度选值的概率等于高斯概率密度曲线下曲线下X X1 1到到X X2 2的面积。若采用标准误差的面积。若采用标准误差和和测量值测量值X X来表示测得的真值来表示测得的真值XoXo范围范围,则则P(X -Xo X +)0.68P(X-2 Xo X+2)0.95P(X-3 Xo X+3)0.9974l显然,区间越宽,置信度越高。显然,区间越宽,置信度越高。前一页 休息三、不同分布的区间估计三、不同分布的区间估计l1.对于正态分布样本,可以对于正态分布样本,可以用若干样用若干样本平均值估计总体平均值本平均值估计总体平均值 前一页 休息举例举例 前一页 休息例二例二l如果方差未知,可以用样本方差如果方差未知,可以用样本方差s s作为作为总体方差总体方差的近似值,样本均值与整的近似值,样本均值与整体均值之间服从体均值之间服从t t分布分布。前一页 休息例例3l钢中钢中Cr含量的含量的5次次测定结果测定结果(%)为为1.12,1.15,1.11,1.16,1.12。根据。根据这批数据估计这批数据估计Cr的的含量范围含量范围(90%)。l1.10,1.16 前一页 休息normfitlMU估计值估计值,SIGMA估计值估计值,MU区间区间,SIGMA区间区间=normfit(x,alpha)对给定数对给定数据据x,在置信度在置信度100(1-)条件下给出正态条件下给出正态分布参数的无偏估计分布参数的无偏估计 l该函数输入变量最多该函数输入变量最多2个,第个,第2参数参数 的的缺缺省值省值=0.05 对应于置信度对应于置信度90%(双边)或(双边)或95%(单边)。(单边)。l函数的输出值最多可以有函数的输出值最多可以有4个,可以选择前个,可以选择前14个作为输出结果。个作为输出结果。前一页 休息2.0-12.0-1分布参数的估计分布参数的估计 前一页 休息举例举例 前一页 休息binofitlbinofit 对对二项分布数据参数和置信区二项分布数据参数和置信区间估计间估计lbinofit(x,n)对于给定数据对于给定数据 X返回取返回取1的几率的几率 lphat,pci=binofit(x,n,alpha)给出给出极大似然估计值和极大似然估计值和100(1-)%置信区置信区间间 l缺省值缺省值 =0.05 对应于对应于90%置信区间置信区间(双边)或(双边)或95%(单边)。(单边)。前一页 休息3.3.契比雪夫不等式契比雪夫不等式 前一页 休息l变量之间的关系分为两类。一类是确定性变量之间的关系分为两类。一类是确定性关系,如函数关系。另一类是非确定性关关系,如函数关系。另一类是非确定性关系。当自变量系。当自变量x确定以后,因变量确定以后,因变量y并不确并不确定,而是符合一定分布的随机变量。二者定,而是符合一定分布的随机变量。二者的关系可以表示为的关系可以表示为y=f(x)+,l随机项随机项 N(0,1),f(x)是确定函数,称为回是确定函数,称为回归函数。归函数。l回归分析的任务一是根据经验公式、散点回归分析的任务一是根据经验公式、散点图等确定回归函数;还要检验回归函数是图等确定回归函数;还要检验回归函数是否合理;回归的目的是用否合理;回归的目的是用f(x)预测和决策。预测和决策。前一页 休息l如果通过试验得到了一组样本观察值如果通过试验得到了一组样本观察值(试验值),自然希望利用这组数据(试验值),自然希望利用这组数据来估计总体参数的值,在统计学上称来估计总体参数的值,在统计学上称为点估计问题。为点估计问题。l例如歌手大奖赛评分方法,去掉若干例如歌手大奖赛评分方法,去掉若干最高最低,然后求平均值,估价歌手最高最低,然后求平均值,估价歌手的水平。的水平。前一页 休息参数估计的方法参数估计的方法l估计值的求法有很多,如估计值的求法有很多,如l常用的数字特征法,用样本的数字特征,常用的数字特征法,用样本的数字特征,如平均值、方差等估计总体的数字特征。如平均值、方差等估计总体的数字特征。l顺序统计量法是一种简便方法,将样本按顺序统计量法是一种简便方法,将样本按大小顺序排列,取居中的一个或几个数的大小顺序排列,取居中的一个或几个数的平均值作为总体均值的估计值、用最大值平均值作为总体均值的估计值、用最大值与最小值的差值估计数据的离散程度。与最小值的差值估计数据的离散程度。l最小二乘法和最大似然法是求出未知参数最小二乘法和最大似然法是求出未知参数值的有效的方法。值的有效的方法。前一页 休息2.2 最小二乘法最小二乘法 l在实验数据处理中,常常需要从一组在实验数据处理中,常常需要从一组测定的数据(测定的数据(x xi i,y,yi i)去求自变量去求自变量x x和因和因变量变量y y的近似函数关系式的近似函数关系式y=f(x)y=f(x)。从图从图形上看形上看,就是由给定的就是由给定的N N个点(个点(x xi i,y,yi i)(i=1,2,ni=1,2,n)求曲线拟合的问题。求曲线拟合的问题。l实际上实验中所得到的数据总是有测实际上实验中所得到的数据总是有测试误差的试误差的,因此并不要求曲线通过所有因此并不要求曲线通过所有的点的点。前一页 休息最小二乘法原理最小二乘法原理l曲曲线线拟拟合合是是要要求求画画出出一一条条近近似似曲曲线线,尽尽可可能能从从给给定定点点的的附附近近通通过过,能能反反映映给给定定数数据据的的一一般般趋趋势势,但但是是尽尽量量不不出出现现局局部波动。部波动。l最最小小二二乘乘法法是是参参数数估估计计的的一一种种方方法法,可可用用来来求求这这样样的的近近似似曲曲线线。对对于于含含有有观观测测误误差差的的数数据据来来说说,这这样样的的处处理理可可以部分抵消数据中含有的观测误差。以部分抵消数据中含有的观测误差。前一页 休息最小二乘法最小二乘法 前一页 休息误差选取误差选取 前一页 休息1.1.直线拟合直线拟合(线性回归线性回归)l如如果果由由试试验验得得到到的的一一组组数数据据(x xi i,y,yi i)在在平平面面x-yx-y上上画画出出的的曲曲线线与与直直线线差差不不多多,就就可可以以用用直直线线y=y=a+bxa+bx去去拟拟合合。问问题题就就变变为为选选择择适适当当的参数的参数a a和和b b,使得使得l取得最小值取得最小值。前一页 休息直线拟合算法直线拟合算法 前一页 休息 前一页 休息2.2.代数多项式拟合代数多项式拟合(回归回归)前一页 休息代数多项式拟合算法代数多项式拟合算法 前一页 休息多项式次数多项式次数l从从这这个个方方程程组组可可以以求求出出系系数数a aj j即即可可得得到所要求的到所要求的m m次多项式曲线方程。次多项式曲线方程。l当当m m值值较较大大时时,以以上上方方程程的的系系数数行行列列式式将将减减小小,使使方方程程组组出出现现病病态态,因因而而一一般多项式拟合最高次数只取到般多项式拟合最高次数只取到m=4-5m=4-5。前一页 休息3.3.线性模型的推广线性模型的推广 前一页 休息Curve fit toolboxl利用曲线拟合工具箱利用曲线拟合工具箱l可以对数据进行各种函数形式的拟合,可以对数据进行各种函数形式的拟合,如多项式拟合、指数函数拟合、高斯如多项式拟合、指数函数拟合、高斯拟合等拟合等l在命令窗口利用函数在命令窗口利用函数a=polyfit(x,y,n)返回返回n次多项式的系数;次多项式的系数;前一页 休息Matlab矩阵除法矩阵除法l利用矩阵除法可求解超定、欠定方程。利用矩阵除法可求解超定、欠定方程。l矩阵除法可以实现特殊形式的回归矩阵除法可以实现特殊形式的回归l例如,求一形如例如,求一形如y=a+bx2的经验公式中的系数的经验公式中的系数例如已知例如已知x,y的的5个值,个值,令令x1=ones(5,1),(x.2);ab=x1y即可得到系数即可得到系数a,b 前一页 休息4 多元线性拟合多元线性拟合l最小二乘法可以推广到二元、甚至多元线最小二乘法可以推广到二元、甚至多元线性拟合。性拟合。l设因变量为设因变量为y,两个自变量分别为两个自变量分别为x1和和x2,假设已通过试验测得一系列数据为假设已通过试验测得一系列数据为(yi,x1i,x2i),i=1,2,3nl则二元线性回归方程可表示为则二元线性回归方程可表示为ya+b1x1+b2x2l式中式中a为常数项为常数项,b1和和b2分别为分别为y对对x1和和x2的的偏回归系数。偏回归系数。前一页 休息l残差平方和残差平方和l根据最小二乘法的原理,令残差平方和最小,可求根据最小二乘法的原理,令残差平方和最小,可求得这些参数。对相关参数求导数,得得这些参数。对相关参数求导数,得 前一页 休息l方程组的简化形式方程组的简化形式 前一页 休息Regress函数函数l利用统计工具箱命令利用统计工具箱命令regress实现多元线性回归实现多元线性回归l调用格式为调用格式为b=regress(y,x)或或 b,bint,r,rint,stats=regess(y,x,alpha),alpha为显著性水平为显著性水平(缺省时设定为缺省时设定为0.05)l输出向量输出向量b,bint为回归系数估计值和它们的置信为回归系数估计值和它们的置信区间,区间,r,rint为残差及其置信区间为残差及其置信区间lstats是用于检验回归模型的统计量,有三个数值,是用于检验回归模型的统计量,有三个数值,第一个是第一个是R2,其中,其中R是相关系数,第二个是是相关系数,第二个是F统计统计量值,第三个是与统计量量值,第三个是与统计量F对应的概率对应的概率P,当,当P10倍自变量)高精度的数据;倍自变量)高精度的数据;l预分析:根据专业知识和经验确定自变量的高次项预分析:根据专业知识和经验确定自变量的高次项及交叉乘积是否进入模型,是否需要数据转换,检及交叉乘积是否进入模型,是否需要数据转换,检验全变量线性关系是否显著,利用残差分析等手段验全变量线性关系是否显著,利用残差分析等手段考察误差分布的正态性、等方差性假定是否合理?考察误差分布的正态性、等方差性假定是否合理?l确定回归关系形式后,选择影响显著的变量,确定确定回归关系形式后,选择影响显著的变量,确定最优回归方程最优回归方程 前一页 休息2.3 2.3 假设检验假设检验l假设检验是统计推断的另一类重要问题,假设检验是统计推断的另一类重要问题,它是根据样本的信息来判断一组数据是否它是根据样本的信息来判断一组数据是否在某个精度范围内与理论公式一致在某个精度范围内与理论公式一致,或判断或判断总体分布是否具有指定特征。总体分布是否具有指定特征。l假设检验包括参数检验和分布检验。假设检验包括参数检验和分布检验。l参数检验是在假设是正确的情况下,计算参数检验是在假设是正确的情况下,计算得到拟合参数的几率。如果该几率较大,得到拟合参数的几率。如果该几率较大,则接受假设,反之则放弃假设。实际工作则接受假设,反之则放弃假设。实际工作中一般采用分布假设。中一般采用分布假设。前一页 休息1.分布律的检验分布律的检验l分布律检验的原理是分布律检验的原理是Pearson平方和平方和准则准则l假设假设n个样本来自分布为个样本来自分布为F(x)的总体;的总体;l将实数域分成将实数域分成k个区间,个区间,l若样本落在第若样本落在第i个区间的次数为个区间的次数为mi,而而根据分布律计算得到的概率为根据分布律计算得到的概率为pi 前一页 休息分布律检验分布律检验l选取统计量选取统计量l式中式中r为需要估计的参数个数为需要估计的参数个数l根据样本观察值计算统计量的值根据样本观察值计算统计量的值l查表得临界值查表得临界值l如果如果 一般可以接受这种一般可以接受这种分布假设,反之拒绝假设分布假设,反之拒绝假设 前一页 休息2.均值估计均值估计 前一页 休息均值估计示例均值估计示例 前一页 休息U检验法(检验法()lZtest 样本均值与一常数进行比较样本均值与一常数进行比较lh,p,ci,zval=ztest(x,m,sigma,alpha,tail)h=0接受原假设,接受原假设,h=1拒绝原假设拒绝原假设m均值,均值,tail=0,1,-1对应于备选假设为不等于、对应于备选假设为不等于、大于和小于大于和小于m 前一页 休息T检验法(方差未知)检验法(方差未知)lttest:样本均值与一常数进行比较样本均值与一常数进行比较lmatlab函数用法与函数用法与ztest相似相似lH,P,CI,STATS=ttest(x,m,alpha,tail)判判断来自于正态分布的断来自于正态分布的X均值是否为均值是否为m.l缺省值缺省值m=0,=0.05,tail=0l原假设原假设:均值均值ml对于对于tail=0,备选假设备选假设:均值均值 不等于不等于m.l对于对于tail=1,备选假设备选假设:均值均值 大于大于ml对于对于tail=-1,备选假设备选假设:均值均值 小于小于m 前一页 休息3.3.以误差判断拟合质量以误差判断拟合质量 前一页 休息4.4.回归分析回归分析 l回归(拟合)可以由最小二乘法实现,回归(拟合)可以由最小二乘法实现,matlabmatlab polyfitpolyfitl回归方程的质量常用相关系数和回归方程的质量常用相关系数和F F检验作为检验作为评估指标。评估指标。l相关系数用如下公式计算相关系数用如下公式计算l相关系数用以描述两个变量线性相关的密相关系数用以描述两个变量线性相关的密切程度。绝大部分切程度。绝大部分R R值在值在0-10-1之间。之间。前一页 休息相关系数与样品个数相关系数与样品个数l相关系数与样品的相关系数与样品的抽样个数有关。抽样个数有关。l对于一定观察次数对于一定观察次数n n,相关系数必须大相关系数必须大于一定值所拟合的于一定值所拟合的直线才有意义,此直线才有意义,此时我们称二者显著时我们称二者显著相关相关 。观察次数n临界值=5%=1%30.9971.00050.8780.957100.6320.765200.4440.561300.3610.463500.2730.3541000.1950.2542000.1380.1814000.0980.12810000.0620.081 前一页 休息l可以证明,当可以证明,当X Y均服从正态分布,当二者无关均服从正态分布,当二者无关时,统计量时,统计量l给定显著性水平给定显著性水平,可查表求得临界值,可查表求得临界值t(n-2)l若若计算的统计量计算的统计量t t(n-2),则可以认为则可以认为X Y二者二者显著相关,相关系数有效。显著相关,相关系数有效。l否则可认为否则可认为X Y二者无关。二者无关。前一页 休息F检验检验 前一页 休息复相关系数复相关系数l对于多元线性回归,采用对于多元线性回归,采用复相关系数。复相关系数。前一页 休息复相关系数的意义复相关系数的意义lR R反反 映映 了了 变变 量量 y y与与 多多 个个 变变 量量x xi i(i(i=1,2,3)=1,2,3)之间的线性相关程度。之间的线性相关程度。lR=0R=0表示表示x,yx,y之间无关,之间无关,lR=1R=1表示表示x,yx,y二者严格线性相关。二者严格线性相关。lR R越大,线性回归效果越好。越大,线性回归效果越好。前一页 休息回归方程变量个数回归方程变量个数l复相关系数是总回归效果的一个重要复相关系数是总回归效果的一个重要指标,但是指标,但是R R与回归方程中自变量个数与回归方程中自变量个数K K以及试验次数以及试验次数n n有关。当有关。当n n值相对于值相对于K K不是很大时,常有较大的不是很大时,常有较大的R R。特别是当特别是当n=K+1n=K+1时,即使时,即使K K个自变量与个自变量与y y无关,也无关,也必然有必然有R=1R=1(Q=0Q=0),),因此在实际计算因此在实际计算当中必须注意当中必须注意K K与与n n的相对比例。根据的相对比例。根据经验,经验,n n应该比应该比K K大大4-54-5以上以上。前一页 休息复相关系数的临界值复相关系数的临界值l统计量统计量W Wl服从服从F F分布分布F F(k,n-k-1)k,n-k-1)l可可根根据据置置信信度度大大小小在在F F表表中中查查出出相相应应的的临临界界值值。当当计计算算的的F F值值大大于于临临界界值值则则认认为回归效果显著为回归效果显著。前一页 休息偏相关系数偏相关系数l偏相关系数表征单个因素对因变量的作用大小。偏相关系数表征单个因素对因变量的作用大小。偏相关系数也可以用普通相关系数公式计算,偏相关系数也可以用普通相关系数公式计算,即即lr ri i越大,说明越大,说明y y对对x xi i的依赖越显著,这时不可将的依赖越显著,这时不可将该因素剔除。该因素剔除。前一页 休息偏相关系数的临界值偏相关系数的临界值l常常用用如如下下统统计计量量来来衡衡量量该该因因素素的的显显著著性性l给定置信度,可以根据给定置信度,可以根据t t分布表,查出分布表,查出临界值临界值t t,当计算值当计算值W W的绝对值大于临的绝对值大于临界值界值t t,则认为则认为x xj j对对y y产生显著影响,产生显著影响,不可忽视。不可忽视。前一页 休息Matlab实现实现l相关系数相关系数r=corrcoef(x,y),式中式中 X 和和 Y 列向量列向量,l等价于等价于 r=corrcoef(x y).前一页 休息单个回归系数的显著单个回归系数的显著性性l利用统计量利用统计量l式中分子分别为对第式中分子分别为对第k个变量回归系数的估计值和个变量回归系数的估计值和系数值,系数值,l分母分母s是系数的标准差的估计是系数的标准差的估计,前一页 休息T检验法检验法 前一页 休息单个回归系数的显著性单个回归系数的显著性l在在 k0时,时,l|tk|不应过分偏大。反之,若不应过分偏大。反之,若l则可以认为在置信度(则可以认为在置信度(1)条件下)条件下xk对结果有对结果有显著作用显著作用 前一页 休息单个回归系数的显著性单个回归系数的显著性l或选取统计量或选取统计量lakk是是(XX)1的主对角线上第的主对角线上第k个元素个元素lFk不应过分偏大。反之,若不应过分偏大。反之,若l则可以认为在置信度(则可以认为在置信度(1)条件下)条件下xk对结果有对结果有显著作用显著作用 前一页 休息5 方差分析方差分析l试验过程中经常需要分析各种方法、试验过程中经常需要分析各种方法、参数对实验结果的影响参数对实验结果的影响l方差分析是鉴别各个因素效应的一种方差分析是鉴别各个因素效应的一种统计方法统计方法l20年代英国统计学家年代英国统计学家R A Fisher首先首先应用到农业试验中。应用到农业试验中。前一页 休息l如果试验时只有一个因素在变化,其如果试验时只有一个因素在变化,其它可控制的因素都不变,称单因素试它可控制的因素都不变,称单因素试验验l若变化的因素多于一个,称为双因素若变化的因素多于一个,称为双因素或多因素试验或多因素试验 前一页 休息单因素分析模型单因素分析模型l在在同一水平同一水平Ai下独立观察下独立观察ni次,因变量的观察值服次,因变量的观察值服从正态分布;从正态分布;l不同水平的观察值来自于不同的正态总体;不同水平的观察值来自于不同的正态总体;l除除A的水平变化外,尽量控制替他条件相同,即假的水平变化外,尽量控制替他条件相同,即假定各正态总体具有相同的方差,因素的影响只局限定各正态总体具有相同的方差,因素的影响只局限在均值的差异在均值的差异 前一页 休息单因素方差分析单因素方差分析l将试验的变异因素将试验的变异因素A分成分成r个水平,对每一个水平,对每一个水平进行重复试验,列出试验结果个水平进行重复试验,列出试验结果水平水平试验结果试验结果行均行均1x11x12x1n1X12x21x22x2n2X2rxr1xr2xrnrXr 前一页 休息 前一页 休息 前一页 休息l 是是 i 的良好估计值,的良好估计值,SE反映了随机反映了随机误差误差 ij的影响;称为误差平方和;的影响;称为误差平方和;lSA反映了反映了 i(I=1,2,r)之间的差异之间的差异程度,反映了各水平效应对观测量的程度,反映了各水平效应对观测量的影响;称为因素的平方和影响;称为因素的平方和 前一页 休息l选取统计量选取统计量l如果统计量如果统计量F临界值临界值F,该因素没有该因素没有显著作用,反之作用显著。显著作用,反之作用显著。前一页 休息举例举例l某学期本课程三个班成绩情况某学期本课程三个班成绩情况1班班2班班3班班均值均值74.73553.00057.000标准差标准差S12.37017.8479.293人数人数242439 前一页 休息Se,Sa计算计算 前一页 休息l总平均总平均(74.37524+5324+5739)/(24+24+39)=60.690lSa=24*(74.375-60.690)2+24*(53-60.690)2+39*(57-60.690)2=6445lSe=23*12.3702+23*17.8472+38*9.2932=14126.92lF=(6445/2)/(14126.92/84)=19.16l查表取查表取 0.05,F(2,60)=3.15l查表取查表取 0.01,