《化学试验设计法中的回归分析.ppt》由会员分享,可在线阅读,更多相关《化学试验设计法中的回归分析.ppt(23页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第六章第六章化学试验设计法中的回归分析化学试验设计法中的回归分析变量之间的各种关系是客观世界中普遍存在的关系。变量之间的各种关系是客观世界中普遍存在的关系。这些关系大致分为两类这些关系大致分为两类:1)确定性关系,可用精确的函数表达的关系;确定性关系,可用精确的函数表达的关系;譬如球体积譬如球体积Vp pd3/6。2)非确定性关系,通常称为非确定性关系,通常称为相关关系相关关系。譬如产品合成中收率与反应温度、搅拌速度等的关譬如产品合成中收率与反应温度、搅拌速度等的关系;反应速率与温度、压力、催化剂加入量等的关系;系;反应速率与温度、压力、催化剂加入量等的关系;农作物产量与降雨量、施肥量、农药量
2、等的关系。农作物产量与降雨量、施肥量、农药量等的关系。我们在工作中碰到的问题大都是这种相关关系的问我们在工作中碰到的问题大都是这种相关关系的问题。题。1那么如何在这些关系不确定的变量之间找到一些内在那么如何在这些关系不确定的变量之间找到一些内在的规律,从而为科学研究做出一定的预测?的规律,从而为科学研究做出一定的预测?譬如在我们的化学试验中,如何才能从有限的试验数譬如在我们的化学试验中,如何才能从有限的试验数据中找出一定的规律,从而为获得指标最优化做出正据中找出一定的规律,从而为获得指标最优化做出正确地判断?确地判断?2通常,通常,回归分析回归分析(RegressionAnalysis)是试验
3、数据处)是试验数据处理中最常用的一种方法,也是比较好的一种方法。理中最常用的一种方法,也是比较好的一种方法。所谓回归分析,其实就是研究相关关系的一种数学工所谓回归分析,其实就是研究相关关系的一种数学工具,具,它能提供变量之间关系的一种近似表达,即回归它能提供变量之间关系的一种近似表达,即回归方程,根据回归方程作图,就可以得到对各数据点误方程,根据回归方程作图,就可以得到对各数据点误差最小,因而也是最好的一条曲线,即回归曲线。差最小,因而也是最好的一条曲线,即回归曲线。回归方程可用来达到预测和控制的目的。回归方程可用来达到预测和控制的目的。3回归分析分类:回归分析分类:按自变量的数目分类:按自变
4、量的数目分类:一元回归一元回归:多元回归多元回归:一个因变量和一个自变量一个因变量和一个自变量 (Y&XY&X)一个因变量和多个自变量一个因变量和多个自变量(22)(Y&X1(Y&X1、X2)X2)按回归关系分类:按回归关系分类:线性回归和非线性回归。线性回归和非线性回归。这两种分类方式相互交叉,可以产生常见的四种回归这两种分类方式相互交叉,可以产生常见的四种回归模式:模式:一元线性回归、一元非线性回归、多元线性回一元线性回归、一元非线性回归、多元线性回归,多元非线性回归归,多元非线性回归。46 62 2 一元线性回归一元线性回归假假设设用用(x xi i,y yi i)表表示示一一组组数数据
5、据点点(i i1 1,2 2,n n)。)。请问一下:这些数据点代表什么样的试验设计方案?请问一下:这些数据点代表什么样的试验设计方案?是不是代表单因素试验设计?是不是代表单因素试验设计?任意一条直线的函数关系可表示为:任意一条直线的函数关系可表示为:y*=a+bx y*=a+bx (1)(1)如果用这条直线代表(如果用这条直线代表(x xi i,y yi i)里)里x x和和y y的关系,则每的关系,则每个点的误差为:个点的误差为:y yi i-y*=y-y*=yi i-a-bx-a-bxi i (2)(2)5(3)若各数据点的差方和为若各数据点的差方和为Q Qi i*,则总的差方和,则总的
6、差方和Q*Q*为:为:一元线性回归一元线性回归就是指在所有的直线中,使差方和就是指在所有的直线中,使差方和Q*最最小的一条直线。小的一条直线。即回归直线的系数即回归直线的系数b和截距和截距a应使应使Q*达到最小值。即:达到最小值。即:Q*(a,b)=minQ*(a,b)那么怎样的那么怎样的a、b值才能使值才能使Q*最小呢?最小呢?(3)式分别对)式分别对a、b求偏微分,并使之等于零:求偏微分,并使之等于零:6(4)(5)(4)式和)式和(5)式经转换分别可得:式经转换分别可得:(6)(7)7(6)、()、(7)式)式构成一个二元一次方程组,因此肯定构成一个二元一次方程组,因此肯定有唯一解。这有
7、唯一解。这就是一元线性回归的基础就是一元线性回归的基础。经过一系列推导,最终:经过一系列推导,最终:其中:其中:(8)(9)8上面所讲的就是确定一元回归方程所根据的原则。上面所讲的就是确定一元回归方程所根据的原则。即应使回归方程与所有观测数值的差方和达到极小值。即应使回归方程与所有观测数值的差方和达到极小值。因因为为平平方方运运算算也也称称为为“二二乘乘”运运算算,因因此此这这种种回回归归方方法就通称为法就通称为“最小二乘法最小二乘法”。最小二乘法就是最小差方和法。最小二乘法就是最小差方和法。事实上,现在计算机线性拟和(如事实上,现在计算机线性拟和(如excel、origin等)等)就是依据的
8、上述(就是依据的上述(8 8)、()、(9 9)式,实际工作中根本不)式,实际工作中根本不需要大家计算。但是我们应该知道这个原理。需要大家计算。但是我们应该知道这个原理。当然,大家也可以自己写一个小程序进行这些工作。当然,大家也可以自己写一个小程序进行这些工作。9如何判断一元线性回归方程是否有意义?如何判断一元线性回归方程是否有意义?在数学上有一个非常重要的判别方法,就是在数学上有一个非常重要的判别方法,就是相关系数相关系数法法。即我们经常求的。即我们经常求的R值法。值法。(10)或者:或者:(10)这里这里sx、sy为为x和和y的标准偏差。的标准偏差。10关于关于R的说明:的说明:R1,说明
9、没有试验误差;,说明没有试验误差;R0说明回归线与说明回归线与x轴平行,轴平行,y与与x没有线性相关。没有线性相关。0R1,有相关性。,有相关性。其中其中R愈接近愈接近1,相关性越强。,相关性越强。一般只有当一般只有当R大于某个临界值时,大于某个临界值时,y与与x的线性关系的线性关系才是显著相关,回归才有意义。才是显著相关,回归才有意义。R的临界值与样本个数、显著性水平都有关系。一的临界值与样本个数、显著性水平都有关系。一般的,般的,R最起码应大于。最起码应大于。一元线性回归在单因素法中有很重要的应用。一元线性回归在单因素法中有很重要的应用。1163一元非线性回归一元非线性回归 在很多实际的工
10、作中,我们碰到的在很多实际的工作中,我们碰到的y-x按线性回归时,按线性回归时,相关系数很差,意味着相关系数很差,意味着y-x不是一个线性关系。这时需不是一个线性关系。这时需要考虑非线性回归。要考虑非线性回归。自变量只有一个时,就是自变量只有一个时,就是一元非线性回归一元非线性回归。在一些情况下,一元非线性回归经过适当的变换,可在一些情况下,一元非线性回归经过适当的变换,可以转化为线性回归问题。以转化为线性回归问题。12具体做法是:具体做法是:(1)(1)根据样本数据,先作出散点图;根据样本数据,先作出散点图;(2)(2)根据散点图推测根据散点图推测y yx x之间的函数关系;之间的函数关系;
11、(3)(3)选择适当的变换,使之变成线性关系;选择适当的变换,使之变成线性关系;(4)(4)用线性回归方法求出线性回归方程;用线性回归方法求出线性回归方程;(5)(5)最最后后返返回回原原来来的的函函数数关关系系,得得到到要要求求的的回回归归方方程。程。13如:如:1.1.双曲线双曲线可令可令;2.2.抛物线抛物线可令可令;3.3.幂函数幂函数可令可令;4.4.指数函数指数函数可令可令;5.S型函数型函数可令可令;等等;等等14事实上,我们在很多情况下对数学曲线的类型了解的事实上,我们在很多情况下对数学曲线的类型了解的并没有这么深入,这个时候就主要靠对各种函数进行并没有这么深入,这个时候就主要
12、靠对各种函数进行试验,然后试验,然后看相关系数是否接近于看相关系数是否接近于1来判断拟和的函来判断拟和的函数是否有用数是否有用。15例例题题1313.发发光光半半导导体体纳纳米米晶晶体体也也叫叫作作量量子子点点(Quantum Quantum DotsDots,QDsQDs),最最近近1515年年才才得得以以迅迅速速发发展展起起来来。它它具具有有非非常常优优异异的的光光学学性性能能。和和有有机机荧荧光光染染料料相相比比,量量子子点点具具有有亮亮度度高高,光光稳稳定定性性好好,荧荧光光发发射射波波长长窄窄(fwhm=25-30nm,fullwidthathalf-maximum),激激发发和和发
13、发射射波波长长依依赖赖于于粒粒径径等等优优点点。通通常常粒粒径径是是用用TEMTEM测测定定的的,但但是是对对于于水水溶溶性性QDsQDs,直直接接用用TEMTEM测测定定时时经经常常会会在在铜铜网网上上聚聚集集,从从而而得得不不到到有有用用的的电电镜镜照照片片。为为此此发发展展了了一一种种荧荧光光相相关关光光谱谱法法(FCSFCS)测测定定量量子子点点的的粒粒径径。(Zhang Zhang PD PD et et al,al,Anal.Anal.Chim.Chim.Acta.Acta.546(2005)4651)16FCSFCS依据的原理就是下面这个公式:依据的原理就是下面这个公式:其中:其
14、中:实际测得的最大激发波长和粒径的对应关系如下:实际测得的最大激发波长和粒径的对应关系如下:labs(nm)516525533540553564580d(nm)2.40.33.20.43.20.34.60.45.20.75.80.710.81.2如何对他们进行回归呢如何对他们进行回归呢?R:动力学半径动力学半径17事实上,只要我们知道了回归模型,回归分析将变得事实上,只要我们知道了回归模型,回归分析将变得很简单。很简单。譬如,单分子在微区中的运动轨迹就可按照譬如,单分子在微区中的运动轨迹就可按照FCSFCS模型进模型进行非线性拟和(行非线性拟和(这里不讨论这里不讨论这里不讨论这里不讨论)。)。
15、如果不知道回归模型,那么只能从常规的线性回归开如果不知道回归模型,那么只能从常规的线性回归开始尝试。始尝试。在本例中,将测定的激发波长作为自变量在本例中,将测定的激发波长作为自变量x,粒径作为,粒径作为因变量因变量y,那么通过,那么通过excel或者或者origin很容易对其作出散很容易对其作出散点图:点图:18如果按照线性回归,得到的图形线性很差。如果按照线性回归,得到的图形线性很差。19观察图形,并考虑到实际测定的误差,试图用一元二观察图形,并考虑到实际测定的误差,试图用一元二次函数进行回归:次函数进行回归:从从R2可以看出,回归有所改进。进一步分析,将多项可以看出,回归有所改进。进一步分
16、析,将多项式回归的阶数再增高一阶,即一元三次多项式回归式回归的阶数再增高一阶,即一元三次多项式回归。20更进一步,一元四次、五次、六次回归得到的图形:更进一步,一元四次、五次、六次回归得到的图形:21可以看出,似乎拟和阶数越高,回归的相关系数越高,可以看出,似乎拟和阶数越高,回归的相关系数越高,但事实上但事实上6次式是不对的,因为在实际的次式是不对的,因为在实际的QD合成中,合成中,粒径是随着激发波长单调增长的。而且,我们也看到,粒径是随着激发波长单调增长的。而且,我们也看到,5次式、次式、4次式、次式、3次式的相关系数都大于,已远远大于次式的相关系数都大于,已远远大于99的置信度范围的临界的
17、置信度范围的临界R值(对值(对7个试验点,临界个试验点,临界R值值为),因此实际工作中选一元三次式回归方程。为),因此实际工作中选一元三次式回归方程。事实上,考虑到试验的误差,试验点数目的限制等因事实上,考虑到试验的误差,试验点数目的限制等因素,一元三次回归方程已经完全能满足预测功能。素,一元三次回归方程已经完全能满足预测功能。22补充说明补充说明:任何一条单变量的曲线,如光谱曲线、极:任何一条单变量的曲线,如光谱曲线、极谱或伏安曲线、动力学曲线等,都可以用一个合适的谱或伏安曲线、动力学曲线等,都可以用一个合适的多项式函数来表示,也就是说可以用一个非线性逼近多项式函数来表示,也就是说可以用一个非线性逼近拟和函数或模型进行拟和(如例题拟和函数或模型进行拟和(如例题13):):无论原试验数据是否符合所设定的多项式,都可用上无论原试验数据是否符合所设定的多项式,都可用上述方法估计多项式的系数。一般来说,提高多项式的述方法估计多项式的系数。一般来说,提高多项式的次数,则实验的相关性越好,曲线拟和的程度越高。次数,则实验的相关性越好,曲线拟和的程度越高。注意在拟和中要求试验点注意在拟和中要求试验点mn+1。23
限制150内