非线性回归分析.ppt
袁克虹袁克虹办公电话:办公电话:26032453办公地点办公地点:L楼楼305B邮件:邮件:一元非线性回归分析一元非线性回归分析2回顾-一元一次线性回归步骤:1.观察散点图2.判断是什么关系;3.回归参数计算;4.判断系数;5.显著性检验(注意H0)6.失拟合检验(注意需要的条件)指标评价相关系数,判断系数回归公式显著性检验H0假设的含义;方差分析表;F(1,n-2)失拟合检验条件?F(m-2,n-m)3回归分析内容一元线性步骤:1.观察散点图,2.判断是什么关系,3.回归,4.判断系数;5。显著性检查(注意H0),6.失拟合检验(注意需要的条件)一元非线性带虚拟变量多元线性多元非线性和逐步回归Logistic回归4炼钢厂出厂出钢水水时用的用的钢包,在使用包,在使用过程中由于程中由于钢水水及炉渣及炉渣对耐火材料的浸耐火材料的浸蚀,其容,其容积不断增大。不断增大。现在在钢包的容包的容积用盛用盛满钢水水时的重量的重量y(kg)表示,相表示,相应的的试验次数用次数用x表示。数据表示。数据见表,要找出表,要找出y与与x的定量关系的定量关系表达式。表达式。一次非线性回归一次非线性回归5钢包的重量包的重量y与与试验次数次数x数据数据序号序号xy序号序号xy12106.42811110.5923108.20914110.6034109.581015110.9045109.501116110.7657110.001218111.0068109.931319111.20710110.49下面我们分三步进行。6确定可能的函数形式确定可能的函数形式为对数据数据进行分析,首先描出数据行分析,首先描出数据的散点的散点图,判断两个,判断两个变量之量之间可可能的函数关系,能的函数关系,图是本例的散点是本例的散点图。观测这13个点构成的散点个点构成的散点图,我,我们可以看到它可以看到它们并不接近一条直并不接近一条直线,用曲,用曲线拟合合这些点些点应该是更是更恰当的,恰当的,这里就涉及如何里就涉及如何选择曲曲线函数形式的函数形式的问题。7首先,如果可由首先,如果可由专业知知识确定回确定回归函数形式,函数形式,则应尽可能利用尽可能利用专业知知识。当若不能有。当若不能有专业知知识加以确加以确定函数形式,定函数形式,则可将散点可将散点图与一些常与一些常见的函数关系的函数关系的的图形形进行比行比较,选择几个可能的函数形式,然后几个可能的函数形式,然后使用使用统计方法在方法在这些函数形式之些函数形式之间进行比行比较,最后,最后确定合适的曲确定合适的曲线回回归方程。方程。为此,必此,必须了解常了解常见的的曲曲线函数的函数的图形,。形,。8本例中,散点本例中,散点图呈呈现呈呈现一个明一个明显的向上且上的向上且上凸的凸的趋势,可能,可能选择的函数关系有很多,比如,的函数关系有很多,比如,我我们可以可以给出如下四个曲出如下四个曲线函数:函数:1)1/y=a+b/x2)y=a+blnx3)4)在初步在初步选出可能的函数关系出可能的函数关系(即方程即方程)后,我后,我们必必须解决两个解决两个问题:如何估:如何估计所所选方程中的参数?方程中的参数?如何如何评价所价所选不同方程的不同方程的优劣?劣?9对上述非上述非线性函数,参数估性函数,参数估计最常用的方法最常用的方法是是“线性化性化”方法。方法。以以1/y=a+b/x为例,例,为了能采用一元了能采用一元线性回性回归分析方法,我分析方法,我们作如下作如下变换u=1/x,v=1/y则曲曲线函数就化函数就化为如下的直如下的直线v=bu这是理是理论回回归函数。函数。对数据而言,回数据而言,回归方程方程为 vi=a+bui+i于是可用一元于是可用一元线性回性回归的方法估的方法估计出出a,b。10参数估计计算表参数估计计算表11用用类似的方法可以得出其它三个曲似的方法可以得出其它三个曲线回回归方程,它方程,它们分分别是:是:12曲线回归方程的比较曲线回归方程的比较我我们上面得到了四个曲上面得到了四个曲线回回归方程,通常可采用如方程,通常可采用如下二个指下二个指标进行行选择。(1)决定系数决定系数R2:类似于一元似于一元线性回性回归方程中相关系方程中相关系数,决定系数定数,决定系数定义为:R2越大,越大,说明残差越小,回明残差越小,回归曲曲线拟合越好合越好,R2从从总体上体上给出一个出一个拟合好坏程度的度量。合好坏程度的度量。13(2)剩余剩余标准差准差s:类似于一元似于一元线性回性回归中中标准差的估准差的估计公式,此剩余公式,此剩余标准差可用残差平方和来准差可用残差平方和来获得,即得,即 s为诸观测点点yi与由曲与由曲线给出的出的拟合合值间的平均偏离程的平均偏离程度的度量,度的度量,s越小,方程越好越小,方程越好。14在在观测数据数据给定后,不同的曲定后,不同的曲线选择不会影响不会影响的取的取值,但会影响到残差平方和,但会影响到残差平方和的取的取值。因此,。因此,对选择的曲的曲线而言,决定系数和剩而言,决定系数和剩余余标准差都取决于残差平方和准差都取决于残差平方和,从,从而,而,两种两种选择准准则是一致的,只是从两个不同是一致的,只是从两个不同侧面面作出作出评价价。15表给出第一个曲线回归方程的残差平方和的计算过程,由于n=13,故其决定系数及剩余标准差分别为:其它三个方程的决定系数及剩余标准差可同样计算,我们将它们列在表中。16 四种曲四种曲线回回归决定系数及剩余决定系数及剩余标准差准差模型模型编号号(1)(2)(3)(4)R20.97290.87730.78510.9623s0.22850.48640.64370.2696可以看出,第一个曲线方程的决定系数最大,剩余标准差最小,在这四个曲线回归方程中,不论用哪个标准,都是第一个方程拟合得最好。因此,近似得比较好的定量关系式就是17例子18例子 19例子20例子21例子 由于商品零售额增加,流通费用率呈下降趋势,二者之间为负由于商品零售额增加,流通费用率呈下降趋势,二者之间为负相关关系,故相关系数取负值为:。说明两者高度相关,用双相关关系,故相关系数取负值为:。说明两者高度相关,用双曲线回归模型配合进行预测是可靠的。曲线回归模型配合进行预测是可靠的。22例子23本章小节回归分析和相关分析目的不同在回归分析中,寻找的是变量之间的关系,代表这种关系的方程可能就是所期望的结果,也可能是所期望预测的均值。24 虚拟变量回归预测25虚拟变量回归预测虚拟变量品质变量不像数量变量那样表现为具体的数值。它只能以品质、属性、种类等形式来表现。要在回归模型中引入此类品质变量,必须首先将具有属性性质的品质变量数量化。通常的做法是令某种属性出现对应于1,不出现对应于0。这种以出现为,未出现为形式表现的品质变量,就称为虚拟变量。带虚拟变量的回归模型常见的带虚拟变量的回归模型有以下二种形式:26虚拟变量回归预测27其中的趋势变化如右图所示其中的趋势变化如右图所示虚拟变量回归预测28虚拟变量回归预测29虚拟变量的回归模型应用举例 例例 某省农业生产资料购买力和农民货币收入统计数据,某省农业生产资料购买力和农民货币收入统计数据,根据上述统计数据,试建立一元线性回归模型和带虚拟变量根据上述统计数据,试建立一元线性回归模型和带虚拟变量的回归模型,并将两模型对比分析的回归模型,并将两模型对比分析 30虚拟变量回归模型的应用举例31虚拟变量回归模型的应用举例