数据处理及回归分析学习教案.pptx
会计学1数据处理及回归数据处理及回归(hugu)分析分析第一页,共65页。几种常见的数据处理方法 线性回归分析目 录第1页/共65页第二页,共65页。1 1 列表法列表法-三线三线(sn xin)(sn xin)式表格式表格一、几种一、几种(j zhn)常见的数据处理常见的数据处理方法方法表格的基本表格的基本(jbn)结构:通常由表头、项目栏和数据栏组结构:通常由表头、项目栏和数据栏组成成表表 头头:表格的编号、名称。表格的编号、名称。项目栏项目栏 :相关物理量,单位等。:相关物理量,单位等。数据栏:记录测量数据。数据栏:记录测量数据。第2页/共65页第三页,共65页。三线三线三线三线(sn(sn xin)xin)式表格式表格式表格式表格 无边框的表格,只由三条无边框的表格,只由三条(sn tio)横线组成。分别是:横线组成。分别是:起始起始(q sh)线:表格序号和名称应写在起始线:表格序号和名称应写在起始(q sh)线上方。线上方。分隔线:分隔线:用来分隔项目栏和数据栏。用来分隔项目栏和数据栏。终止线:终止线:数据到此为止。数据到此为止。第3页/共65页第四页,共65页。列表的要求是:列表的要求是:(1)简明。)简明。(2)标明物理量的意义,注明单)标明物理量的意义,注明单位及数量级。位及数量级。(3)正确反映测量)正确反映测量(cling)结果结果的有效数字。的有效数字。第4页/共65页第五页,共65页。第5页/共65页第六页,共65页。2 2 图解图解(tji)(tji)图图示法示法 图示法可以图示法可以(ky)形象、直观地显示出形象、直观地显示出物理量之间的函数关系,也可以物理量之间的函数关系,也可以(ky)得出得出某些物理参数,因此它是一种重要的数据某些物理参数,因此它是一种重要的数据处理方法。作图时要先整理出数据表格,处理方法。作图时要先整理出数据表格,并要用坐标纸作图。并要用坐标纸作图。图解法是将实验测量数据按其对应关系图解法是将实验测量数据按其对应关系(gun x)(gun x)在坐在坐标纸上描绘出一条光滑的曲线。此曲线可以显示出物理量标纸上描绘出一条光滑的曲线。此曲线可以显示出物理量间的关系间的关系(gun x)(gun x)。第6页/共65页第七页,共65页。作图要求作图要求(yoqi)(yoqi):坐标轴坐标轴 :一般以自变量为:一般以自变量为X X轴轴,应变量为应变量为Y Y轴。并画出坐标轴,用箭头轴。并画出坐标轴,用箭头标明坐标轴方向标明坐标轴方向(fngxing)(fngxing),写上物理量名称或符号、单位。,写上物理量名称或符号、单位。定标尺:标明坐标纸上的一小格代表定标尺:标明坐标纸上的一小格代表(dibio)(dibio)的大小。的大小。描点:清晰准确地标出实验数据点。描点:清晰准确地标出实验数据点。选坐标纸选坐标纸 :选择合适的坐标纸:选择合适的坐标纸,包括类型和大小。包括类型和大小。连线:用直尺、曲线板等把数据点连成直线或光滑曲线。连线时应该连线:用直尺、曲线板等把数据点连成直线或光滑曲线。连线时应该使数据点均匀分布在图线两边。使数据点均匀分布在图线两边。标上图名。标上图名。第7页/共65页第八页,共65页。I(mA)U(V)8.004.0020.0016.0012.0018.0014.0010.006.002.000 02.004.006.008.0010.001.003.005.007.009.00电阻伏安特性曲线图电阻伏安特性曲线图A(1.00,2.76)B(7.00,18.58)由图上由图上A、B两点可得被测电阻两点可得被测电阻R为:为:作者:作者:xxxx图名图名图名图名作图者姓名作图者姓名作图者姓名作图者姓名第8页/共65页第九页,共65页。n(nm)1.6500500.0700.01.67001.66001.70001.69001.6800600.0400.0玻璃材料色散曲线图玻璃材料色散曲线图图图1曲线太曲线太粗,不粗,不均匀,均匀,不光滑不光滑(gung hu)。应该用应该用直尺、直尺、曲线板曲线板等工具等工具把实验把实验点连成点连成光滑光滑(gung hu)、均匀的均匀的细实线。细实线。错在哪里错在哪里(n li)?第9页/共65页第十页,共65页。n(nm)1.6500500.0700.01.67001.66001.70001.69001.6800600.0400.0玻璃材料色散曲线图玻璃材料色散曲线图第10页/共65页第十一页,共65页。I(mA)U(V)0 02.008.004.0020.0016.0012.0018.0014.0010.006.002.001.003.00电学元件伏安电学元件伏安(f n)特性曲线图特性曲线图横轴坐标分度选取横轴坐标分度选取不当。横轴以不当。横轴以3 cm 代表代表1 V,使作图,使作图和读图都很困难。和读图都很困难。实际在选择坐标分实际在选择坐标分度值时,应既满足度值时,应既满足有效数字的要求又有效数字的要求又便于作图和读图,便于作图和读图,一般一般(ybn)以以1 mm 代表的量值是代表的量值是10的整数次幂或是的整数次幂或是其其2倍或倍或5倍。倍。错在哪里错在哪里(n li)?第11页/共65页第十二页,共65页。I(mA)U(V)o o1.002.003.004.008.004.0020.0016.0012.0018.0014.0010.006.002.00电学元件伏安特性曲线电学元件伏安特性曲线第12页/共65页第十三页,共65页。定容气体压强温度曲线定容气体压强温度曲线1.20001.60000.80000.4000图图3P(105Pa)t()60.00140.00100.00o120.0080.0040.0020.00图纸图纸(tzh)使用使用不当。不当。实际作实际作图时,图时,坐标原坐标原点的读点的读数可以数可以不从零不从零开始。开始。错在哪里错在哪里(n li)?第13页/共65页第十四页,共65页。物理(wl)实验中心定容气体压强温度曲线定容气体压强温度曲线1.00001.15001.20001.10001.0500 P(105Pa)50.0090.0070.0020.0080.0060.0040.0030.00t()第14页/共65页第十五页,共65页。图解法图解法 根根据据已已有有图图线线,采采用用解解析析方方法法得得出出(d ch)物物理理量量之之间间的的函函数数关系,这种由图线求经验公式的方法称为图解法。关系,这种由图线求经验公式的方法称为图解法。斜率计算斜率计算(j sun)及不确定度及不确定度第15页/共65页第十六页,共65页。曲线的改直曲线的改直在实际工作中,许多物理量之间的关系并不都是线性的,但仍可通在实际工作中,许多物理量之间的关系并不都是线性的,但仍可通过适当的变换而成为线性关系,即把曲线变换成直线,这种方法过适当的变换而成为线性关系,即把曲线变换成直线,这种方法叫做曲线改直。作这样的变换不仅是由于直线容易描绘,更重要叫做曲线改直。作这样的变换不仅是由于直线容易描绘,更重要(zhngyo)(zhngyo)的是直线的斜率和截距所包含的物理内涵是我们所需的是直线的斜率和截距所包含的物理内涵是我们所需要的,例如:要的,例如:(1 1),式中,式中a a,b b为常量,可变换成为常量,可变换成 的线性函数斜率为的线性函数斜率为b b,截距为,截距为lgalga。(2 2),式中,式中a a,b b为常量,可变换成为常量,可变换成 的线性函数,斜率为的线性函数,斜率为lgblgb,截距为,截距为lgalga。第16页/共65页第十七页,共65页。(3 3)PV=CPV=C,式中,式中C C为常量为常量(chngling)(chngling),可变换成,可变换成P=C(1/V)P=C(1/V),P P是是1/V1/V的线性函数,斜率为的线性函数,斜率为C C。(4 4),式中,式中p p为常量为常量(chngling)(chngling),可变换成,可变换成 的线性函数,斜率为的线性函数,斜率为 。(5 5),式中,式中a a,b b为常量为常量(chngling)(chngling),可变,可变换成换成 的线性函数,斜率为的线性函数,斜率为a a,截距为,截距为b b。第17页/共65页第十八页,共65页。目的目的(md):在数据处理过程中,:在数据处理过程中,能把所有的数据都用上,这样可以能把所有的数据都用上,这样可以使误使误 差小一点。差小一点。3 3 逐差法逐差法第18页/共65页第十九页,共65页。砝码质量(Kg)弹簧伸长位(cm)0.00 x0 1.00 x1 2.00 x2 3.00 x3 4.00 x4 5.00 x5 6.00 x6 7.00 x7例:测量每增加例:测量每增加1kg,弹簧弹簧(tnhung)的平均伸长量?的平均伸长量?测量弹簧测量弹簧(tnhung)的倔的倔强系数数据表强系数数据表第19页/共65页第二十页,共65页。逐项逐差法处理逐项逐差法处理(chl)这样这样(zhyng),弹簧的平均伸长量为弹簧的平均伸长量为:这样这样(zhyng)处理的缺点在哪里?处理的缺点在哪里?第20页/共65页第二十一页,共65页。跳项逐差法处理跳项逐差法处理(chl)首先首先(shuxin)把数据分为两组把数据分为两组然后计算每增加然后计算每增加4kg,弹簧,弹簧(tnhung)的伸长量,的伸长量,最后算出每增加最后算出每增加1kg,弹簧的平均伸长量。,弹簧的平均伸长量。不确定度?不确定度?第21页/共65页第二十二页,共65页。优点:充分利用数据,达到优点:充分利用数据,达到(d do)多次测量以减小误差多次测量以减小误差的效果。的效果。适用适用(shyng)条件条件因变量和自变量之间为线性关系。因变量和自变量之间为线性关系。自变量是等量自变量是等量(dn lin)变化。变化。第22页/共65页第二十三页,共65页。4 最小二乘法最小二乘法(chngf)第23页/共65页第二十四页,共65页。二、回归二、回归(hugu)分析分析n n1 相关与回归相关与回归n n客观世界中普遍存在着变量客观世界中普遍存在着变量(binling)间的间的关系,而变量关系,而变量(binling)间的关系一般可分间的关系一般可分为两类:确定性关系和非确定性关系。为两类:确定性关系和非确定性关系。n n确定性关系:变量确定性关系:变量(binling)间的函数关系。间的函数关系。第24页/共65页第二十五页,共65页。n n非确定性关系:不能用函数来表示的变量间关系,也称非确定性关系:不能用函数来表示的变量间关系,也称非确定性关系:不能用函数来表示的变量间关系,也称非确定性关系:不能用函数来表示的变量间关系,也称为相关关系或统计关系。为相关关系或统计关系。为相关关系或统计关系。为相关关系或统计关系。n n身高与体重;血压与年龄身高与体重;血压与年龄身高与体重;血压与年龄身高与体重;血压与年龄(ninlng)(ninlng);树高与生长时间;树高与生长时间;树高与生长时间;树高与生长时间;商品的销售量与单价商品的销售量与单价商品的销售量与单价商品的销售量与单价 n n相关关系:对于两个变量,当自变量取值一定是,因变相关关系:对于两个变量,当自变量取值一定是,因变相关关系:对于两个变量,当自变量取值一定是,因变相关关系:对于两个变量,当自变量取值一定是,因变量的取值带有一定随机性的两个变量之间的关系量的取值带有一定随机性的两个变量之间的关系量的取值带有一定随机性的两个变量之间的关系量的取值带有一定随机性的两个变量之间的关系第25页/共65页第二十六页,共65页。n n 2 回归分析回归分析n n(1)确定变量之间数量关系的)确定变量之间数量关系的可能形式,并用一个数学模型可能形式,并用一个数学模型来表示来表示(biosh)这种关系形式这种关系形式n n(2)X是非随机变量或随机变是非随机变量或随机变量,量,Y是随机变量,对是随机变量,对X的每一的每一确定值确定值 都有都有Y的一个确定分布的一个确定分布与之对应。与之对应。第26页/共65页第二十七页,共65页。一个自变量一个自变量两个及两个以上自变量两个及两个以上自变量回归分析回归分析多元回归多元回归一元回归一元回归线性线性回归回归非线性非线性回归回归线性线性回归回归非线性非线性回归回归第27页/共65页第二十八页,共65页。3 3 相关分析和回归分析的区别与联系相关分析和回归分析的区别与联系 1.1.联系联系 二者具有二者具有(jyu)(jyu)共同的研究对象,而且在共同的研究对象,而且在具体应用时,常常必须互相补充。相关分析需具体应用时,常常必须互相补充。相关分析需要依靠回归分析来表明现象数量相关的具体形要依靠回归分析来表明现象数量相关的具体形式,而回归分析则需要依靠相关分析来表明现式,而回归分析则需要依靠相关分析来表明现象数量变化的相关程度。只有当变量之间存在象数量变化的相关程度。只有当变量之间存在着高度相关时,进行回归分析寻求其相关的具着高度相关时,进行回归分析寻求其相关的具体形式才有意义。体形式才有意义。第28页/共65页第二十九页,共65页。2.2.区别区别 (1 1)相关分析研究)相关分析研究(ynji)(ynji)变量之间相关的方向变量之间相关的方向和程度,但不能指出变量间相互关系的具体形式,也和程度,但不能指出变量间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况。无法从一个变量的变化来推测另一个变量的变化情况。回归分析则研究回归分析则研究(ynji)(ynji)变量之间相互关系变量之间相互关系的具体形式,它对具有相关关系的变量之间的数量联的具体形式,它对具有相关关系的变量之间的数量联系进行测定,确定一个相关的数学方程式,根据这个系进行测定,确定一个相关的数学方程式,根据这个数学方程式可以从已知量来推测未知量,从而为估算数学方程式可以从已知量来推测未知量,从而为估算和预测提供一个重要的方法。和预测提供一个重要的方法。第29页/共65页第三十页,共65页。(2 2 2 2)相关分析可以不必确定变量中哪个)相关分析可以不必确定变量中哪个)相关分析可以不必确定变量中哪个)相关分析可以不必确定变量中哪个是自变量,哪个是因变量,其所涉及是自变量,哪个是因变量,其所涉及是自变量,哪个是因变量,其所涉及是自变量,哪个是因变量,其所涉及(shj)(shj)(shj)(shj)的变量可以都是随机变量。而回归的变量可以都是随机变量。而回归的变量可以都是随机变量。而回归的变量可以都是随机变量。而回归分析则必须事先研究确定具有相关关系的变分析则必须事先研究确定具有相关关系的变分析则必须事先研究确定具有相关关系的变分析则必须事先研究确定具有相关关系的变量中哪个为自变量,哪个为因变量。量中哪个为自变量,哪个为因变量。量中哪个为自变量,哪个为因变量。量中哪个为自变量,哪个为因变量。第30页/共65页第三十一页,共65页。n n 4.回归分析主要解决的问题:回归分析主要解决的问题:n n从一组数据出发,确定这些从一组数据出发,确定这些变量之间的数学表达式变量之间的数学表达式回回归方程或经验归方程或经验(jngyn)公式。公式。n n对回归方程的可信程度进行对回归方程的可信程度进行统计检验,并从影响某一特定统计检验,并从影响某一特定变量的诸多变量中找出哪些变变量的诸多变量中找出哪些变量的影响显著,哪些不显著。量的影响显著,哪些不显著。n n利用所求的关系式,根据一利用所求的关系式,根据一个或几个变量的值,预测或控个或几个变量的值,预测或控制另一个变量的值,并要知道制另一个变量的值,并要知道这种预测或控制可达到的精密这种预测或控制可达到的精密度。度。第31页/共65页第三十二页,共65页。5 5 回归回归回归回归(hugu)(hugu)分析的基本过程分析的基本过程分析的基本过程分析的基本过程n n1 1、在定性和定量分析的基础上、在定性和定量分析的基础上确定变量间的相关关系确定变量间的相关关系(gun(gun x)x)。n n2 2、建立回归分析模型。、建立回归分析模型。n n3 3、对模型中的参数求解。、对模型中的参数求解。n n4 4、对回归模型的显著性进行检、对回归模型的显著性进行检验。验。n n5 5、回归模型的修正和改进。、回归模型的修正和改进。第32页/共65页第三十三页,共65页。6 6 6 6 回归回归回归回归(hugu)(hugu)(hugu)(hugu)模型的建立模型的建立模型的建立模型的建立(1 1)一元线性回归模型)一元线性回归模型 假假定定因因变变量量y y主主要要受受自自变变量量x x的的影影响响,它它们们之之间间的的简简单单线线性性回归模型如下回归模型如下 :为为参参数数,为为随随机机误误差项。差项。yy是是x x的线性函数部分加上误差项的线性函数部分加上误差项线线性性部部分分反反映映了了由由于于(yuy)x(yuy)x的的变化而引起变化而引起y y的变化的变化 第33页/共65页第三十四页,共65页。对对对对于于于于误误误误差差差差项项项项,在在在在回回回回归归归归(hugu)(hugu)(hugu)(hugu)分分分分析析析析中中中中有有有有如如如如下下下下假假假假设:设:设:设:(1 1 1 1)误误误误差差差差项项项项是是是是随随随随机机机机变变变变量量量量,它它它它的的的的期期期期望望望望值值值值为为为为0 0 0 0;(2 2 2 2)对对对对于于于于所所所所有有有有的的的的x x x x值值值值,误误误误差差差差项项项项的的的的方方方方差差差差 为常数;为常数;为常数;为常数;(3 3 3 3)误误误误差差差差项项项项之之之之间间间间相相相相互互互互独独独独立立立立,即即即即与与与与一一一一个个个个值值值值相相相相联联联联系系系系的的的的误误误误差差差差对对对对与与与与另另另另一一一一个个个个值值值值相相相相联联联联系系系系的的的的误误误误差差差差没没没没有有有有影响;影响;影响;影响;(4 4 4 4)随机误差项服从正态分布。)随机误差项服从正态分布。)随机误差项服从正态分布。)随机误差项服从正态分布。第34页/共65页第三十五页,共65页。77一元线性回归一元线性回归(hugu)(hugu)方程方程 描述描述y y的均值或期望与的均值或期望与 x x的关的关系的方程叫做回归系的方程叫做回归(hugu)(hugu)方程。方程。由于由于 ,所以所以 不难看出,简单线性回归不难看出,简单线性回归(hugu)(hugu)方程的图形是一条直线。方程的图形是一条直线。这条直线被称为总体回归这条直线被称为总体回归(hugu)(hugu)直线。直线。是回归是回归(hugu)(hugu)直线的截距,直线的截距,是回归是回归(hugu)(hugu)直线的斜率,直线的斜率,E(y)E(y)是给是给定某个定某个x x的值的值y y的均值或期望值。的均值或期望值。各实际观测点与总体回归各实际观测点与总体回归(hugu)(hugu)线垂直方向的间隔,就线垂直方向的间隔,就是随机误差项是随机误差项,即,即第35页/共65页第三十六页,共65页。如果因变量如果因变量如果因变量如果因变量y y y y与自变量与自变量与自变量与自变量x x x x的相关的相关的相关的相关(xinggun)(xinggun)(xinggun)(xinggun)关系关系关系关系是近似直线的关系,则一元线性回归的模型为:是近似直线的关系,则一元线性回归的模型为:是近似直线的关系,则一元线性回归的模型为:是近似直线的关系,则一元线性回归的模型为:y的估计值或预测值,的估计值或预测值,回归系数。回归系数。确定了确定了a与与b的值,直线的值,直线(zhxin)的位置也就相应地确定了。的位置也就相应地确定了。第36页/共65页第三十七页,共65页。8 8 8 8 最小二乘法最小二乘法最小二乘法最小二乘法(chngf)(chngf)(chngf)(chngf)确定模型参数确定模型参数确定模型参数确定模型参数 最小二乘法的基本原理就是寻一条总的看来最小二乘法的基本原理就是寻一条总的看来离各散点最近离各散点最近(zujn)的一条直线,使实际值的一条直线,使实际值y 与与 相应的相应的理论值理论值 之间的误差达到最小。即:之间的误差达到最小。即:第37页/共65页第三十八页,共65页。根据微积分的极值根据微积分的极值根据微积分的极值根据微积分的极值(j zh)(j zh)(j zh)(j zh)定理,定理,定理,定理,Q Q Q Q最小的必要最小的必要最小的必要最小的必要条件为:条件为:条件为:条件为:第38页/共65页第三十九页,共65页。整理后得如下方程整理后得如下方程整理后得如下方程整理后得如下方程(fngchng)(fngchng)(fngchng)(fngchng),称最小二乘法的标准方程,称最小二乘法的标准方程,称最小二乘法的标准方程,称最小二乘法的标准方程(fngchng)(fngchng)(fngchng)(fngchng):解方程得解方程得第39页/共65页第四十页,共65页。例:以下例:以下(yxi)表的数据拟合生产费用对产量的回归直线表的数据拟合生产费用对产量的回归直线方程方程企业编企业编号号产量产量x生产费用生产费用y123456789101112404250556578841001161251301401301501551401501541561701671801751851 6001 7642 5003 0254 2256 0847 05610 00013 45615 62516 90019 60016 90022 50024 02519 60022 50023 71627 22528 90027 88932 40030 62534 2255 2006 3007 7507 7009 75012 01213 86017 00019 37222 50022 75025 900合计合计1 0251 921101 835310 505170 094第40页/共65页第四十一页,共65页。将表中有关将表中有关将表中有关将表中有关(yugun)(yugun)(yugun)(yugun)数据代入公式中:数据代入公式中:数据代入公式中:数据代入公式中:第41页/共65页第四十二页,共65页。生产费用生产费用生产费用生产费用(fi yong)(fi yong)(fi yong)(fi yong)对产量的直线回归方程为:对产量的直线回归方程为:对产量的直线回归方程为:对产量的直线回归方程为:其中其中a124.15(千克)的含义为生产(千克)的含义为生产(shngchn)费费用的起点值;用的起点值;b0.4027表示产品产量每增加表示产品产量每增加1千件,生千件,生产产(shngchn)费用平均增加费用平均增加0.4027千元。千元。第42页/共65页第四十三页,共65页。下图可看散点图与回归直线下图可看散点图与回归直线下图可看散点图与回归直线下图可看散点图与回归直线(zhxin)(zhxin)(zhxin)(zhxin)的关系:的关系:的关系:的关系:第43页/共65页第四十四页,共65页。n n9 9 回归效果的回归效果的F F检验检验n n从一组数据根据最小二乘法可从一组数据根据最小二乘法可以拟合出一元线性方程,但是以拟合出一元线性方程,但是如果散点图中的数据点分散,如果散点图中的数据点分散,不呈线性,此时的线性回归方不呈线性,此时的线性回归方程是没有意义的。因此,提出程是没有意义的。因此,提出了所得到的直线是否有显著意了所得到的直线是否有显著意义,即是否与两个变量问实际义,即是否与两个变量问实际关系相符合的问题关系相符合的问题(wnt)(wnt),即,即必须对回归的效果做显若性检必须对回归的效果做显若性检验。验。n n 回归显著性检验回归显著性检验(regression(regression significant test)significant test)方法有:方法有:相关系数相关系数r r检验法、检验法、tt检验法、检验法、FF检验法,下面讨论检验法,下面讨论F F检验法检验法 。第44页/共65页第四十五页,共65页。x xy yy y 离差分解图离差分解图第45页/共65页第四十六页,共65页。n n测量值测量值y1,y2,yny1,y2,yn之间的差异,是由两个方面的原因之间的差异,是由两个方面的原因引起的:一是自变量引起的:一是自变量x x取值的不同;二是测量误差等取值的不同;二是测量误差等其他因素的影响。其他因素的影响。为了对线性回归为了对线性回归(hugu)(hugu)的效果的效果进行检验,需要将他们分离出来,将变量进行检验,需要将他们分离出来,将变量y y的的n n个测个测值值yi yi与其平均值的偏差(与其平均值的偏差()分解为有)分解为有x x的不同的不同取值引起的取值引起的 回归回归(hugu)(hugu)偏差(偏差()和由测量误)和由测量误差等其他因素造成的残余误差(差等其他因素造成的残余误差()即)即 第46页/共65页第四十七页,共65页。两端两端两端两端(lin dun)(lin dun)(lin dun)(lin dun)平方后求和有平方后求和有平方后求和有平方后求和有SSTSST=SSRSSR+SSESSE总变差平方和总变差平方和(SSTSST)回归平方和回归平方和(SSRSSR)残差平方和残差平方和(SSESSE)并进一步用并进一步用n个取值的偏离平方和来描述个取值的偏离平方和来描述(mio sh)它们,它们,分别分别记为记为 第47页/共65页第四十八页,共65页。n n总偏差平方和总偏差平方和总偏差平方和总偏差平方和 分解为回归平方和分解为回归平方和分解为回归平方和分解为回归平方和 及残余平方和及残余平方和及残余平方和及残余平方和 。回归平方和。回归平方和。回归平方和。回归平方和 反映了在反映了在反映了在反映了在y y总的偏差中因总的偏差中因总的偏差中因总的偏差中因x x和和和和y y的线性关的线性关的线性关的线性关系而引起系而引起系而引起系而引起y y变化的大小。残余平方和变化的大小。残余平方和变化的大小。残余平方和变化的大小。残余平方和 反映了在反映了在反映了在反映了在y y总的总的总的总的偏离中除了偏离中除了偏离中除了偏离中除了x x对对对对y y线性影响之外的其他因素而引起线性影响之外的其他因素而引起线性影响之外的其他因素而引起线性影响之外的其他因素而引起y y变化变化变化变化的大小。这些因素包括测量误差,的大小。这些因素包括测量误差,的大小。这些因素包括测量误差,的大小。这些因素包括测量误差,x x和和和和y y不能用直线关系不能用直线关系不能用直线关系不能用直线关系描述的因柬以及描述的因柬以及描述的因柬以及描述的因柬以及(y(y j)j)其他未加控制的因素等。如上节其他未加控制的因素等。如上节其他未加控制的因素等。如上节其他未加控制的因素等。如上节所述,回归分析的要求就是使残余平方和最小,即所述,回归分析的要求就是使残余平方和最小,即所述,回归分析的要求就是使残余平方和最小,即所述,回归分析的要求就是使残余平方和最小,即 残残残残愈小,回归效果愈好。愈小,回归效果愈好。愈小,回归效果愈好。愈小,回归效果愈好。第48页/共65页第四十九页,共65页。n n 总偏差平方和 回归平方和 残余平方和 意义 反映因变量的n个观测值与其均值得总偏差 在总的偏差中因x和y的线性关系而引起变化的大小在总的偏离中除了x对y线性影响之外的其它因素而引起y变化的大小三个平方和的意义三个平方和的意义(yy):第49页/共65页第五十页,共65页。n n由回归平方和及残余由回归平方和及残余由回归平方和及残余由回归平方和及残余(cny)(cny)平方和的意义可知,一个线平方和的意义可知,一个线平方和的意义可知,一个线平方和的意义可知,一个线性回归方程是否显著,取决于性回归方程是否显著,取决于性回归方程是否显著,取决于性回归方程是否显著,取决于 和和和和 的大小。若的大小。若的大小。若的大小。若 愈大而愈大而愈大而愈大而 愈小,则说明与的线性回归的关系愈密切。愈小,则说明与的线性回归的关系愈密切。愈小,则说明与的线性回归的关系愈密切。愈小,则说明与的线性回归的关系愈密切。构造统计量:构造统计量:构造统计量:构造统计量:其中,其中,为回归为回归(hugu)平方和的自由度,平方和的自由度,为残余平方和的自由度为残余平方和的自由度 第50页/共65页第五十一页,共65页。n n自由度是指独立观测值的个数,因自由度是指独立观测值的个数,因自由度是指独立观测值的个数,因自由度是指独立观测值的个数,因 中中中中n n个观测值个观测值个观测值个观测值 受平均值受平均值受平均值受平均值 的约束,则有一个观测值不是独立的,的约束,则有一个观测值不是独立的,的约束,则有一个观测值不是独立的,的约束,则有一个观测值不是独立的,即失去即失去即失去即失去(shq)(shq)了一个自由度,了一个自由度,了一个自由度,了一个自由度,=n-1,=n-1,n n 中只有中只有中只有中只有b b是独立变化的,即自由度是独立变化的,即自由度是独立变化的,即自由度是独立变化的,即自由度 =1 =1。n n则则则则 =n-2,=n-2,则有则有则有则有第51页/共65页第五十二页,共65页。n n在给定在给定(i dn)显著性水平显著性水平下,下,由由F分布表差得临界值分布表差得临界值 ,将计算值将计算值F与与 比较,若比较,若F ,则认为该回归效果显,则认为该回归效果显著,反之,则不显著。著,反之,则不显著。第52页/共65页第五十三页,共65页。中的分母为残余中的分母为残余(cny)(cny)方方差:差:残余(cny)标准差为:它的意义表征除了它的意义表征除了x与与y线性关系之外其他线性关系之外其他(qt)因素影响因素影响y值偏的大小值偏的大小 第53页/共65页第五十四页,共65页。10 10 10 10 回归直线回归直线回归直线回归直线(zhxin)(zhxin)(zhxin)(zhxin)的拟合优度及测定系数的拟合优度及测定系数的拟合优度及测定系数的拟合优度及测定系数n n拟合优度:回归直线与各观测点的接近程度称为回拟合优度:回归直线与各观测点的接近程度称为回拟合优度:回归直线与各观测点的接近程度称为回拟合优度:回归直线与各观测点的接近程度称为回归直线对数据归直线对数据归直线对数据归直线对数据(shj)(shj)的拟合优度。的拟合优度。的拟合优度。的拟合优度。n n工具一工具一工具一工具一判定系数:对估计的回归方程拟合优度的判定系数:对估计的回归方程拟合优度的判定系数:对估计的回归方程拟合优度的判定系数:对估计的回归方程拟合优度的度量工具。度量工具。度量工具。度量工具。第54页/共65页第五十五页,共65页。n n工具二工具二估计标准估计标准(biozhn)(biozhn)误:度量各实际观误:度量各实际观察点在直线周围的离散状况的察点在直线周围的离散状况的统计量,其实质是对误差项统计量,其实质是对误差项e e的的标准标准(biozhn)(biozhn)差的估计差的估计,它可它可以看做是在排除了以看做是在排除了x x对对y y的线性的线性影响后,影响后,y y随机波动大小的一个随机波动大小的一个估计量。估计量。第55页/共65页第五十六页,共65页。11 11 11 11 非线性回归非线性回归非线性回归非线性回归(hugu)(hugu)(hugu)(hugu)n n1.1.化曲线拟合为直线化曲线拟合为直线化曲线拟合为直线化曲线拟合为直线(zhxin)(zhxin)拟合的步骤:拟合的步骤:拟合的步骤:拟合的步骤:n n 选择回归模型。根据实验数据散点图分布的特点以及所掌握的物理选择回归模型。根据实验数据散点图分布的特点以及所掌握的物理选择回归模型。根据实验数据散点图分布的特点以及所掌握的物理选择回归模型。根据实验数据散点图分布的特点以及所掌握的物理规律,选择可线化函数的模型规律,选择可线化函数的模型规律,选择可线化函数的模型规律,选择可线化函数的模型n n作线性化变量变换后,按一元线性回归问题计算待定的系数、原的作线性化变量变换后,按一元线性回归问题计算待定的系数、原的作线性化变量变换后,按一元线性回归问题计算待定的系数、原的作线性化变量变换后,按一元线性回归问题计算待定的系数、原的剩余平方和。剩余平方和。剩余平方和。剩余平方和。n n如果对拟合结果不满意,再选择其它模如果对拟合结果不满意,再选择其它模如果对拟合结果不满意,再选择其它模如果对拟合结果不满意,再选择其它模n n型,重复以上步骤型,重复以上步骤型,重复以上步骤型,重复以上步骤 。n n比较不同模型拟合所得的原剩余平方和,选最小者即为所求。比较不同模型拟合所得的原剩余平方和,选最小者即为所求。比较不同模型拟合所得的原剩余平方和,选最小者即为所求。比较不同模型拟合所得的原剩余平方和,选最小者即为所求。第56页/共65页第五十七页,共65页。常见的几种常见的几种(j zhn)变换形式:变换形式:1、双曲线、双曲线 令令 第57页/共65页第五十八页,共65页。2 2、幂函数曲线、幂函数曲线(qxin)(qxin)令令 变形变形(bin xng)3 3、指数函数、指数函数(zh sh hn sh)(zh sh hn sh)曲线曲线 令令 变形变形 第58页/共65页第五十九页,共65页。5 5、S S型(型(LogisticLogistic)曲线)曲线(qxin)(qxin)令令 变形变形(bin xng)4 4、对数函数、对数函数(du sh hn sh)(du sh hn sh)曲线曲线 令令 第59页/共65页第六十页,共65页。非线性回归非线性回归(hugu)分分析析函数形式线性变换变换结果双曲线指数函数幂函数对数函数S型曲线第60页/共65页第六十一页,共65页。例例 测定测定(cdng)某肉鸡的生长过程,每两周记录一次鸡的重量,某肉鸡的生长过程,每两周记录一次鸡的重量,数据如下表数据如下表x/周2468101214y/kg0.30.861.732.22.472.672.8由经验知鸡的生长由经验知鸡的生长(shngzhng)曲线为曲线为Logistic曲线,且极限生长曲线,且极限生长(shngzhng)量量为为k=2.827,试求,试求y对对x的回归曲线方程。的回归曲线方程。解解 由题设可建立鸡重由题设可建立鸡重y与时间与时间x的相关的相关(xinggun)关系为关系为 第61页/共65页第六十二页,共65页。令令 则有则有 列表列表(li bio)计算计算 序号序号xyyX2y2xy120.32.13144.5414.262240.860.827160.6843.309361.73-0.456360.208-2.733482.2-1.255641.576-10.0425102.47-1.9341003.741-19.3426122.67-2.8341448.029-34.0037142.8-4.64219621.544-64.982 5613.03-8.16256040.323-123.531第62页/共65页第六十三页,共65页。所以所以(suy)所以所以(suy)所求曲线方程为所求曲线方程为 第63页/共65页第六十四页,共65页。谢谢!第64页/共65页第六十五页,共65页。