《第8章_回归分析.ppt》由会员分享,可在线阅读,更多相关《第8章_回归分析.ppt(124页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第八章第八章回归分析回归分析回归分析回归分析u回归分析是寻求一个随机变量回归分析是寻求一个随机变量y对变量对变量 x1,x2,xn相依关系的统计分析方法。相依关系的统计分析方法。u管理决策中常遇到的回归问题管理决策中常遇到的回归问题广告支出与营业额广告支出与营业额售货员工龄与年销售额售货员工龄与年销售额汽车使用年数与年平均修理成本汽车使用年数与年平均修理成本轮胎等级与其装载能力轮胎等级与其装载能力一、回归分析的基本的思想一、回归分析的基本的思想三、可化为一元线性回归的问题三、可化为一元线性回归的问题四、小结四、小结第一节一元线性回归二、二、一一 元回归的数学模型元回归的数学模型变量之间的关系变
2、量之间的关系确定性关系确定性关系相相 关关 关关 系系确定性关系确定性关系身高和体重身高和体重相关关系相关关系一、回归分析的基本思想相关关系的特征是相关关系的特征是:变量之间的关系很难用一种精确的方法表示出来变量之间的关系很难用一种精确的方法表示出来.由于存在测量误差等原因由于存在测量误差等原因,确定性关系在实际确定性关系在实际问题中往往通过相关关系表示出来问题中往往通过相关关系表示出来;另一方面另一方面,当对当对事物内部规律了解得更加深刻时事物内部规律了解得更加深刻时,相关关系也有可相关关系也有可能转化为确定性关系能转化为确定性关系.回归分析回归分析处理变量之间的相关关系的一处理变量之间的相
3、关关系的一种数学方法种数学方法,线性回归分析线性回归分析非线性回归分析非线性回归分析回回归归分分析析一元线性回归分析一元线性回归分析多元线性回归分析多元线性回归分析它是最常用的数理统计方法它是最常用的数理统计方法.二、一元线性回归的数学模型二、一元线性回归的数学模型每每 月月 家家 庭庭 可可 支支 配配 收收 入入 X X10001500200025003000350040004500500055008209621108132916321842203722752464282488810241201136517261874211023882589303893211211264141017861
4、9062225242627903150每每960121013101432183510682319248828563201月月125913401520188520662321258729003288家家132414001615194321852365265030213399庭庭1448165020372210239827893064消消1489171220782289248728533142费费1538177821792313251329343274支支160018412298239825383110出出17021886231624232567Y1900238724532610201224982
5、487271025892586900115014001650190021502400265029003150例例:100个家庭的消费支出与可支配收入个家庭的消费支出与可支配收入 (单位单位:元元)的的条件分布条件分布 当当解解释释变变量量 取取某某固固定定值值时时(条条件件),的的值值不不确确定定,的不同取值形成一定的分布,即的不同取值形成一定的分布,即 的的条件分布条件分布。的的条件期望条件期望 对于对于 的每一个取值,的每一个取值,对对 所形成的分布确所形成的分布确定其期望或均值,称定其期望或均值,称为为 的条件期望或条的条件期望或条件均值件均值注意几个概念注意几个概念回归线回归线:对于每
6、一个对于每一个 的取值,的取值,都有都有 的条件期望的条件期望 与之对应,与之对应,代表这些代表这些 的条件期的条件期 望的点的轨迹所形成望的点的轨迹所形成 的直线或曲线,称为的直线或曲线,称为 回归线回归线。回归线与回归函数回归线与回归函数回归函数回归函数:应变量应变量的条件期望的条件期望随解释随解释变量变量的的变化而有规律的变化,如果把的的变化而有规律的变化,如果把的条件期望的条件期望表现为表现为的某种函数的某种函数这个函数称为这个函数称为回归函数回归函数。回归函数分为:回归函数分为:总体回归函数和样本回归函数总体回归函数和样本回归函数回归线与回归函数(4)利用回归函数进行预测与控制等等利
7、用回归函数进行预测与控制等等.(3)对回归函数中的参数或者回归函数本身进行假对回归函数中的参数或者回归函数本身进行假设检验设检验;特别对特别对随机变量随机变量Y 的观察值做出点预测和区间预的观察值做出点预测和区间预测测.(2)讨论回归函数中参数的点估计、区间估计讨论回归函数中参数的点估计、区间估计;回归分析的任务回归分析的任务:(1)根据试验数据估计回归函数根据试验数据估计回归函数;问题的一般提法问题的一般提法求解步骤求解步骤1.推测回归函数的形式推测回归函数的形式方法一根据专业知识或者经验公式确定方法一根据专业知识或者经验公式确定;方法二作散点图观察方法二作散点图观察.温度温度x(oC)得率
8、得率Y(%)10011012013014015016017018019045 51 54 61 66 70 74 78 85 89例例1测得数据如下测得数据如下.品得率品得率Y(%)的影响的影响,为研究某一化学反应过程中为研究某一化学反应过程中,画出散点图如下,画出散点图如下,一元线性回归问题一元线性回归问题2.建立回归模型建立回归模型一元线性回归模型一元线性回归模型3.3.未知参数未知参数a,b的估计的估计根据根据得方程组得方程组简称简称回归方程回归方程,其其图形称为图形称为回归直线回归直线.例例2述的条件述的条件,例例1中的随机变量中的随机变量 Y 符合一元线性回归模型所符合一元线性回归模
9、型所求求 Y 关于关于 x 的线性回归方程的线性回归方程.x y xy x2 y210011012013014015016017018019014504551546166707478858967310000121001440016900196002250025600289003240036100218500202526012916372143564900547660847225792147225450056106480793092401050011840132601530016910101570 例例3在钢线碳含量对于电阻的效应的研究中在钢线碳含量对于电阻的效应的研究中,得到了以得到了以下数据
10、下数据:碳含量(碳含量(%)0.10 0.30 0.40 0.55 0.70 0.80 0.95电阻(微欧)电阻(微欧)15 18 19 21 22.6 23.8 26假设对于给定的假设对于给定的 为正态变量为正态变量,且方差与且方差与 无关无关.如果如果 满足经验公式满足经验公式 求经验回归线性方程求经验回归线性方程 解解 设设现在现在从而所求的线性回归方程为从而所求的线性回归方程为 .可以看出可以看出,碳含量每增加一个单位碳含量每增加一个单位,电阻电阻平均增加平均增加12.5503个单位个单位.例例4 某某某某种种种种合合合合金金金金的的的的抗抗抗抗拉拉拉拉强强强强度度度度y(kg/mm2
11、)y(kg/mm2)y(kg/mm2)y(kg/mm2)与与与与其其其其中中中中的的的的含含含含碳碳碳碳量量量量x x x x(%)有有有有关关关关,今今今今测测测测得得得得12121212对对对对数数数数据据据据如如如如表表表表所所所所示示示示。试求试求试求试求y y y y关于关于关于关于x x x x的线性回归方程的线性回归方程的线性回归方程的线性回归方程x x0.100.10 0.110.110.120.12 0.130.13 0.140.14 0.150.15 0.160.16 0.170.17 0.180.180.200.20 0.210.21 0.230.23y y42.042.
12、0 43.543.5 45.045.0 45.545.5 45.045.0 47.547.5 49.049.0 53.053.0 50.050.055.055.0 55.055.0 60.060.0一元线性回归一元线性回归解:列表xyx2y2xy0.1042.00.01001764.004.20.1143.50.01211892.254.7850.1245.00.01442025.005.40.1345.50.01692070.255.9150.1445.00.01962025.006.30.1547.00.02252256.257.1250.1649.00.02562401.007.840.
13、1753.00.02892809.009.010.1850.00.032425009.00.2055.00.04003025110.2155.00.0441302511.550.2360.00.0529360013.8 1.90590.50.319429392.7295.925一元线性回归一元线性回归解解:计算结果计算结果故故线性回归方程为线性回归方程为4、最小二乘估计量的性质及概率分布、最小二乘估计量的性质及概率分布 当模型参数估计出后,需考虑参数估计值的精度,即是否能代表总体参数的真值,或者说需考察参数估计量的统计性质。一个用于考察总体的估计量,可从如下几个方面考察其优劣性:(1)线性性)
14、线性性,即它是否是另一随机变量的线性函数;(2)无偏性)无偏性,即它的均值或期望值是否等于总体的真实值;(3)有效性)有效性,即它是否在所有线性无偏估计量中具有最小方差。(4)渐渐近近无无偏偏性性,即样本容量趋于无穷大时,是否它的均值序列趋于总体真值;(5)一一致致性性,即样本容量趋于无穷大时,它是否依概率收敛于总体的真值;(6)渐渐近近有有效效性性,即样本容量趋于无穷大时,是否它在所有的一致估计量中具有最小的渐近方差。这三个准则也称作估计量的小样本性质。小样本性质。拥有这类性质的估计量称为最佳线性无偏估计最佳线性无偏估计量量(best liner unbiased estimator,BLU
15、E)。当不满足小样本性质时,需进一步考察估计量的大样本大样本或或渐近性质渐近性质:是是是是 的线的线的线的线性组合,且彼此独立的正性组合,且彼此独立的正性组合,且彼此独立的正性组合,且彼此独立的正态变量,态变量,态变量,态变量,服从正态分布服从正态分布服从正态分布服从正态分布估计量的分布估计量的分布的分布的分布 的期望的期望的期望的期望 的方差的方差的方差的方差的分布的分布 的期望的期望的期望的期望的分布的分布 的方差的方差的方差的方差的分布的分布的分布的分布 回归系数的方差不仅与误差的方差有关,也与观测数据的个数回归系数的方差不仅与误差的方差有关,也与观测数据的个数及其波动有关,即数据愈多,
16、及其波动有关,即数据愈多,x x的值愈分散,回归系数的波动愈小,的值愈分散,回归系数的波动愈小,这对实验设计有一定的指导这对实验设计有一定的指导残差平方和残差平方和例例3 求例求例2中方差的无偏估计中方差的无偏估计.解解5.5.线性假设的显著性检验线性假设的显著性检验回归效果不显著的原因分析回归效果不显著的原因分析:例例4解解取显著性水取显著性水平为平为 0.05.检验例检验例 2 中的回归效果是否显著中的回归效果是否显著,6.系数系数b的置信区间的置信区间7.7.回归函数回归函数 函数值的点估计和置信区间函数值的点估计和置信区间8.Y 的观察值的点预测和预测区间的观察值的点预测和预测区间例例
17、5(续例续例2)解解(1)已知已知(2)在在MATLAB中求解中求解输出参数输出参数回归直线回归直线三、可化为一元线性回归的例子方法方法通过适当的变量变换通过适当的变量变换,化成一元线性化成一元线性回归问题进行分析处理回归问题进行分析处理.几种常见的可转化为一元线性回归的模型几种常见的可转化为一元线性回归的模型求求 Y 关于关于 x 的回归方程的回归方程.格格(以美元计以美元计),Y 表示相应的平均价表示相应的平均价今以今以 x 表示轿车的使用年数表示轿车的使用年数,下表是下表是 1957 年美国旧轿车价格的调查资料年美国旧轿车价格的调查资料,例例6表表年数年数x价格价格Y1234567891
18、02651194314941087765538484290226204解解在在MATLAB中求解中求解首先作散点图首先作散点图x=1:1:10;y=2651,1943,1494,1087,765,538,484,290,226,204;plot(x,y,.r)选择模型选择模型变量变换变量变换数据变换后得数据变换后得线性假设的显著性检验线性假设的显著性检验线性回归效果高度显著线性回归效果高度显著.代回原变量代回原变量,得曲线回归方程得曲线回归方程经计算经计算是非线性回归模型是非线性回归模型.不能经过变量变换转化为线性回归模型的称为不能经过变量变换转化为线性回归模型的称为本本质的非线性回归模型质的
19、非线性回归模型.例如例如Holliday 模型模型Logistic 模型模型四、小结1.回归分析的任务回归分析的任务2.一元线性回归的步骤一元线性回归的步骤3.可化为一元线性回归的问题可化为一元线性回归的问题研究变量之间的相关关系研究变量之间的相关关系(1)推测回归函数推测回归函数;关键关键:选择适当的选择适当的变量代换变量代换.(5)预测与控制预测与控制.(2)建立回归模型建立回归模型;(3)估计未知参数估计未知参数;(4)进行假设检验进行假设检验;一、多元线性回归的数学模型一、多元线性回归的数学模型二、数学模型的分析与求解二、数学模型的分析与求解三、三、MATLAB中回归分析的实现中回归分
20、析的实现四、小结四、小结第二节多元线性回归一、多元线性回归的数学模型用最大似然估计法估计参数用最大似然估计法估计参数.达到最小达到最小.二、数学模型的分析与求解化简可得化简可得正规方程组正规方程组引入矩阵引入矩阵正规方程组的矩阵形式正规方程组的矩阵形式最大似然估计值最大似然估计值称为称为P P元经验线性回归方程元经验线性回归方程,简称简称回归方程回归方程.多元线性回归多元线性回归1.确定回归系数的点估计值确定回归系数的点估计值,b,bint,r,rint,stats=regress(Y,X,alpha)rcoplot(r,rint)三、MATLAB中回归分析的实现用命令用命令:b=regres
21、s(Y,X)2.求回归系数的点估计和区间估计求回归系数的点估计和区间估计,并检验回并检验回归模型归模型,用命令用命令:3.画出残差及其置信区间画出残差及其置信区间,用命令用命令:符号说明符号说明(1)(2)alpha为显著性水平为显著性水平,(3)bint为回归系数的区间估计为回归系数的区间估计;(4)r与与rint分别为残差及其置信区间分别为残差及其置信区间;(5)stats 是用于检验回归模型的统计量是用于检验回归模型的统计量,默认为默认为 0.05;有三有三个数值个数值,FF1-alpha第一个是相关系数第一个是相关系数 r2,其值越接近于其值越接近于 1,说说明回归方程越显著明回归方程
22、越显著;第二个是第二个是 F 值值,(p,n-p-1)时,时,拒绝拒绝 H0,F 越大越大,说明回归方程越显著说明回归方程越显著;第三个是与第三个是与F对应的概率对应的概率 p,palpha 时拒绝时拒绝,模型成立模型成立.回归回归身高身高143 145 146 147 149 150 153 154腿长腿长8885889192939395身高身高155 156 157 158 159 160 162 164腿长腿长969897969899100 102例例1试研究这些数据之间的关系试研究这些数据之间的关系.测得测得16名女子的身高和腿长如下名女子的身高和腿长如下(单位单位:cm):输入数输入
23、数据据x=143,145,146,147,149,150,153,154,155,156,157,158,159,160,162,164;X=ones(16,1),x;Y=88,85,88,91,92,93,93,95,96,98,97,96,98,99,100,102;回归分析及检验回归分析及检验b,bint,r,rint,stats=regress(Y,X);b,bint,stats残差分析残差分析rcoplot(r,rint)预测及作图预测及作图z=b(1)+b(2)*xplot(x,Y,k+,x,z,r)数据比较数据比较残差图形残差图形预测图形预测图形数据比较数据比较帮助帮助程序运行结
24、果程序运行结果一元多项式回归一元多项式回归p,S=polyfit(x,y,m)也可使用命令也可使用命令:polytool(x,y,m)用命令用命令:1.确定多项式系数确定多项式系数,结果产生一个交互式的画面结果产生一个交互式的画面,画面中有拟合曲画面中有拟合曲2.预测和预测误差估计用命令预测和预测误差估计用命令:求回归多项式在求回归多项式在x处的预测值处的预测值Y.Y,DELTA=polyconf(p,x,S,alpha)的默认值是的默认值是 0.05.一元多项式回归可化为多元线性回归求解一元多项式回归可化为多元线性回归求解.Y=polyval(p,x)线和线和 y 的置信区间的置信区间,左下
25、方的左下方的 Export 可以输出参数可以输出参数.求回归多项式在求回归多项式在 x 处的预测值处的预测值 Y 以及预测值以及预测值的显著性为的显著性为1-alpha 的置信区间的置信区间 YDELTA,alpha例例2 某件产品每件平均单价某件产品每件平均单价Y(元元)与批量与批量x(件件)之间之间的关系的一组数据的关系的一组数据xy303540505560657080901.651.55 1.48 1.40 1.30 1.26 1.24 1.21 1.20 1.1825201.81 1.70解解(XTX)-1(XTX)-1得到回归方程得到回归方程试用一元二次多项式进行回归分析试用一元二次
26、多项式进行回归分析,输入数据输入数据x=20,25,30,35,40,50,60,65,70,75,80,90;y=1.81,1.70,1.65,1.55,1.48,1.40,1.30,1.26,1.24,1.21,1.20,1.18;作二次多项式回归作二次多项式回归p,S=polyfit(x,y,2)预测及作图预测及作图Y=polyconf(p,x,y)plot(x,y,b+,x,Y,r)回归结果回归结果残差图形残差图形预测图形预测图形帮助帮助程序运行结果程序运行结果化为多元线性回归化为多元线性回归X=ones(12,1)x(x.2);b,bint,r,rint,stats=regress(
27、y,X);b,stats与前面的结果一致与前面的结果一致.多元二项式回归多元二项式回归rstool(x,y,model,alpha)认为线性模型认为线性模型.其中其中,输入数据输入数据 x,y 分别为分别为 nm 矩阵和矩阵和 n 维维列向量列向量;alpha 为显著性水平为显著性水平,默认为默认为 0.05;为下列四种模型中的一种为下列四种模型中的一种,输入相应的字符串输入相应的字符串,默默modelrstool的输出是一个交互式画面的输出是一个交互式画面,画面中有画面中有m个个图形图形,分别给出了一个独立变量分别给出了一个独立变量xi与与y的拟合曲线的拟合曲线,以及以及y的置信区间的置信区
28、间,此时其余此时其余m-1个变量取固定值个变量取固定值.可以输入不同的变量的不同值得到可以输入不同的变量的不同值得到y的相应值的相应值.其中剩余标准差最接近于零的模型回归效果最好其中剩余标准差最接近于零的模型回归效果最好.图的左下方有两个下拉式菜单图的左下方有两个下拉式菜单,一个用于传送一个用于传送回归系数、回归系数、剩余标准差、剩余标准差、残差等数据残差等数据;另一个用于选另一个用于选择四种回归模型中的一种择四种回归模型中的一种,选择不同的回归模型选择不同的回归模型,例例3需求量需求量10075807050收入收入 10006001200500300价格价格57668需求量需求量659010
29、011060收入收入4001300 1100 1300300价格价格75439设某商品的需求量与消费者的平均收入、设某商品的需求量与消费者的平均收入、商商品价格的统计数据如下品价格的统计数据如下,建立回归模型建立回归模型,预测平均收预测平均收入为入为 1000,价格为价格为 6 时的商品需求量时的商品需求量.选择纯二次模型选择纯二次模型,即即数据输入数据输入x1=1000,600,1200,500,300,400,1300,1100,1300,300;x2=5,7,6,6,8,7,5,4,3,9;y=100,75,80,70,50,65,90,100,110,60;x=x1 x2;回归、回归、
30、rstool(x,y,purequadratic)回归图形回归图形回归结果回归结果帮助帮助程序运行结果程序运行结果检验与预测检验与预测化为多元线性回归求解化为多元线性回归求解x1=1000,600,1200,500,300,400,1300,1100,1300,300;x2=5,7,6,6,8,7,5,4,3,9;y=100,75,80,70,50,65,90,100,110,60;X=ones(10,1)x1 x2(x1.2)(x2.2);b,bint,r,rint,stats=regress(y,X)回归系数的点估计以及区间估计回归系数的点估计以及区间估计残差及其置信区间残差及其置信区间检
31、验回归模型的统计量检验回归模型的统计量逐步回归分析逐步回归分析在实际问题中在实际问题中,而这些而这些因素之间可能存在多重共线性因素之间可能存在多重共线性.为得到可靠的回归为得到可靠的回归模型模型,需要一种方法能有效地从众多因素中挑选出需要一种方法能有效地从众多因素中挑选出对因变量贡献大的因素对因变量贡献大的因素.如果采用多元线性回归分析如果采用多元线性回归分析,回归方程稳定性回归方程稳定性差差,每个自变量的区间误差积累将影响总体误差每个自变量的区间误差积累将影响总体误差,预预测的可靠性差、测的可靠性差、精度低精度低;另外另外,如果采用了影响小的如果采用了影响小的变量变量,遗漏了重要变量遗漏了重
32、要变量,可能导致估计量产生偏倚和可能导致估计量产生偏倚和影响因变量的因素很多影响因变量的因素很多,选择选择“最优最优”回归方程的方法回归方程的方法最优者最优者;显著因子显著因子;3.从一个变量开始从一个变量开始,量而不包括影响不显著的变量量而不包括影响不显著的变量.不一致性不一致性.“最优最优”的回归方程应该包含所有有影响的变的回归方程应该包含所有有影响的变1.从所有可能的变量组合的回归方程中选择从所有可能的变量组合的回归方程中选择2.从包含全部变量的回归方程中逐次剔除不从包含全部变量的回归方程中逐次剔除不把变量逐个引入方程把变量逐个引入方程;4.“有进有出有进有出”的的逐步回归分析逐步回归分
33、析.逐步回归分析法逐步回归分析法在筛选变量方面比较理想在筛选变量方面比较理想,是是目前较常用的方法目前较常用的方法.它从一个自变量开始它从一个自变量开始,根据自变根据自变量作用的显著程度量作用的显著程度,从大到小地依次逐个引入回归从大到小地依次逐个引入回归方程方程,但当引入的自变量由于后面变量的引入而变但当引入的自变量由于后面变量的引入而变得不显著时得不显著时,要将其剔除掉要将其剔除掉.引入一个自变量或从回引入一个自变量或从回归方程中剔除一个自变量归方程中剔除一个自变量,为逐步回归的一步为逐步回归的一步,对于对于每一步每一步,都进行检验都进行检验,以确保每次引入新的显著性变以确保每次引入新的显
34、著性变量前回归方程中只包含作用显著的变量量前回归方程中只包含作用显著的变量.方程方程.反复进行上面的过程反复进行上面的过程,直到没有不显著的变量直到没有不显著的变量从回归方程中剔除从回归方程中剔除,也没有显著变量可引入到回归也没有显著变量可引入到回归函数函数:stepwise用法用法:stepwise(x,y,inmodel,alpha)符号说明符号说明:x自变量数据自变量数据,y因变量数据因变量数据,型中引入的自变量型中引入的自变量,认相当于对回归系数给出认相当于对回归系数给出95%的置信区间的置信区间.inmodel由矩阵由矩阵x列的指标构成列的指标构成,表明初始模表明初始模alpha判断
35、模型中每一项显著性的指标判断模型中每一项显著性的指标,默默为为nm矩阵矩阵;为为n1矩阵矩阵;默认为全部自变量默认为全部自变量;例例4序号序号1234567x17111117113x226295631525571x3615886917x46052204733226y78.574.3104.387.695.9109.2102.7序号序号8910111213x1122111110 x2315447406668x3221842398x4442226341212y72.593.1115.983.8113.3109.4水泥凝固时放出的热量水泥凝固时放出的热量 y 与水泥中的四种化与水泥中的四种化学成分学
36、成分 x1,x2,x3,x4 有关有关,今测得一组数据如下今测得一组数据如下,试试用逐步回归法确定一个线性模型用逐步回归法确定一个线性模型.x1=7,1,11,11,7,11,3,1,2,21,1,11,10;x2=26,29,56,31,52,55,71,31,54,47,40,66,68;x3=6,15,8,8,6,9,17,22,18,4,23,9,8;x4=60,52,20,47,33,22,6,44,22,26,34,12,12;y=78.5,74.3,104.3,87.6,95.9,109.2,102.7,72.5,93.1,115.9,83.8,113.3,109.4;x=x1,
37、x2,x3,x4;输入数据输入数据逐步回归逐步回归回归平面回归平面帮助帮助stepwise(x,y)逐步回归分析逐步回归分析程序运行结果程序运行结果对变量对变量 y 和和 x1,x2 作线性回归作线性回归.X=ones(13,1),x1,x2;b,bint,stats=regress(y,X)回归模型为回归模型为三个统计量表明三个统计量表明:回归效果显著回归效果显著.四、小结1.多元线性回归的数学模型多元线性回归的数学模型2.数学模型的分析与求解数学模型的分析与求解3.MATLAB中回归分析的实现中回归分析的实现(1)多元线性回归多元线性回归b=regress(Y,X)(2)一元多项式回归一元多项式回归p,S=polyfit(x,y,m)(3)多元二项式回归多元二项式回归rstool(x,y,model,alpha)(4)逐步回归分析逐步回归分析stepwise(x,y,inmodel,alpha)
限制150内