多元回归模型与建模52756.pptx
《多元回归模型与建模52756.pptx》由会员分享,可在线阅读,更多相关《多元回归模型与建模52756.pptx(54页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、多元回归模型与建模多元回归模型与建模2005年年5月月5/22/20231AppliedStatforMBA05D1一、多元线性回归问题一、多元线性回归问题 1.一元回归问题的困惑巴特勒(Butler)运输公司的例子(p661):行驶距离(英里)运送货物次数行驶时间(小时)10049.35034.810048.910026.55024.28026.27537.465469037.69026.15/22/20232AppliedStatforMBA05D12.做行驶时间-行驶距离的一元回归CoefficientstStatP-valueIntercept1.273913 0.9094540.38
2、9687行驶距离(英里)0.0678263.9767550.00408回归方程为可以看出方程整体检验和自变量检验的P值为0.0041,一元回归能够显著成立。但是判定系数偏小,说明有些因变量的解释因素(例如运货次数)没有引入。5/22/20233AppliedStatforMBA05D15/22/20234AppliedStatforMBA05D14.来自p元回归模型的容量为n的样本注意:的第1个脚码k表示变量编号,k=1,p;第2个脚码i=1,n表示样本编号。5/22/20235AppliedStatforMBA05D15.多元回归总体模型和古典假定总体模型表示式为古典假定1)E(ei)=0;
3、(E(yi)=x1i+pxpi);2)对于所有的i,Var(ei)=;3)ei是服从正态分布N(0,)的;4)对于不同的ei,ej(ij)是相互独立的。5/22/20236AppliedStatforMBA05D16.多元线性回归方程的估计5/22/20237AppliedStatforMBA05D1巴特勒公司二元线性回归模型的估计自变量:x1-行驶距离,x2-运货次数。回归方程:5/22/20238AppliedStatforMBA05D17.多元回归方程变差分解和判定系数R2总变差的分解:SST=SSR+SSE;多元判定系数:R2=SSR/SST;多重相关系数r;调整(修正)的判定系数 :
4、巴特勒公司二元线性回归模型的判定系数5/22/20239AppliedStatforMBA05D18.对回归方程的检验:F Test for Overall Significance问题:因变量和所有自变量之间是否存在显著问题:因变量和所有自变量之间是否存在显著的关系?的关系?判定系数判定系数 R2可以可以 做方程的整体检验,但是遇到做方程的整体检验,但是遇到分布的困难。分布的困难。检验假设检验假设拒绝域拒绝域F和R2的关系:R2=pF/(n-p-1+pF)。?5/22/202310AppliedStatforMBA05D19.对回归系数的检验:t Test for Individual Si
5、gnificance检验假设检验假设检验统计量检验统计量拒绝域拒绝域5/22/202311AppliedStatforMBA05D110.巴特勒公司线性回归模型的Excel输出回归统计R=0.951R2=0.904adjR2=0.876s=0.573n=10方差分析dfSSMSFSignificanceF回归221.60110.80032.8780.00027624残差72.299 0.328总计923.9Here:SSR=21.601,SSE=2.299,SST=23.9.系数估计和检验Coefficients标准误差tStatp-valueIntercept-0.86870.9515-0.
6、91290.39163行驶距离(英里)0.06110.00996.18240.00045运送货物次数0.92340.22114.17630.004165/22/202312AppliedStatforMBA05D111.多重共线性(Multicollinearity)(1)巴特勒运输公司例题的修改行驶距离运送货物次数(修改数)行驶时间1004(4)9.3503(2)4.81004(4)8.91002(4)6.5502(2)4.2802(3)6.2753(3)7.4654(3)6903(4)7.6902(4)6.15/22/202313AppliedStatforMBA05D1(2)巴特勒运输公
7、司例题的回归结果一元回归方程一元回归方程二元回归方程二元回归方程运输次数修改后的二元回归方程运输次数修改后的二元回归方程(F检验检验p值:值:0.021)*括弧内表示系数的括弧内表示系数的p-值值。5/22/202314AppliedStatforMBA05D1(3)多重共线性问题讨论巴特勒运输回归结果说明:增加解释变量不会降低R2的值,但是adjR2的值却会降低.前两个回归方程的系数p-值都很低(说明甚麽?),后一个修改运输次数的二元回归的两个系数p-值都很高,以至通不过检验.但是后一个方程总体检验的F值的p-值却为0.021(0.05水平下方程成立)原因是修改运输次数数据,使得x1,x2的
8、相关系数由0.16升至0.97,发生了共线性.自变量发生多重共线性,会出现一些(甚至全部)变量通不过检验,但是方程总体检验却能通过.此时的解释变量系数估计值很不可靠.经验表明:解释变量数据彼此的相关系数绝对值大于0.7,回归结果就不可信,处理办法就是剔除p-值高的变量.对2个以上解释变量,自变自变量的相关矩阵和方差膨胀因子(Variance Inflation Factors,简记作VIF)是识别多重共线性的有效方法,有专门软件加以精确检验.5/22/202315AppliedStatforMBA05D112.利用模型进行预测使用计算机软件产生回归模型;通过检验判断你的模型;直接利用模型可以预
9、测自变量(x01,x02,x0p)对应的因变量期望值E(y0)的估计。预测E(y0)和y0的置信区域需要某些专门软件。5/22/202316AppliedStatforMBA05D113.多元回归的残差分析多元回归的残差分析作用方法和一元基本相同。主要的差异在于:多自变量的观测值的杠杆率hi的计算比较复杂,需要使用专门软件。回归分析建模应用中可以看到残差分析的应用5/22/202317AppliedStatforMBA05D1二二、定性自变量(Qualitative Independent Variable)1.虚拟变量虚拟变量(Dummyvariable)方差分析中定性变量的解决方案:引入因
10、子,处理。方差分析中定性变量的解决方案:引入因子,处理。回归分析的解决方案:引入虚拟变量回归分析的解决方案:引入虚拟变量如何定义虚拟变量?如何定义虚拟变量?例:例:x2=0(女性),女性),x2=1(男性)(男性)如何解释回归模型?如何解释回归模型?期望值模型为:期望值模型为:女性女性:男性男性:截距变化,斜率相同。截距变化,斜率相同。5/22/202318AppliedStatforMBA05D12.Johnson过滤水股份公司例子Johnson公司对遍布南弗罗里达州的水过滤系统提供维修服务。为了估计服务时间和成本,公司希望能够对顾客的每一次维修请求预测必要的维修时间。他们收集的数据中包含就
11、近一次维修至今的时间(月数)、故障的类型(电子和机械)以及相应的维修时间(小时)。你能够建立起一个预测方程吗?5/22/202319AppliedStatforMBA05D1(1)Johnson公司数据公司数据 维修时间维修时间/小时小时 最后维修至本次维修请求时间最后维修至本次维修请求时间/月月 故障类型故障类型2.92电子13.06机械04.88电子11.83机械02.92电子14.97电子14.29机械04.88机械04.44电子14.56电子15/22/202320AppliedStatforMBA05D1散点图有正相关的关系,可做一元回归。但是似乎可以看出有两条接近平行的直线拟合这些
12、散点。5/22/202321AppliedStatforMBA05D1(2)(2)建立维修时间建立维修时间-上次维修间隔上次维修间隔,故障性质的回归方程故障性质的回归方程第一个回归方程第一个回归方程第二个回归方程第二个回归方程解释你得到的回归方程!讨论解释你得到的回归方程!讨论 x2的作用。的作用。*括弧内表示系数的括弧内表示系数的p-值值。二元比一元的判定系数增大许多。二元比一元的判定系数增大许多。5/22/202322AppliedStatforMBA05D1(3)更复杂的定性变量更复杂的定性变量如果有如果有3种定性状态,如何设虚拟变量种定性状态,如何设虚拟变量?例例:复印机销售地区是复印
13、机销售地区是A、B、C三个地区三个地区,已知不同已知不同地区销售量不但与价格有关而且与地区也有关系地区销售量不但与价格有关而且与地区也有关系,利利用用回归分析建立销售量模型。设回归分析建立销售量模型。设x1是价格,还需要是价格,还需要2个虚个虚拟变量:拟变量:回归方程期望值表示为:回归方程期望值表示为:地区地区A方程:方程:地区地区B方程:方程:地区地区C方程:方程:注意:注意:k种状态种状态,需要引入需要引入k-1个虚拟变量。个虚拟变量。5/22/202323AppliedStatforMBA05D1三、广义线性模型 有些复杂的曲线关系也可以用多元回归方法拟合。1.模拟高阶曲线关系模拟高阶曲
14、线关系(Curvilinear Relationships)(Curvilinear Relationships)(1)ReynoldsReynolds公司是一家生产工业天平和实验室公司是一家生产工业天平和实验室设备的企业。公司管理人员想要对公司销售人员设备的企业。公司管理人员想要对公司销售人员的工作年限和天平的销售数量之间的关系进行研的工作年限和天平的销售数量之间的关系进行研究。他们随机抽取了究。他们随机抽取了1515名销售人员,得到相应的名销售人员,得到相应的数据:数据:5/22/202324AppliedStatforMBA05D1ReynoldsReynolds公司天平销售量与人员雇用
15、月数公司天平销售量与人员雇用月数 天天 平平 销售人员销售人员 天天 平平 销售人员销售人员 销售量销售量 雇用月数雇用月数 销售量销售量 雇用月数雇用月数 275 275 41 89 41 89 40 40 296 296 106 235 106 235 51 51 317 317 76 83 76 83 9 9 376 376 104 112 12 104 112 12 162 162 22 67 22 67 6 6 150 150 12 325 12 325 56 56 367 367 85 189 85 189 19 19 308 308 111 111 5/22/202325Appl
16、iedStatforMBA05D1(2)散点图和一元回归结果5/22/202326AppliedStatforMBA05D1 R2=0.781174可以看出销售量和人员雇用月数的回归方程为Sale=111.23+2.38Months(0.00012)方程的显著性也很高。但是从散点图看出似乎有非线性趋势,而且判定系数也不算大。从下页残差表和残差图看出有明显非线性特征,考虑加入二次项x2做为第二个解释变量,做二阶回归:5/22/202327AppliedStatforMBA05D1ReynoldsReynolds公司案例公司案例残差表预测天平销售量残差 标准残差208.6756926 66.324
17、307421.390020675363.166061-67.16606097-1.407662093291.862814 25.137185980.526823567358.412511217.587488830.368597488163.5169695-1.516969516-0.031792552139.7492205 10.250779470.214835193313.253788153.74621191.126409738375.0499355-67.04993546-1.405228342206.2989177-17.29891768-0.362549632232.44344162.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 回归 模型 建模 52756
限制150内