线性回归计算方法及公式 (2).ppt
《线性回归计算方法及公式 (2).ppt》由会员分享,可在线阅读,更多相关《线性回归计算方法及公式 (2).ppt(36页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、关于线性回归计算方法及公式(2)现在学习的是第1页,共36页多元线性回归多元线性回归是简单线性回归的直接推广,其包含一个因变量和二个或二个以上的自变量。简单线性回归是研究一个因变量(Y)和一个自变量(X)之间数量上相互依存的线性关系。而多元线性回归是研究一个因变量(Y)和多个自变量(Xi)之间数量上相互依存的线性关系。简单线性回归的大部分内容可用于多元回归,因其基本概念是一样的。现在学习的是第2页,共36页内容安排多元线性回归模型与参数估计回归方程和偏回归系数的假设检验标准化偏回归系数和确定系数多元回归分析中的若干问题回归分析中自变量的选择多元线性回归分析的作用现在学习的是第3页,共36页多元
2、线性回归模型与参数估计设有自变量x1,x2,xp和因变量Y以及一份由n个个体构成的随机样本(x1i,x2i,xpi,,Yi),且有如下关系:y=B0+B1x1+B2x2+Bp xp+(模型)B0、B1、B2和Bp为待估参数,为残差。由一组样本数据,可求出等估参数的估计值b0、b1、b2和bp,,得到如下回归方程:i=b0+b1x1+b2x2+bp xp 由此可见,建立回归方程的过程就是对回归模型中的参数(常数项和偏回归系数)进行估计的过程。现在学习的是第4页,共36页参数的最小二乘估计与简单回归类似,我们寻求参数B0、B1、B2和Bp的适宜估计数值b0、b1、b2和bp,,使实际观察值和回归方
3、程估计值之间残差平方和最小,即 Q(yi i)2 =(yi b0b1x1ib2x2ibp xp i)2 对b0、b1、bp分别求偏导数,今偏导数为零可获得P1个正规方程,求解正规方程可得待估参数值。现在学习的是第5页,共36页回归方程和偏回归系数的假设检验回归方程的假设检验:建立回归方程后,须分析应变量Y与这p个自变量之间是否确有线性回归关系,可用F分析。H0:B1B2.=Bp=0 H1:H0不正确 0.05 F MS回归 /MS误差 MS回归 SS回归p SS回归=bjLjy (j=1,2.,P)MS误差 SS误差(n-p-1)SS误差为残差平方和 现在学习的是第6页,共36页偏回归系数的假
4、设检验 回归方程的假设检验若拒绝H0,则可分别对每一个偏回归系数bj作统计检验,实质是考察在固定其它变量后,该变量对应变量 Y 的影响有无显著性。H0:Bj=0 H1:Bj不为零 0.05 F (Xj 的偏回归平方和1)/MS误差 Xj 的偏回归平方和:去Xj后回归平方和的减少量 若H0成立,可把Xj从回归方程中剔除,余下变量重新构建新的方程。现在学习的是第7页,共36页标准化偏回归系数和确定系数标准化偏回归系数:在比较各自变量对应变量相对贡献大小时,由于各自变量的单位不同,不能直接用偏回归系数的大小作比较,须用标准化偏回归系数。bj =bj(sj/sy)现在学习的是第8页,共36页确定系数:
5、简记为R2,即回归平方和SS回归与总离均差平方和SS总的比例。R2 SS回归 SS总 可用来定量评价在Y的总变异中,由P个X变量建立的线性回归方程所能解释的比例。现在学习的是第9页,共36页回归分析中的若干问题资料要求:总体服从多元正态分布。但实际工作中分类变量也做分析。n足够大,至少应是自变量个数的5倍分类变量在回归分析中的处理方法 有序分类:治疗效果:x=0(无效)x=1(有效)x=2(控制)无序分类:有k类,则用k1变量(伪变量)现在学习的是第10页,共36页如职业,分四类可用三个伪变量:y1 y2 y3 工人 1 0 0 农民 0 1 0 干部 0 0 1 学生 0 0 0现在学习的是
6、第11页,共36页多元线性回归方程的评价 评价回归方程的优劣、好坏可用确定系数R2和剩余标准差Sy,x1,2.p 。Sy,x1,2.p SQRT(SS误差n-p-1)如用于预测,重要的是组外回代结果。现在学习的是第12页,共36页回归方程中自变量的选择多元线性回归方程中并非自变量越多越好,原因是自变量越多剩余标准差可能变大;同时也增加收集资料的难度。故需寻求“最佳”回归方程,逐步回归分析是寻求“较佳”回归方程的一种方法。现在学习的是第13页,共36页选择变量的统计学标准R2最大 R2 SS回归 SS总adjR2最大:adjR21MS误差/MS总Cp值最小 Cp(n-p-1)(MS误差.p/MS
7、误差.全部1)(p+1)现在学习的是第14页,共36页选择变量的方法最优子集回归分析法:p个变量有2p1个方程逐步回归分析向前引入法(forward selection)向后剔除法(backward selection)逐步引入剔除法(stepwise selection)H0:K个自变 量为好 H1:K1个自变量为好现在学习的是第15页,共36页向前引入法(forward selection)自变量由少到多一个一个引入回归方程。将 corr(y ,xj)最大而又能拒绝H0者,最先引入方程,余此类推。至不能再拒绝H0为止。现在学习的是第16页,共36页向后剔除法(backward select
8、ion)自变量先全部选入方程,每次剔除一个使上述检验最不能拒绝H0者,直到不能剔除为止。现在学习的是第17页,共36页逐步引入剔除法(stepwise selection)先规定两个阀值F引入和F剔除,当候选变量中最大F值F引入时,引入相应变量;已进入方程的变量最小FF剔除时,剔除相应变量。如此交替进行直到无引入和无剔除为止。(计算复杂)现在学习的是第18页,共36页多元线性回归方程的作用因素分析 调整混杂因素的作用统计预测现在学习的是第19页,共36页例:测量16名四岁男孩心脏纵径X1(CM)、心脏横径X2(CM)和心象面积Y(CM2)三项指标,得如下数据。试作象面积Y对心脏纵径X1、心脏横
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 线性回归计算方法及公式 2 线性 回归 计算方法 公式
限制150内