《多重线性回归.doc》由会员分享,可在线阅读,更多相关《多重线性回归.doc(10页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、【精品文档】如有侵权,请联系网站删除,仅供学习与交流多重线性回归.精品文档.多重回归与相关(Multiple regression and correlation)一、基本概念:由于大自然是复杂的,其中的现象大部分不是一对一的关系,不能用线性回归与相关来解决问题。如:人的体重与身高有关,也与胸围有关;血压值的大小除了与年龄有关外,还受到性别、劳动强度、饮食习惯、吸烟状况、家族史等因素的影响。多重回归与多重相关是研究一个因变量和多个自变量之间线性关系的统计学分析方法。1. 多个自变量与一个因变量的数量关系多重回归2. 多个自变量与多个因变量的数量关系多元回归3. 多个变量与一个变量的相关关系 多
2、重相关4. 多个变量与多个变量的相关关系典则相关5. 扣除其它变量影响后一变量与另一变量的相关关系偏相关本章仅讨论多重线性回归、多重线性相关和偏相关。二、多重线性回归模型与参数估计:(一) 多重线性回归模型:设观察了n个对象,每个对象观察了因变量Y和p个自变量,模型表达式:样本回归方程: 0(a)为截距,1,2,p(b1,b2,bp)为偏(部分)回归系数,i(bi)表示除Xi外的其他自变量固定时,Xi改变一个单位后Y的平均变化。标准回归系数:偏回归系数因各自变量值的单位不同不能直接比较其大小,对变量值作标准化变换,得到的回归系数为标准回归系数,可直接比较其大小,反映各自变量对因变量的贡献大小。
3、(二) 参数估计的方法: 最小二乘原则最小。对方程中的每个待估参数求导并设导数为零,得到一组线性方程组。由于是线性方程组,可以直接求解。具体的计算复杂,手工计算几乎不可能,一般需要计算机软件完成。例:重庆医科大学附属第二医院的资料,住院人数与门诊人数、病床利用率和病床周转次数的回归关系分析。参数估计如下:变量回归系数标准误tP截距-4848.9443128.707-1.550.1407门诊人数X1 55.886 18.0013.100.0068病床利用率X2 21.930 39.8130.550.5894病床周转次数X3 319.047 96.5933.300.0045得到回归方程:三、多重线
4、性回归的假设检验:1. 回归方程的方差分析:(1) 检验假设:H0: H1:不全为0。 (2)计算统计量F值: SST=36528242SSr=SST-SSe=36528242-9461837=27066405(3)确定概率和判断结果: p0.001,拒绝零假设,认为各偏回归系数不全为零,多重回归方程成立。2. 回归系数的假设检验:(1)检验假设:H0: H1: (2)计算统计量: (3)确定概率和判断结果:P=0.0068,偏回归系数不是来自0的总体。3. 决定系数计算:决定系数为:说明在该医院住院人数的变异有74.1可以用门诊人数,病床利用率及病床周转次数来解释。由于引进变量越多,决定系数
5、肯定越大,决定系数不能反映回归方程的优良性。特别是作模型间的比较时,用校正决定系数较好。四、回归分析中的变量筛选:多重回归分析时,不是引入模型的变量越多越好。与Y不相干的变量引入模型不但不能改善模型的预测效果,可能还会增加预测误差。因此筛选“较优”的模型是多重回归分析的重要任务之一。(一)筛选变量的统计学标准:1. 决定系数或SSE最小。2. MSE最小。等价于。3. Cp最小。1973年由Mallows C L提出,目前认为是较好的标准。此统计量由两部分组成,当入选自变量增多即p增大时,上式中第一项变小,第二项变大;而p减小时,上式中第一项变大,第二项变小。想得到较小的Cp值,必须是这两项的
6、折衷,即入选自变量的数目p较为适中,不能过大也不能过小。(二)逐步筛选变量的方法: 1. 所有可能子集法:较好的方法。但计算量大。2后退法(Backward): 开始全部引入,然后逐个剔除(偏回归平方和最小,FF引入)开始,自变量由少到多逐个引入,使方程外有统计学意义的变量全部引入为止。 优点:计算量小。缺点:一次只能引入一个变量。4逐步法(Stepwise):开始一个或全部变量引入,然后上述两种方法交替使用,引入变量后立即考虑是否要剔除,剔除变量后立即考虑是否要引入,直到方程内的变量全部有统计学意义,方程外的变量全部无统计学意义为止。较好的方法。五、多重回归分析的主要用途:1 筛选有关变量(
7、主要用途)。2 获得有实际意义的回归方程。六、多重回归分析的一般步骤:1 单因子模型分析。2 逐步筛选变量,建立多因素模型。3 综合单因子和多因素模型的结果,当两者矛盾时,结合专业知识分析原因(因素之间是否存在拮抗或协同作用)。七、多重相关和部分相关: 应用条件:同简单线性相关一样,仅当X1,X2, Y为多元正态分布的随机变量时才能考虑相关分析。1. 复相关系数(多重相关系数):多重相关的实质就是Y的实际观察值与由p个自变量预测的值的相关。前面计算的决定系数是Y与相关系数的平方,那么复相关系数就是决定系数的平方根。2. 偏相关系数(部分相关系数):部分相关系数反映校正其它变量后某一变量与另一变量的相关关系,校正的意思可以理解为假定其它变量都取值为均数。计算公式: 3. 偏相关系数的假设检验:用t检验。总体中扣除q个变量影响的偏相关系数为r(-q),样本中相应的偏相关系数为r(-q)。检验假设:H0: r(-q)0, H1: r(-q)0可采用统计量: nn-q-2 偏相关系数的假设检验等同于偏回归系数的t检验。复相关系数的假设检验等同于回归方程的方差分析。
限制150内