第二单元统计学高级篇优秀PPT.ppt
《第二单元统计学高级篇优秀PPT.ppt》由会员分享,可在线阅读,更多相关《第二单元统计学高级篇优秀PPT.ppt(73页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第二单元统计学高级篇第一页,本课件共有73页第一节第一节 多重线性回归分析的概念多重线性回归分析的概念 一、多重线性回归的概念一、多重线性回归的概念 n多重线性回归是研究多个自变量(x1x2.)与一个因变量(y)之间线性依存关系的方法。其中自变量可以是随机变量,也可以是给定变量,而因变量是随机变量。n多元线性回归是研究多个自变量与多个因变量线性依存关系的方法。n若所有变量都是随机的,还可以做多重相关分析,描述因变量与一组自变量之间的线性关系;用偏相关描述因变量与一个自变量之间,在扣除其他自变量影响之后的线性关系。第二页,本课件共有73页二、多重线性回归模型与方程二、多重线性回归模型与方程n多重
2、线性回归模型用于研究一个被解释变量(因变量)与多个解释变量(自变量)的线性关系分析。多重线性回归模型与一元线性回归模型基本类似,只不过解释变量由一个增加到两个以上,被解释变量y与多个解释变量x1,x2xk之间存在线性关系。n假定被解释变量y与多个解释变量x1,x2xm之间具有线性关系,建立多重线性回归模型为:其中y为被解释变量,xi为k个解释变量,i为偏回归系数,表示在其他自变量固定的条件下,自变量Xi改变一个单位时,因变量Y的平均改变量。为随机误差项。第三页,本课件共有73页三、回归模型的前提条件三、回归模型的前提条件n多重线性回归方程:描述被解释变量y的期望值或平均值如何依赖于解释变量x的
3、方程为:n回归模型的前提条件:1)线性:是指反应变量Y的总体平均值与自变量X呈线性关系;2)独立性:自变量间相互独立,自变量之间没有精确的线性关系(不相关);3)正态性:是指对于给定的X值,其对应的Y值的总体和线性模型的误差项均服从正态分布;(服从均数为0的正态分布)4)等方差性:无论X如何取值,Y都有相同的方差;误差项的方差相等。第四页,本课件共有73页第二节 多重线性回归分析步骤一、参数估计:一、参数估计:根据样本数据,求得模型参数的估计值,即求出模型的估计值b0、bm后,建立回归方程。多重回归采用最小二乘法估计其参数,即求出 与实际观察值Y之差的平方和(残差平方和)为最小的b0、b1、b
4、2、bm值。多重回归的参数估计和假设检验,常采用统计软件完成。求出参数的估计值后,可建立方程。例例8-18-1 下表是27名糖尿病人的血清总胆固醇、甘油三酯、空腹胰岛素、糖化血红蛋白、空腹血糖的测量值,试建立血糖与其它几项指标关系的多重线性回归方程。第五页,本课件共有73页27名糖尿病人血糖与其它变量的测量值第六页,本课件共有73页27名糖尿病人血糖与其它变量的测量值第七页,本课件共有73页二、建立方程n经统计软件处理后,得各参数如下:n得回归方程为:第八页,本课件共有73页三、多重回归分析的假设检验及评价回归分析的假设检验及评价(一)回归方程(模型)的假设检验:检验模型是否成立,或回归方程(
5、模型)的假设检验:检验模型是否成立,或方程是否有意义。方程是否有意义。第九页,本课件共有73页方差分析法n多重线性回归方差分析表n以上结果显示:接受H1,回归方程成立。(相关公式)第十页,本课件共有73页(二)有关评价指标1.残差标准差(剩余标准差)SY,1,2,M:为扣除m个自变量影响外,因变量仍存在的变异,不能用自变量的变化解释Y的变异。反映回归方程精度,值越小说明回归效果越好。第十一页,本课件共有73页2.决定系数R2:R2:说明所有自变量能解释Y变化的百分比。取值范围(0,1),越接近1,模型拟合效果越好。R2反映在Y的总变异中,自变量组合解释部分,占总变异的比重,即线性回归模型能在多
6、大程度上解释应变量Y的变异性。自变量对应变量贡献越大,回归效果越好。第十二页,本课件共有73页SY,1,2,M与R2第十三页,本课件共有73页3.校正决定系数RC2(Radj2)=0.5282第十四页,本课件共有73页R2与RC2关系:nR2表示总变差中已由多元回归方程“解释”的比例,R2可解释模型的拟合优度,残差平方和越小,决定系数越接近1,回归方程的拟合程度越好。nRC2当给模型增加自变量时,决定系数也随之逐步增大,然而决定系数的增大代价是自由度的减少。自由度小意味着估计和预测的可靠性低。为了克服样本决定系数的这一缺点,我们设法把R2给予适当的修正,这就是校正决定系数。nR2或RC2只能说
7、明在给定的样本条件下回归方程与样本观测值拟合优度,并不能做出对总体模型的推测,因此不能单凭它们来选择模型。第十五页,本课件共有73页4.复相关系数R R说明所有自变量与Y间的线性相关程度,而不反应相关的方向。取值范围(0,1),R越接近1,说明所有自变量与应变量Y间的关系越密切。如果只有一个自变量,此时的R=r。(r为pearson相关系数)第十六页,本课件共有73页(三)偏回归系数的假设检验及评价回归系数的假设检验及评价 n偏回归系数的假设检验(即各自变量贡献大小的检验),有三种方法。n1.t检验法:第十七页,本课件共有73页t检验显示:胰岛素x3、糖化血红蛋白x4与血糖y有线性回归关系。第
8、十八页,本课件共有73页t检验显示:胰岛素x3、糖化血红蛋白x4与血糖y有线性回归关系。n机读显示相同结果。第十九页,本课件共有73页2.方差分析法(求x的偏回归平方和)第二十页,本课件共有73页机读显示相同结果nF检验显示:胰岛素x3、糖化血红蛋白x4与血糖y有线性回归关系。第二十一页,本课件共有73页3.标准化偏回归系数法n标准化偏回归系数概念:标准化偏回归系数概念:第二十二页,本课件共有73页偏回归系数与标准化偏回归系数关系第二十三页,本课件共有73页第二十四页,本课件共有73页n由这些新的观察值进行回归分析得到的偏回归系数称为标准偏回归系数,各自变量标准偏回归系数可以进行排队,如本例4
9、个自变量的标准偏回归系数依次为0.0776,0.3093,-0.3395,0.3977可以说对血糖影响大小的顺序依次为糖化血红蛋白(X4)、胰岛素(X3)、甘油三酯(X2)、和总胆固醇(X1)。第二十五页,本课件共有73页机得数据变量变量回归系数回归系数b bj j标准化标准化回归系数回归系数b bj jl ljjjj标准差标准差S SX1X10.142450.14245 0.07758 0.0775866.010366.01031.5934 1.5934 X2X20.351470.35147 0.30931 0.30931172.3648172.36482.5748 2.5748 X3X3-
10、0.27059-0.27059-0.33948-0.33948350.3106350.31063.6706 3.6706 X4X40.63820.6382 0.39774 0.3977486.440786.44071.8234 1.8234 Y Y222.5519222.55192.9257 2.9257 第二十六页,本课件共有73页第三节 自变量的选择(筛选)n多重线性回归分析中,常常通过专业知识或实践经验,去挑选那些对因变量影响较大的自变量与因变量Y建立回归方程。n如从为数众多因素中,选择的自变量对反应变量无影响或影响甚微,把它们引入方程后,不但计算量大,信息成本高,而且会使回归系数的估计
11、和预测的精度降低。n选择对因变量影响较大的自变量引入方程,将对反应变量无影响或影响甚微的自变量排除方程,这种统计方法称为自变量选择(筛选),统计中常用方法之一是逐步选择法。第二十七页,本课件共有73页一、最优回归方程及选择方法第二十八页,本课件共有73页二、全局择优法(最优子集回归法)二、全局择优法(最优子集回归法)第二十九页,本课件共有73页1.校正决定系数RC2(Radj2)选择法n所谓最优回归方程是指RC2 最大的方程。第三十页,本课件共有73页2.CP选择法第三十一页,本课件共有73页第三十二页,本课件共有73页3.AIC准则的计算公式 求出所有可能的回归模型(共有2m1个)对应的准则
12、值;按上述准则选择最优模型。第三十三页,本课件共有73页SAS获得的几个准则值结果ADJRSQADJRSQCPCPAICAICADJRSQADJRSQCPCPAICAICx2x3x4x2x3x40.545630.545630.545630.545634 4 4 440.34340.34340.34340.343x2x3x2x30.407480.407483 346.6646.66x1x2x3x4x1x2x3x40.528230.528235 542.15742.157x1x3x1x30.375220.375223 348.09148.091x1x3x4x1x3x40.487970.487974
13、 443.56843.568x4x40.346530.346532 248.40548.405x1x2x4x1x2x40.446830.446834 445.65545.655x1x10.284430.284432 250.85750.857x1x4x1x40.441370.441373 345.0745.07x1x2x1x20.274780.274783 352.11652.116x2x4x2x40.43950.43953 345.1645.16x3x30.230630.230632 252.81452.814x3x4x3x40.435420.435423 345.35645.356x2x2
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第二 单元 统计学 高级 优秀 PPT
限制150内