概率论与数理统计(回归分析).ppt
《概率论与数理统计(回归分析).ppt》由会员分享,可在线阅读,更多相关《概率论与数理统计(回归分析).ppt(73页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、9.2 回归分析 回归分析是针对两个或两个以上具有相关关系的变量,研究它们的数量伴随关系,并通过一定的数学表达式将这种关系描述出来,建立回归模型 回归分析中总假设因变量是随机变量,自变量可以是随机变量也可以是一般变量(可以控制或精确测量的变量) 我们只讨论自变量为一般变量的情况 为简单起见,以后的所有随机变量及其观测值均用小写字母表示,第9章 相关分析与一元回归分析,9.2 回归分析,如果设随机变量y是因变量,x1,x2,xn是影响y的自变量,回归模型的一般形式为: y = f (x1,x2,xn) + 其中为均值为0的正态随机变量,它表示除x1,x2,xn之外的随机因素对y的影响 在回归分析
2、中,当只有一个自变量时,称为一元回归分析;当自变量有两个或两个以上时,称为多元回归分析;f是线性函数时,称线性回归分析,所建回归模型称为线性回归模型;f是非线性函数时,称非线性回归分析,所建回归模型称为非线性回归模型,9.2 回归分析,线性回归模型的一般形式为: 其中,0和i(i = 1,2,k)是未知常数,称为回归系数,实际中常假定 N(0,2) 一元线性回归模型的一般形式为: 由 N(0,2)的假定,容易推出y N(0 + 1x, 2),9.2 回归分析,本章主要讨论一元线性回归分析和可化为线性回归的一元非线性回归分析 它们是反映两个变量之间关系的简单模型,但从中可以了解到回归分析的基本思
3、想、方法和应用,9.2 回归分析,9.2.1 一元线性回归分析 我们用一个例子来说明如何进行一元线性回归分析 为了研究合金钢的强度和合金中含碳量的关系,专业人员收集了12组数据如表9.1所示 试根据这些数据进行合金钢的强度y(单位:107Pa)与合金中含碳量x(%)之间的回归分析,9.2.1 一元线性回归分析,为了研究这些数据中所蕴含的规律性,首先在Excel中由12对数据作出散点图,如图9.7所示 从图看到,数据点大致落在一条直线附近,这告诉我们变量x和y之间大致可看作线性关系从图中还看到,这些点又不完全在一条直线上,这表明x和y的关系并没有确切到给定x就可以唯一确定y的程度,9.2.1 一
4、元线性回归分析,事实上,还有许多其它随机因素对y产生影响 如果只研究x和y的关系,可以考虑建立一元线性回归模型: (9.1) 其中是除含碳量x外其它诸多随机因素对合金钢强度y的综合影响,假定它是零均值的正态随机变量,9.2.1 一元线性回归分析,(9.1) 由(9.1)式,不难算得y的数学期望: (9.2) 该式表示当x已知时,可以精确地算出E(y)称方程(9.2)为y关于x的回归方程 现对变量x, y进行了n次独立观察,得样本(xi,yi) (i = 1,2,n)据(9.1)式,此样本可由方程 (9.3) 来描述这里i是第i次观测时的值,它是不能观测到的,9.2.1 一元线性回归分析,由于各
5、次观测独立,i看作是相互独立与同分布的随机变量即有 yi = 0 + 1xi + i,i相互独立,且 i N(0,2), i = 1,2,n (9.4) (9.4)给出了样本(x1,y1),(x2,y2),(xn,yn)的概率性质它是对理论模型进行统计推断的依据,也常称(9.4)式为一元线性回归模型,9.2.1 一元线性回归分析,要建立一元线性回归模型,首先利用n组独立观测数据(x1,y1),(x2,y2),(xn,yn)来估计0和1,以估计值 和 分别代替(9.2)式中的0和1,得到 (9.5) 由于此方程的建立有赖于通过观察或试验积累的数据,所以称其为经验回归方程(或经验公式) 经验回归方
6、程也简称为回归方程,其图形称为回归直线 当给定x = x0时,称 为拟合值(预测值或回归值),9.2.1 一元线性回归分析,那么,如何利用n组独立观察数据来估计0和1呢? 一般常用最小二乘估计法和最大似然估计法 下面只介绍0和1的最小二乘估计法,1参数0和1的最小二乘估计 设对模型(9.1)中的变量x,y进行了n次独立观察,得样本(xi,yi) (i = 1,2,n)由(9.3)式知随机误差i = yi (0 + 1xi) 最小二乘法的思想是:由xi,yi估计0,1时,使误差平方和 达到最小的 和 ,分别作为0,1的估计,并称 和 为0和1的最小二乘估计,9.2.1 一元线性回归分析,1参数0
7、和1的最小二乘估计 通常可采用微积分中求极值的办法,求出使 达到最小的 和 即解方程: 或 (9.6),9.2.1 一元线性回归分析,1参数0和1的最小二乘估计 即解方程: (9.6) 或 (9.7) 称(9.6)或(9.7)为正则方程,9.2.1 一元线性回归分析,1参数0和1的最小二乘估计 解正则方程得 (9.8) 其中 从而得到回归方程:,9.2.1 一元线性回归分析,1参数0和1的最小二乘估计 (9.8) 因为 , (9.8)式又可以写成,9.2.1 一元线性回归分析,1参数0和1的最小二乘估计 可以证明,用最小二乘法求出的估计 和 ,分别是0,1的无偏估计,它们都是y1,y2,yn的
8、线性函数 而且在所有y1,y2,yn的线性函数中,最小二乘估计的方差最小,9.2.1 一元线性回归分析,【例9.3】建立表9.1中合金钢的强度y与含碳量x之间的回归方程,并计算参数0和1的最小二乘估计 解:首先计算 参数1和0的最小二乘估计分别为 因此,回归方程为 ,9.2.1 一元线性回归分析,2. 回归方程的显著性检验 对任意两个变量的一组观测数据 (x1,y1),(x2,y2),(xn,yn) 都可以用最小二乘法得到回归方程 ,但这样得到的回归方程不一定都有意义 如果实际上模型(9.1)中的 ,用最小二乘法得到的 就没有意义这时称回归方程不显著; 如果 , 就有意义,这时称回归方程是显著
9、的,9.2.1 一元线性回归分析,2. 回归方程的显著性检验 综上,一元线性回归方程的显著性检验,就是要根据观测数据检验假设 H0: 1 = 0 H1: 1 0 如果检验结果拒绝原假设H0,说明一元线性回归方程是显著的,否则,表明y与x线性关系不显著,不需要建立这种模型了 在一元线性回归方程的显著性检验中,有多种等价的检验方法这里介绍常用的F检验法,9.2.1 一元线性回归分析,2. 回归方程的显著性检验 采用方差分析的思想,我们研究影响观测值yi的原因 注意到回归方程 只反映了x对y的影响,所以,拟合值 是观测值yi中只受xi影响的那一部分 而 则是除去xi的影响后,受其它种种因素影响的部分
10、,故将 称为残差于是,观测值yi可以分解为两部分 和 另外, 也可分解为两部分: 记,9.2.1 一元线性回归分析,2. 回归方程的显著性检验 记 SST反映了观测数据总的波动,称为总变差平方和 SSM反映了由于自变量x的变化影响因变量y的差异,体现了x对y的影响,称为回归平方和; SSE反映了种种其它因素对y的影响, 称为残差平方和 注意到 满足正则方程(9.6),有 即有,9.2.1 一元线性回归分析,2. 回归方程的显著性检验 由 及 ,得 于是 从而 = SSM + SSE 即总变差平方和SST可以分解为两部分:回归平方和SSM与残差平方和SSE,9.2.1 一元线性回归分析,2. 回
11、归方程的显著性检验 SSM / SSE为x的影响部分与随机因素影响部分的相对比值 若它不是显著地大,表明回归方程中的x并不是影响y的一个重要的因素,于是由数据得到的回归方程就没有什么意义; 如果它显著地大,表明x的作用显著地比随机因素大,这样方程就有意义 所以我们考虑用SSM / SSE构造检验统计量,9.2.1 一元线性回归分析,2. 回归方程的显著性检验 考虑用SSM / SSE构造检验统计量可以证明,当原假设H0成立时,即1 = 0时,有 将 作为检验统计量,H0的拒绝域为,9.2.1 一元线性回归分析,2. 回归方程的显著性检验 若F统计量的观测值为F0,则P值为 回归方程的显著性检验
12、结果,通常汇总为方差分析表,如表9.2所示 表9.2 方差分析表,9.2.1 一元线性回归分析,【实验9.1】使用Excel建立表9.1中合金钢的强度y与含碳量x之间的回归方程,并对所建立的回归方程作显著性检验 实验准备: (1) 函数SLOPE的使用格式: SLOPE(known_ys, known_xs) 功能:返回回归直线的斜率其中known_ys为因变量观测数据或单元格区域known_xs为自变量观测数据或单元格区域,9.2.1 一元线性回归分析,【实验9.1】使用Excel建立表9.1中合金钢的强度y与含碳量x之间的回归方程,并对所建立的回归方程作显著性检验 实验准备: (2) 函数
13、INTERCEPT的使用格式: INTERCEPT(known_ys,known_xs) 功能:返回回归直线的截距其中known_ys为因变量观测数据或单元格区域known_xs为自变量观测数据或单元格区域,9.2.1 一元线性回归分析,实验步骤: (1) 计算参数1,在单元格B14中输入公式: =SLOPE(C2:C13,B2:B13) (2) 计算参数0,在单元格B15中输入公式: =INTERCEPT(C2:C13,B2:B13) 即可得到0,1的估计值,如图9.8(a)所示,9.2.1 一元线性回归分析,(a) (b) 图9.8 0,1的估计值与回归方程的显著性检验 据此得到回归方程:
14、 注:例9.3中结果与此方程有些出入,原因是计算时的舍入误差所致,9.2.1 一元线性回归分析,(3) 计算回归值,在单元格D2中输入公式: =B$15+B$14*B2 将单元格D2中公式复制到单元格区域:D3:D13 如图9.8(b) (4) 计算y1,y2,yn的总变差平方和SST、回归平方和SSM和残差平方和SSE: 计算SST,在单元格B16中输入公式: = DEVSQ(C2:C13),9.2.1 一元线性回归分析,计算SSE,在单元格B17中输入公式: = SUMXMY2(C2:C13,D2:D13) 计算SSM,在单元格B18中输入公式:= B16-B17 5) 计算检验统计量F和
15、检验P值: 计算F,在单元格B19中输入公式:=B18/B17*10 计算P,在单元格B20中输入公式: =FDIST(B19,1,10) 得到检验P值,如图9.8(c)P = 7.5910-8 0.05,拒绝原假设,故1显著非0,回归方程显著,9.2.1 一元线性回归分析,3. 回归方程的判定系数 前面已讲到观测数据y1,y2,yn的总变差平方和SST可以分解为回归平方和SSM与残差平方和SSE两部分,即 SST = SSM + SSE 将回归平方和与总变差平方和之比值称为判定系数,记为R2,即,9.2.1 一元线性回归分析,3. 回归方程的判定系数 判定系数R2可以解释为y1,y2,yn的
16、总变化量中被回归方程所描述的比例 R2越大,总变化量中被回归方程所描述的比例就越大,说明自变量对因变量的影响越大从而残差平方和就越小,即拟合效果越好 可见R2反映了回归方程对数据的拟合程度,是衡量拟合优劣的一个很重要的统计量 称R2为回归方程的拟合优度,9.2.1 一元线性回归分析,3. 回归方程的判定系数 如果所有观测数据的散点都落在回归直线上,残差平方和SSE = 0,R2 = 1,拟合是完全的; 如果y的变换与x无关,x完全无助于解释y的变差,此时, 则R2 = 0 可见,0 R2 1 R2越接近于1,表明回归平方和占总变差平方和的比例就越大,回归直线与各观测点越接近,用x解释y的变差部
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 概率论 数理统计 回归 分析
限制150内