建模培训讲座第一讲(回归模型以及SAS).ppt
《建模培训讲座第一讲(回归模型以及SAS).ppt》由会员分享,可在线阅读,更多相关《建模培训讲座第一讲(回归模型以及SAS).ppt(113页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、2011年数学建模培训年数学建模培训 统计分析模型与统计分析模型与SAS软件软件张景祥张景祥2021/9/271一、统计学分析方法一、统计学分析方法1.1回归分析回归分析1.2聚类分析聚类分析1.3数据分类数据分类1.4判别分析判别分析1.5主成分分析主成分分析1.6因子分析因子分析1.7残差分析残差分析1.8典型相关分析典型相关分析1.9时间序列时间序列2021/9/2727月月10日(培训主要内容)日(培训主要内容)第一部分第一部分 回归模型回归模型 第二部分第二部分 SAS与与Excel数据数据2021/9/273回归分析模型回归分析模型n一元线性回归一元线性回归n一元非线性回归一元非线
2、性回归n多元线性回归多元线性回归n多元非线性回归多元非线性回归主要应用于变量间相关关系的分析主要应用于变量间相关关系的分析2021/9/274 回归这一术语是回归这一术语是18861886年英国生物学家高尔顿在研年英国生物学家高尔顿在研究遗传现象时引进的究遗传现象时引进的.他发现他发现:虽然高个子的先代会有高个子的后代虽然高个子的先代会有高个子的后代,但后代的增高并不但后代的增高并不与先代的增高等量与先代的增高等量.他称这一现象为他称这一现象为“向平常高度的回归向平常高度的回归”.2021/9/275尔后尔后,他的朋友麦尔逊等人搜集了上千个家庭成员的身高数据他的朋友麦尔逊等人搜集了上千个家庭成
3、员的身高数据:y=0.516x+33.73(英寸英寸)分析出儿子的身高分析出儿子的身高y和父亲的身高和父亲的身高x大致为如下关系:大致为如下关系:2021/9/276这这意意味味着着,若若父父亲亲身身高高超超过过父父亲亲平平均均身身高高6英英寸寸,那那么么其其儿儿子子的的身身高高大约只超过儿子平均身高大约只超过儿子平均身高3英寸英寸,可见有向平均值返回的趋势可见有向平均值返回的趋势.诚然诚然,如今对回归这一概念的理解并不是高尔顿的原意如今对回归这一概念的理解并不是高尔顿的原意,但这一名但这一名词却一直沿用下来词却一直沿用下来,成为统计学中最常用的概念之一成为统计学中最常用的概念之一.6英寸英寸
4、3英寸英寸2021/9/277在在回回归归分分析析中中,当当变变量量只只有有两两个个时时,称称为为一一元元回回归归分分析析;当当变变量量在在两两个个以以上上时时,称称为为多多元元回回归归分分析析.变变量量间间成成线线性性关关系系,称称线线性性回回归归,变量间不具有线性关系变量间不具有线性关系,称非线性回归称非线性回归.一元回归一元回归多元回归多元回归线性线性非线性非线性在在这这一一讲讲里里,我我们们主主要要讨讨论论的的是是一一元元线线性性回回归归.它它是是处处理理两两个个变变量量之之间间关关系系的的最最简简单单的的模模型型.它它虽虽然然比比较较简简单单,但但我我们们从从中中可可以以了解到回归分
5、析的基本思想、方法和应用了解到回归分析的基本思想、方法和应用.2021/9/278设随机变量设随机变量y与变量与变量x之间存在着某种相关关系之间存在着某种相关关系,其中其中x是能够控是能够控制或可以精确测量的变量制或可以精确测量的变量.年龄年龄身高身高施肥量施肥量积雪深度积雪深度xy灌溉面积灌溉面积产量产量血压血压体重体重为了今后研究方便为了今后研究方便,我们把我们把x当作普通变量当作普通变量,而不把它看作随机变量而不把它看作随机变量.2021/9/279对对于于x的的一一组组不不完完全全相相同同的的值值x1,x2,xn作作独独立立观观察察,得得到到随随机机变变量量y相相应应的的观观察察值值y
6、1,y2,yn,构构成成n对对数数据据.用用这这n对对数数据据可可作作出出一一个散点图个散点图,直观地描述一下两变量之间的关系直观地描述一下两变量之间的关系.yxo2021/9/2710这里有三幅散点图这里有三幅散点图.yxo(1)oyx(2)yxo(3)2021/9/2711根据散点图根据散点图,考虑以下几个问题考虑以下几个问题:(1)两变量之间的关系是否密切两变量之间的关系是否密切,或者说我们能否由或者说我们能否由x来估计来估计y.(2)两变量之间的关系是呈一条直线还是呈某种曲线两变量之间的关系是呈一条直线还是呈某种曲线.(3)是否存在某个点偏离过大是否存在某个点偏离过大.(4)是否存在其
7、它规律是否存在其它规律.2021/9/2712yxo(1)oyx(2)yxo(3)考虑采用线性方程拟合采用非线性方程拟合2021/9/2713 一元线性回归一元线性回归 为了估计山上积雪融化后对下游灌溉的影响为了估计山上积雪融化后对下游灌溉的影响,在山上建立了一在山上建立了一个观测站个观测站,测量了最大积雪深度测量了最大积雪深度x与当年灌溉面积与当年灌溉面积y,得到连续得到连续10年的数据如下表年的数据如下表:年序 最大积雪深度x(米)灌溉面积y(公顷)1 5.1 1907 2 3.5 1287 3 7.1 2693 4 6.2 2373 5 8.8 3260 6 7.8 3000 7 4.5
8、 1947 8 5.6 2273 9 8.0 3113 10 6.4 24932021/9/2714 为了研究这些数据中所蕴含的规律性为了研究这些数据中所蕴含的规律性,我们由我们由10对数据对数据作出散点图作出散点图.从图看到从图看到,数据点大致落在一条直线附近数据点大致落在一条直线附近,这告诉我这告诉我们变量们变量x和和y之间大致可看作线性关系之间大致可看作线性关系.yxo4000300020001000246810 从图中还看到从图中还看到,这些点又不完全在一条直线上这些点又不完全在一条直线上,这表明这表明x和和y的关系并没有确切到给定的关系并没有确切到给定x就可以唯一确定就可以唯一确定y
9、的程度的程度.2021/9/2715事实上事实上,还有许多其它因素对还有许多其它因素对y产生影响产生影响,如当年的平均气如当年的平均气温、当年的降雨量等等温、当年的降雨量等等,都是影响都是影响y取什么值的随机因素取什么值的随机因素.其其中中a和和b是是未未知知常常数数,称称回回归归系系数数,表表示示其其它它随随机机因因素素对对灌灌溉溉面面积积的影响的影响.2未知未知y=a+bx+如果我们只研究如果我们只研究x和和y的关系的关系,可以假定有如下结构式可以假定有如下结构式:实际中常假定实际中常假定服从正态分布服从正态分布N(0,2),即即2021/9/2716y=a+bx+,N(0,)(1)为一元
10、线性回归模型为一元线性回归模型.通常称通常称由由(1)式式,我们不难算得我们不难算得y的数学期望的数学期望:E(y)=a+bx该式表示当该式表示当x已知时,可以精确地算出已知时,可以精确地算出E(y).由于由于是不可控制的随机因素,通常就用是不可控制的随机因素,通常就用E(y)作为作为y的估计的估计,记作记作.这样我们得到这样我们得到称此方程为称此方程为y关于关于x的的回归方程回归方程.(2)2021/9/2717现对模型现对模型(1)中的变量中的变量x,y进行了进行了n次独次独立观察立观察,得样本得样本(x1,y1),(xn,yn)(3)据据(1)式式,此样本的构造可由方程此样本的构造可由方
11、程 y=a+bx+,N(0,)(1),i=1,2,n (4)这这里里是是第第i次次观观察察时时随随机机误误差所取的值,它是不能观察的差所取的值,它是不能观察的.来描述来描述.2021/9/2718i=1,2,n(5)(4)式式和和(5)式式结结合合,给给出出了了样样本本(x1,y1),(xn,yn)的的概概率率性性质质.它它是是对对理理论论模模型型进进行行统统计计分分析析推推断断的的依依据据.也也常常称称(4)+(5)为为一元线性回归模型一元线性回归模型.由于各次观察独立,有由于各次观察独立,有,i=1,2,n (4)2021/9/2719由由于于此此方方程程的的建建立立有有赖赖于于通通过过观
12、观察察或或试试验验积积累累的的数数据据,所所以以有有时时又又称称其其为为经经验验回回归归方程方程或或经验公式经验公式.(6)回回归归分分析析的的任任务务是是利利用用n组组独独立立观观察察数数据据(x1,y1),(xn,yn)来来估估计计a和和b,以以估估计计值值和和分别代替分别代替(2)式中的式中的a和和b,得回归方程得回归方程那么要问,如何利用那么要问,如何利用n组独立观察组独立观察数据来估计数据来估计a和和b?2021/9/27201用最小二乘法估计用最小二乘法估计a,b首先举例说明最小二乘法的思想:首先举例说明最小二乘法的思想:假假设设为为估估计计某某物物体体的的重重量量,对对它它进进行
13、行了了n次次称称量量,因因称称量量有有误误差差,故故n次次称称量量结结果果x1,x2,xn有有差差异异,现现在在用用数数去去估估计计物物重重,则则它与上述它与上述n次称量结果的偏差的平方和是次称量结果的偏差的平方和是:2021/9/2721于是就提出了下面的估计原则于是就提出了下面的估计原则:用这种方法作出的估计叫最小二乘估计用这种方法作出的估计叫最小二乘估计.最小二乘法认为最小二乘法认为,一个好的估计一个好的估计 ,应使应使这个平方和尽可能地小这个平方和尽可能地小.寻找寻找 ,使上述平方和达到最小使上述平方和达到最小,以这个以这个 作作为物重的估计值为物重的估计值,这就是最小二乘法这就是最小
14、二乘法.2021/9/2722现在的情况是现在的情况是,对对(x,y)作了作了n次观察或试验次观察或试验,得到得到n对数据对数据,我们想找一条直线我们想找一条直线 ,尽可能好地拟合这些数据尽可能好地拟合这些数据.yx 由回归方程由回归方程,当当x取值取值xi时时,应取值应取值a+bxi,而实际观察到的为而实际观察到的为yi,这样就形这样就形成了偏差成了偏差2021/9/2723依照最小二乘法的思想,提出目标量依照最小二乘法的思想,提出目标量Q(7)它是所有实测值它是所有实测值yi与回归值与回归值 的偏差的偏差平方和平方和.yx2021/9/2724yx我们可设法求出我们可设法求出a,b的估计值
15、的估计值 ,使偏差平使偏差平方和方和Q达到最小达到最小.(7)2021/9/2725(7)我们可设法求出我们可设法求出a,b的估计值的估计值 ,使偏差平使偏差平方和方和Q达到最小达到最小.由此得到的回归直线由此得到的回归直线 是在所有直线是在所有直线中偏差平方和中偏差平方和Q最小的一条最小的一条.yx2021/9/2726 通常可采用微积分中求极值的办法通常可采用微积分中求极值的办法,求求出使出使Q达到最小的达到最小的 ,.(7)即解方程:即解方程:得得(8)其中其中 2021/9/2727从而得到回归方程从而得到回归方程按按照照上上述述准准则则,我我们们可可求求出出前前面面例例子子中中灌灌溉
16、溉面积面积y对最大积雪深度对最大积雪深度x的回归方程是的回归方程是:可以看出可以看出,最大积雪深度每增加一个单位最大积雪深度每增加一个单位,灌溉面积平均增加灌溉面积平均增加364个单位个单位.2021/9/2728 可以证明可以证明,我们用最小二乘法求出的估计我们用最小二乘法求出的估计 分别是分别是 a,b 的无偏估计的无偏估计,它们都是它们都是 y y1 1,y y2 2,y yn n的线性函数的线性函数,而且在所有而且在所有y1,y2,yn的线性函数的线性函数中中,最小二乘估计的方差最小最小二乘估计的方差最小.2021/9/2729 求求 出出 回回 归归 方方 程程,问问 题题 尚尚 未
17、未 结结 束束,由由于于是是从从观观察察得得到到的的回回归归方方程程,它它会会随随观观察察结结果果的的不不同同改改变变,并并且且它它只只反反映映了了由由x的的变变化化引引起起的的y的的变变化化,而而没没有有包包含误差项含误差项.(1)回回归归方方程程是是否否有有意意义义?即即自自变变量量x的的变变化化是是否否真真的的对对因因变变量量y有有影影响响?因因此此,有必要对回归效果作出检验有必要对回归效果作出检验.因此在获得这样的回归方程后,通常要因此在获得这样的回归方程后,通常要问这样的问题问这样的问题:2021/9/2730 (2)如果方程真有意义,用它预测)如果方程真有意义,用它预测y时,预测值
18、与真值的偏差能时,预测值与真值的偏差能否估计?否估计?(1)回回归归方方程程是是否否有有意意义义?即即自自变变量量x的的变变化化是是否否真真的的对对因因变变量量y有影响有影响?因此因此,有必要对回归效果作出检验有必要对回归效果作出检验.2.回归方程的显著性检验回归方程的显著性检验对任意两个变量的一组观察对任意两个变量的一组观察因此需要考察因此需要考察y 与与x 间是否确有线性相关关系间是否确有线性相关关系,这就是这就是回归效果回归效果的检验的检验问题问题.都可以用最小二乘法形式上求得都可以用最小二乘法形式上求得y 对对x的回归方程的回归方程,如果如果y 与与x 没有没有线性相关关系线性相关关系
19、,这种形式的回归方程就没有意义这种形式的回归方程就没有意义.(xi,yi),i=1,2,n2021/9/2731我们注意到我们注意到只反映了只反映了x对对y的的影响,所以回归值影响,所以回归值就是就是yi中只受中只受xi影响的影响的那一部分那一部分,而而 则是除去则是除去 xi的影响后的影响后,受其它种种因素影响的部分受其它种种因素影响的部分,故将故将 称称为为残差残差.2021/9/2732于是观测值于是观测值yi可以分解为两部分可以分解为两部分和和,并且并且也可分解为两部分也可分解为两部分.因因此此,y1,y2,yn的的总总变变差差为为:(9)2021/9/2733可以证明可以证明即即 可
20、可以以分分解解为为两两部部分分:回回归归平平方方和和 与残差平方和与残差平方和.(10)2021/9/2734(10)反反映映了了由由于于自自变变量量x的的变变化化引引起起的的因因变量变量y 的差异,体现了的差异,体现了x对对y的影响;的影响;而而反映了种种其它因素对反映了种种其它因素对y的影响的影响,这这些因素没有反映在自变量中些因素没有反映在自变量中,它们可作为它们可作为随机因素看待随机因素看待.2021/9/2735可见可见,为为x 的影响部分与随机因素的影响部分与随机因素影响部分的相对比值影响部分的相对比值.它的作用和随机因素的作用相当它的作用和随机因素的作用相当,于是由于是由数据得到
21、的回归方程就没有什么意义数据得到的回归方程就没有什么意义.若它不是显著地若它不是显著地大大,表明我们所表明我们所选的选的x,并不是并不是一个重要的因素一个重要的因素.2021/9/2736可见可见,为为x 的影响部分与随机因素的影响部分与随机因素影响部分的相对比值影响部分的相对比值.如果它显著地大如果它显著地大,表明表明x的作用是显的作用是显著地比随机因素著地比随机因素大大,这样这样,方程方程就有意义就有意义.通常我们可假设通常我们可假设y和和x没有线性相关关系,没有线性相关关系,对回归方程是否有意义进行显著性检验对回归方程是否有意义进行显著性检验.2021/9/2737(11)因此用因此用来
22、来检检验验b的的绝绝对对值值是是否否显显著著大大于于0(或或者者说说检检验验回归方程回归方程是否有意义是否有意义).可以证明可以证明:的关系式中的关系式中b=0时时,有有当当F(1,n-2)(12)2021/9/2738给给定定显显著著性性水水平平,通通过过查查F分分布布分分位位数数表表,求求出否定域出否定域,便可判断回归方程是否有意义便可判断回归方程是否有意义.拒绝域为:拒绝域为:由上面的讨论可知由上面的讨论可知,要问回归方程是要问回归方程是否有意义否有意义,就是要检验假设就是要检验假设H0:b=0;H1:b0使用的检验统计量为使用的检验统计量为:F(1,n-2)2021/9/2739 我们
23、可以用更简单的公式计算回归平我们可以用更简单的公式计算回归平方和方和 与残差平方和与残差平方和 :(14)(13)2021/9/2740 现在对例中建立的回归方程进行检验,现在对例中建立的回归方程进行检验,可计算得可计算得:=3393025-3318355=355.5对对=0.01,由由F表查得表查得=11.26,由于由于F,故回归方程有意义故回归方程有意义.2021/9/2741当当检检验验认认为为回回归归方方程程确确有有意意义义.则则可可用用来来进进行行予予测测或或控控制制,这这也也是是建建立立回回归归方方程程的的重要目的重要目的.2021/9/2742对对给给定定的的x值值,由由回回归归
24、方方程程就就可得可得的值的值.3 3预测预测当已知最大积雪深度为当已知最大积雪深度为9.2米时米时,就可以预就可以预测灌溉面积:测灌溉面积:=142+3649.2=3489(公顷公顷).由灌溉面积由灌溉面积y对最大积雪深度对最大积雪深度x的回归方程的回归方程例如例如,2021/9/2743实实际际的的y与与预预测测的的不不一一定定相相等等,重重要要的的是是它们的偏差有多大它们的偏差有多大.即即事实上我们无法确切定出事实上我们无法确切定出y-的值的值,只能估只能估计计的范围的范围.通常可假定通常可假定通过对通过对的估计的估计,就知道就知道的取值范的取值范围围.已知有已知有所以所以2021/9/2
25、744根根据据建建立立回回归归方方程程时时算算得得的的,可可以以算算得得.于是可以用于是可以用去估计标准差去估计标准差,记它为记它为,即即(15)用用3倍标准差准则倍标准差准则,就有就有(16)(17)这样估计这样估计y的值落在区间的值落在区间内内或或内内,相应的概率分别为相应的概率分别为0.99和和0.95.2021/9/2745可见可见,利用回归方程利用回归方程预测预测y,可归结可归结为,对给定的为,对给定的x,以一定的置信水平预测对,以一定的置信水平预测对应的应的y的观察值的取值范围,即所谓预测区的观察值的取值范围,即所谓预测区间间.比如比如,某一年测得最大积雪深度为某一年测得最大积雪深
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 建模 培训 讲座 第一 回归 模型 以及 SAS
限制150内