建模培训讲座第一讲(回归模型以及SAS).ppt
2011年数学建模培训年数学建模培训 统计分析模型与统计分析模型与SAS软件软件张景祥张景祥2021/9/271一、统计学分析方法一、统计学分析方法1.1回归分析回归分析1.2聚类分析聚类分析1.3数据分类数据分类1.4判别分析判别分析1.5主成分分析主成分分析1.6因子分析因子分析1.7残差分析残差分析1.8典型相关分析典型相关分析1.9时间序列时间序列2021/9/2727月月10日(培训主要内容)日(培训主要内容)第一部分第一部分 回归模型回归模型 第二部分第二部分 SAS与与Excel数据数据2021/9/273回归分析模型回归分析模型n一元线性回归一元线性回归n一元非线性回归一元非线性回归n多元线性回归多元线性回归n多元非线性回归多元非线性回归主要应用于变量间相关关系的分析主要应用于变量间相关关系的分析2021/9/274 回归这一术语是回归这一术语是18861886年英国生物学家高尔顿在研年英国生物学家高尔顿在研究遗传现象时引进的究遗传现象时引进的.他发现他发现:虽然高个子的先代会有高个子的后代虽然高个子的先代会有高个子的后代,但后代的增高并不但后代的增高并不与先代的增高等量与先代的增高等量.他称这一现象为他称这一现象为“向平常高度的回归向平常高度的回归”.2021/9/275尔后尔后,他的朋友麦尔逊等人搜集了上千个家庭成员的身高数据他的朋友麦尔逊等人搜集了上千个家庭成员的身高数据:y=0.516x+33.73(英寸英寸)分析出儿子的身高分析出儿子的身高y和父亲的身高和父亲的身高x大致为如下关系:大致为如下关系:2021/9/276这这意意味味着着,若若父父亲亲身身高高超超过过父父亲亲平平均均身身高高6英英寸寸,那那么么其其儿儿子子的的身身高高大约只超过儿子平均身高大约只超过儿子平均身高3英寸英寸,可见有向平均值返回的趋势可见有向平均值返回的趋势.诚然诚然,如今对回归这一概念的理解并不是高尔顿的原意如今对回归这一概念的理解并不是高尔顿的原意,但这一名但这一名词却一直沿用下来词却一直沿用下来,成为统计学中最常用的概念之一成为统计学中最常用的概念之一.6英寸英寸3英寸英寸2021/9/277在在回回归归分分析析中中,当当变变量量只只有有两两个个时时,称称为为一一元元回回归归分分析析;当当变变量量在在两两个个以以上上时时,称称为为多多元元回回归归分分析析.变变量量间间成成线线性性关关系系,称称线线性性回回归归,变量间不具有线性关系变量间不具有线性关系,称非线性回归称非线性回归.一元回归一元回归多元回归多元回归线性线性非线性非线性在在这这一一讲讲里里,我我们们主主要要讨讨论论的的是是一一元元线线性性回回归归.它它是是处处理理两两个个变变量量之之间间关关系系的的最最简简单单的的模模型型.它它虽虽然然比比较较简简单单,但但我我们们从从中中可可以以了解到回归分析的基本思想、方法和应用了解到回归分析的基本思想、方法和应用.2021/9/278设随机变量设随机变量y与变量与变量x之间存在着某种相关关系之间存在着某种相关关系,其中其中x是能够控是能够控制或可以精确测量的变量制或可以精确测量的变量.年龄年龄身高身高施肥量施肥量积雪深度积雪深度xy灌溉面积灌溉面积产量产量血压血压体重体重为了今后研究方便为了今后研究方便,我们把我们把x当作普通变量当作普通变量,而不把它看作随机变量而不把它看作随机变量.2021/9/279对对于于x的的一一组组不不完完全全相相同同的的值值x1,x2,xn作作独独立立观观察察,得得到到随随机机变变量量y相相应应的的观观察察值值y1,y2,yn,构构成成n对对数数据据.用用这这n对对数数据据可可作作出出一一个散点图个散点图,直观地描述一下两变量之间的关系直观地描述一下两变量之间的关系.yxo2021/9/2710这里有三幅散点图这里有三幅散点图.yxo(1)oyx(2)yxo(3)2021/9/2711根据散点图根据散点图,考虑以下几个问题考虑以下几个问题:(1)两变量之间的关系是否密切两变量之间的关系是否密切,或者说我们能否由或者说我们能否由x来估计来估计y.(2)两变量之间的关系是呈一条直线还是呈某种曲线两变量之间的关系是呈一条直线还是呈某种曲线.(3)是否存在某个点偏离过大是否存在某个点偏离过大.(4)是否存在其它规律是否存在其它规律.2021/9/2712yxo(1)oyx(2)yxo(3)考虑采用线性方程拟合采用非线性方程拟合2021/9/2713 一元线性回归一元线性回归 为了估计山上积雪融化后对下游灌溉的影响为了估计山上积雪融化后对下游灌溉的影响,在山上建立了一在山上建立了一个观测站个观测站,测量了最大积雪深度测量了最大积雪深度x与当年灌溉面积与当年灌溉面积y,得到连续得到连续10年的数据如下表年的数据如下表:年序 最大积雪深度x(米)灌溉面积y(公顷)1 5.1 1907 2 3.5 1287 3 7.1 2693 4 6.2 2373 5 8.8 3260 6 7.8 3000 7 4.5 1947 8 5.6 2273 9 8.0 3113 10 6.4 24932021/9/2714 为了研究这些数据中所蕴含的规律性为了研究这些数据中所蕴含的规律性,我们由我们由10对数据对数据作出散点图作出散点图.从图看到从图看到,数据点大致落在一条直线附近数据点大致落在一条直线附近,这告诉我这告诉我们变量们变量x和和y之间大致可看作线性关系之间大致可看作线性关系.yxo4000300020001000246810 从图中还看到从图中还看到,这些点又不完全在一条直线上这些点又不完全在一条直线上,这表明这表明x和和y的关系并没有确切到给定的关系并没有确切到给定x就可以唯一确定就可以唯一确定y的程度的程度.2021/9/2715事实上事实上,还有许多其它因素对还有许多其它因素对y产生影响产生影响,如当年的平均气如当年的平均气温、当年的降雨量等等温、当年的降雨量等等,都是影响都是影响y取什么值的随机因素取什么值的随机因素.其其中中a和和b是是未未知知常常数数,称称回回归归系系数数,表表示示其其它它随随机机因因素素对对灌灌溉溉面面积积的影响的影响.2未知未知y=a+bx+如果我们只研究如果我们只研究x和和y的关系的关系,可以假定有如下结构式可以假定有如下结构式:实际中常假定实际中常假定服从正态分布服从正态分布N(0,2),即即2021/9/2716y=a+bx+,N(0,)(1)为一元线性回归模型为一元线性回归模型.通常称通常称由由(1)式式,我们不难算得我们不难算得y的数学期望的数学期望:E(y)=a+bx该式表示当该式表示当x已知时,可以精确地算出已知时,可以精确地算出E(y).由于由于是不可控制的随机因素,通常就用是不可控制的随机因素,通常就用E(y)作为作为y的估计的估计,记作记作.这样我们得到这样我们得到称此方程为称此方程为y关于关于x的的回归方程回归方程.(2)2021/9/2717现对模型现对模型(1)中的变量中的变量x,y进行了进行了n次独次独立观察立观察,得样本得样本(x1,y1),(xn,yn)(3)据据(1)式式,此样本的构造可由方程此样本的构造可由方程 y=a+bx+,N(0,)(1),i=1,2,n (4)这这里里是是第第i次次观观察察时时随随机机误误差所取的值,它是不能观察的差所取的值,它是不能观察的.来描述来描述.2021/9/2718i=1,2,n(5)(4)式式和和(5)式式结结合合,给给出出了了样样本本(x1,y1),(xn,yn)的的概概率率性性质质.它它是是对对理理论论模模型型进进行行统统计计分分析析推推断断的的依依据据.也也常常称称(4)+(5)为为一元线性回归模型一元线性回归模型.由于各次观察独立,有由于各次观察独立,有,i=1,2,n (4)2021/9/2719由由于于此此方方程程的的建建立立有有赖赖于于通通过过观观察察或或试试验验积积累累的的数数据据,所所以以有有时时又又称称其其为为经经验验回回归归方程方程或或经验公式经验公式.(6)回回归归分分析析的的任任务务是是利利用用n组组独独立立观观察察数数据据(x1,y1),(xn,yn)来来估估计计a和和b,以以估估计计值值和和分别代替分别代替(2)式中的式中的a和和b,得回归方程得回归方程那么要问,如何利用那么要问,如何利用n组独立观察组独立观察数据来估计数据来估计a和和b?2021/9/27201用最小二乘法估计用最小二乘法估计a,b首先举例说明最小二乘法的思想:首先举例说明最小二乘法的思想:假假设设为为估估计计某某物物体体的的重重量量,对对它它进进行行了了n次次称称量量,因因称称量量有有误误差差,故故n次次称称量量结结果果x1,x2,xn有有差差异异,现现在在用用数数去去估估计计物物重重,则则它与上述它与上述n次称量结果的偏差的平方和是次称量结果的偏差的平方和是:2021/9/2721于是就提出了下面的估计原则于是就提出了下面的估计原则:用这种方法作出的估计叫最小二乘估计用这种方法作出的估计叫最小二乘估计.最小二乘法认为最小二乘法认为,一个好的估计一个好的估计 ,应使应使这个平方和尽可能地小这个平方和尽可能地小.寻找寻找 ,使上述平方和达到最小使上述平方和达到最小,以这个以这个 作作为物重的估计值为物重的估计值,这就是最小二乘法这就是最小二乘法.2021/9/2722现在的情况是现在的情况是,对对(x,y)作了作了n次观察或试验次观察或试验,得到得到n对数据对数据,我们想找一条直线我们想找一条直线 ,尽可能好地拟合这些数据尽可能好地拟合这些数据.yx 由回归方程由回归方程,当当x取值取值xi时时,应取值应取值a+bxi,而实际观察到的为而实际观察到的为yi,这样就形这样就形成了偏差成了偏差2021/9/2723依照最小二乘法的思想,提出目标量依照最小二乘法的思想,提出目标量Q(7)它是所有实测值它是所有实测值yi与回归值与回归值 的偏差的偏差平方和平方和.yx2021/9/2724yx我们可设法求出我们可设法求出a,b的估计值的估计值 ,使偏差平使偏差平方和方和Q达到最小达到最小.(7)2021/9/2725(7)我们可设法求出我们可设法求出a,b的估计值的估计值 ,使偏差平使偏差平方和方和Q达到最小达到最小.由此得到的回归直线由此得到的回归直线 是在所有直线是在所有直线中偏差平方和中偏差平方和Q最小的一条最小的一条.yx2021/9/2726 通常可采用微积分中求极值的办法通常可采用微积分中求极值的办法,求求出使出使Q达到最小的达到最小的 ,.(7)即解方程:即解方程:得得(8)其中其中 2021/9/2727从而得到回归方程从而得到回归方程按按照照上上述述准准则则,我我们们可可求求出出前前面面例例子子中中灌灌溉溉面积面积y对最大积雪深度对最大积雪深度x的回归方程是的回归方程是:可以看出可以看出,最大积雪深度每增加一个单位最大积雪深度每增加一个单位,灌溉面积平均增加灌溉面积平均增加364个单位个单位.2021/9/2728 可以证明可以证明,我们用最小二乘法求出的估计我们用最小二乘法求出的估计 分别是分别是 a,b 的无偏估计的无偏估计,它们都是它们都是 y y1 1,y y2 2,y yn n的线性函数的线性函数,而且在所有而且在所有y1,y2,yn的线性函数的线性函数中中,最小二乘估计的方差最小最小二乘估计的方差最小.2021/9/2729 求求 出出 回回 归归 方方 程程,问问 题题 尚尚 未未 结结 束束,由由于于是是从从观观察察得得到到的的回回归归方方程程,它它会会随随观观察察结结果果的的不不同同改改变变,并并且且它它只只反反映映了了由由x的的变变化化引引起起的的y的的变变化化,而而没没有有包包含误差项含误差项.(1)回回归归方方程程是是否否有有意意义义?即即自自变变量量x的的变变化化是是否否真真的的对对因因变变量量y有有影影响响?因因此此,有必要对回归效果作出检验有必要对回归效果作出检验.因此在获得这样的回归方程后,通常要因此在获得这样的回归方程后,通常要问这样的问题问这样的问题:2021/9/2730 (2)如果方程真有意义,用它预测)如果方程真有意义,用它预测y时,预测值与真值的偏差能时,预测值与真值的偏差能否估计?否估计?(1)回回归归方方程程是是否否有有意意义义?即即自自变变量量x的的变变化化是是否否真真的的对对因因变变量量y有影响有影响?因此因此,有必要对回归效果作出检验有必要对回归效果作出检验.2.回归方程的显著性检验回归方程的显著性检验对任意两个变量的一组观察对任意两个变量的一组观察因此需要考察因此需要考察y 与与x 间是否确有线性相关关系间是否确有线性相关关系,这就是这就是回归效果回归效果的检验的检验问题问题.都可以用最小二乘法形式上求得都可以用最小二乘法形式上求得y 对对x的回归方程的回归方程,如果如果y 与与x 没有没有线性相关关系线性相关关系,这种形式的回归方程就没有意义这种形式的回归方程就没有意义.(xi,yi),i=1,2,n2021/9/2731我们注意到我们注意到只反映了只反映了x对对y的的影响,所以回归值影响,所以回归值就是就是yi中只受中只受xi影响的影响的那一部分那一部分,而而 则是除去则是除去 xi的影响后的影响后,受其它种种因素影响的部分受其它种种因素影响的部分,故将故将 称称为为残差残差.2021/9/2732于是观测值于是观测值yi可以分解为两部分可以分解为两部分和和,并且并且也可分解为两部分也可分解为两部分.因因此此,y1,y2,yn的的总总变变差差为为:(9)2021/9/2733可以证明可以证明即即 可可以以分分解解为为两两部部分分:回回归归平平方方和和 与残差平方和与残差平方和.(10)2021/9/2734(10)反反映映了了由由于于自自变变量量x的的变变化化引引起起的的因因变量变量y 的差异,体现了的差异,体现了x对对y的影响;的影响;而而反映了种种其它因素对反映了种种其它因素对y的影响的影响,这这些因素没有反映在自变量中些因素没有反映在自变量中,它们可作为它们可作为随机因素看待随机因素看待.2021/9/2735可见可见,为为x 的影响部分与随机因素的影响部分与随机因素影响部分的相对比值影响部分的相对比值.它的作用和随机因素的作用相当它的作用和随机因素的作用相当,于是由于是由数据得到的回归方程就没有什么意义数据得到的回归方程就没有什么意义.若它不是显著地若它不是显著地大大,表明我们所表明我们所选的选的x,并不是并不是一个重要的因素一个重要的因素.2021/9/2736可见可见,为为x 的影响部分与随机因素的影响部分与随机因素影响部分的相对比值影响部分的相对比值.如果它显著地大如果它显著地大,表明表明x的作用是显的作用是显著地比随机因素著地比随机因素大大,这样这样,方程方程就有意义就有意义.通常我们可假设通常我们可假设y和和x没有线性相关关系,没有线性相关关系,对回归方程是否有意义进行显著性检验对回归方程是否有意义进行显著性检验.2021/9/2737(11)因此用因此用来来检检验验b的的绝绝对对值值是是否否显显著著大大于于0(或或者者说说检检验验回归方程回归方程是否有意义是否有意义).可以证明可以证明:的关系式中的关系式中b=0时时,有有当当F(1,n-2)(12)2021/9/2738给给定定显显著著性性水水平平,通通过过查查F分分布布分分位位数数表表,求求出否定域出否定域,便可判断回归方程是否有意义便可判断回归方程是否有意义.拒绝域为:拒绝域为:由上面的讨论可知由上面的讨论可知,要问回归方程是要问回归方程是否有意义否有意义,就是要检验假设就是要检验假设H0:b=0;H1:b0使用的检验统计量为使用的检验统计量为:F(1,n-2)2021/9/2739 我们可以用更简单的公式计算回归平我们可以用更简单的公式计算回归平方和方和 与残差平方和与残差平方和 :(14)(13)2021/9/2740 现在对例中建立的回归方程进行检验,现在对例中建立的回归方程进行检验,可计算得可计算得:=3393025-3318355=355.5对对=0.01,由由F表查得表查得=11.26,由于由于F,故回归方程有意义故回归方程有意义.2021/9/2741当当检检验验认认为为回回归归方方程程确确有有意意义义.则则可可用用来来进进行行予予测测或或控控制制,这这也也是是建建立立回回归归方方程程的的重要目的重要目的.2021/9/2742对对给给定定的的x值值,由由回回归归方方程程就就可得可得的值的值.3 3预测预测当已知最大积雪深度为当已知最大积雪深度为9.2米时米时,就可以预就可以预测灌溉面积:测灌溉面积:=142+3649.2=3489(公顷公顷).由灌溉面积由灌溉面积y对最大积雪深度对最大积雪深度x的回归方程的回归方程例如例如,2021/9/2743实实际际的的y与与预预测测的的不不一一定定相相等等,重重要要的的是是它们的偏差有多大它们的偏差有多大.即即事实上我们无法确切定出事实上我们无法确切定出y-的值的值,只能估只能估计计的范围的范围.通常可假定通常可假定通过对通过对的估计的估计,就知道就知道的取值范的取值范围围.已知有已知有所以所以2021/9/2744根根据据建建立立回回归归方方程程时时算算得得的的,可可以以算算得得.于是可以用于是可以用去估计标准差去估计标准差,记它为记它为,即即(15)用用3倍标准差准则倍标准差准则,就有就有(16)(17)这样估计这样估计y的值落在区间的值落在区间内内或或内内,相应的概率分别为相应的概率分别为0.99和和0.95.2021/9/2745可见可见,利用回归方程利用回归方程预测预测y,可归结可归结为,对给定的为,对给定的x,以一定的置信水平预测对,以一定的置信水平预测对应的应的y的观察值的取值范围,即所谓预测区的观察值的取值范围,即所谓预测区间间.比如比如,某一年测得最大积雪深度为某一年测得最大积雪深度为9.2米米,以以99%的置信水平预测灌溉面积在的置信水平预测灌溉面积在3199公顷公顷与与3779公顷之间公顷之间.根据根据2021/9/2746上面的方法中,由于上面的方法中,由于是估计值,上面两式只是估计值,上面两式只是近似式,在一些要求不高的问题中,这是是近似式,在一些要求不高的问题中,这是可行的可行的.如要求出更为精确的值,可进一步查阅回如要求出更为精确的值,可进一步查阅回归分析的书归分析的书.2021/9/2747在许多实际问题中,两个变量之间在许多实际问题中,两个变量之间并不一定是线性关系,而是某种曲线关并不一定是线性关系,而是某种曲线关系,应该用曲线来拟合系,应该用曲线来拟合.在有些情况下,可以进行适当的变量代在有些情况下,可以进行适当的变量代换,把它线性化,这样就把一个非线性换,把它线性化,这样就把一个非线性回归问题化为线性回归问题而得以解决回归问题化为线性回归问题而得以解决.非线性回归问题非线性回归问题2021/9/2748非线性回归模型非线性回归模型当自变量与因变量存在某种曲线相关关系时,可拟合曲线回归当自变量与因变量存在某种曲线相关关系时,可拟合曲线回归模型。例如:模型。例如:双曲线:双曲线:a0b0a0b0 xxyy指数曲线:指数曲线:y=aebxb0b0 xxyyy2021/9/2749幂函数曲线:幂函数曲线:y=axba0b0 xyb1曲线模型的判别方法:曲线模型的判别方法:理论和经验判断;理论和经验判断;观察散点图观察散点图曲线模型的确定方法:曲线模型的确定方法:通常用变量代换法将曲线转换为直线。按线性模型求解参数,通常用变量代换法将曲线转换为直线。按线性模型求解参数,而后再变换为曲线模型。而后再变换为曲线模型。2021/9/2750线性回归线性回归多元线性回归模型多元线性回归模型1多元线性回归模型的性质多元线性回归模型的性质与模型的确定与模型的确定二元线性回归模型二元线性回归模型:总体多元线性回归模型的一般形式总体多元线性回归模型的一般形式Y的数学期望的数学期望E(Y)随机误差随机误差表明自变量表明自变量共同变动引起的共同变动引起的Y的平均变动。也称总体的二元线性回归方差。的平均变动。也称总体的二元线性回归方差。常数项,常数项,和和Y构成的平面与构成的平面与Y轴的截距轴的截距偏回归系数,表示在偏回归系数,表示在固定时固定时每变化一个单位引起的每变化一个单位引起的Y的平均变动;的平均变动;案例案例2021/9/2751偏回归系数,表示在偏回归系数,表示在固定时固定时每变化一个单位引每变化一个单位引起的起的Y的平均变动;的平均变动;随机误差,其理论假定与一元线性回归模型中的随机误差,其理论假定与一元线性回归模型中的一样。一样。在多元回归模型中,还要求各自变量之间不存在显著相在多元回归模型中,还要求各自变量之间不存在显著相关,或高度相关也即不得存在多重共线性。关,或高度相关也即不得存在多重共线性。样本多元线性回归模型的一般形式样本多元线性回归模型的一般形式二元线性回归模型为:二元线性回归模型为:其数学期望其数学期望也称样本(或估计的)二元线性回归方程。也称样本(或估计的)二元线性回归方程。2021/9/2752二元线性回归方程的确定二元线性回归方程的确定根据实际资料,用最小平方法,即使根据实际资料,用最小平方法,即使,分别对,分别对a、b1、b2求编导并令其为零,求得三个标准方程:求编导并令其为零,求得三个标准方程:解此联立方程便可得到解此联立方程便可得到a、b1、b2。2021/9/27532多元线性回归模型的判定系数和估计标准误多元线性回归模型的判定系数和估计标准误判定系数判定系数0r21修正的判定余数:修正的判定余数:2021/9/2754估计标准误(估计标准误(Sy(x1、x2)r2和和Sy(x1、x2)都是对回归模型拟合优度的评价指标。都是对回归模型拟合优度的评价指标。Sy(x1、x2)也是用自变量对因变量进行区间估计的抽样误差。也是用自变量对因变量进行区间估计的抽样误差。2021/9/27553多元回归模型的显著性检验多元回归模型的显著性检验对偏回归系数的对偏回归系数的t检验检验H0:1=0,H1:10;H0:2=0,H1:20。检验统计量:检验统计量:2021/9/2756按显著性水平按显著性水平和自由度和自由度(n-3)查)查t表可得到临界值表可得到临界值t0模型整体的模型整体的F检验检验检验统计量:检验统计量:(k自变量个数)自变量个数)或或按给定的按给定的和自由度(和自由度(2)和()和(n-3)查)查F表可表可得到临界值得到临界值F2021/9/27574多元回归中的相关分析多元回归中的相关分析复相关:指一个因变量同多个自变量的相关关系。复相关:指一个因变量同多个自变量的相关关系。复相关系数恒取正值。复相关系数恒取正值。偏相关(净相关)指各个自变量在其他自变量固定不变时,单个偏相关(净相关)指各个自变量在其他自变量固定不变时,单个变量同因变量的相关关系。变量同因变量的相关关系。计算偏相关系数需借助相关系数矩阵表的资料。计算偏相关系数需借助相关系数矩阵表的资料。二元回归中的相关系数矩阵表二元回归中的相关系数矩阵表yyx1x1x2x2ry1ry2r121.001.001.00 x1与与y的偏相关系数:的偏相关系数:x2与与y的偏相关系数:的偏相关系数:案例案例2021/9/27585应用多元回归方程进行区间估计应用多元回归方程进行区间估计Y的平均值的区间估计的平均值的区间估计Y的特点值的区间估计的特点值的区间估计式中,式中,是是即区间估计的抽样误差。即区间估计的抽样误差。的抽样分布的标准差,的抽样分布的标准差,式中,式中,是是的抽样分布的标准差,的抽样分布的标准差,即区间估计的抽样误差。即区间估计的抽样误差。2021/9/27592021/9/2760牙膏的销售量牙膏的销售量 问问题题建立牙膏销售量与价格、广告投入之间的模型建立牙膏销售量与价格、广告投入之间的模型预测在不同价格和广告费用下的牙膏销售量预测在不同价格和广告费用下的牙膏销售量收集了收集了30个销售周期本公司牙膏销售量、价格、个销售周期本公司牙膏销售量、价格、广告费用,及同期其它厂家同类牙膏的平均售价广告费用,及同期其它厂家同类牙膏的平均售价9.260.556.804.253.70307.930.055.803.853.80298.510.256.754.003.7527.38-0.055.503.803.851销售量销售量(百万支百万支)价格差价格差(元)(元)广告费用广告费用(百万元百万元)其它厂家其它厂家价格价格(元元)本公司价本公司价格格(元元)销售销售周期周期2021/9/2761基本模型基本模型y 公司牙膏销售量公司牙膏销售量x1其它厂家与本公司其它厂家与本公司价格差价格差x2公司广告费用公司广告费用x2yx1yx1,x2解释变量解释变量(回归变量回归变量,自变自变量量)y被解释变量(因变量)被解释变量(因变量)0,1,2,3 回归系数回归系数 随机随机误差(误差(均值为零的均值为零的正态分布随机变量)正态分布随机变量)2021/9/2762MATLAB统计工具箱统计工具箱模型求解模型求解b,bint,r,rint,stats=regress(y,x,alpha)输入输入x=n 4数据矩数据矩阵阵,第第1列列为为全全1向向量量alpha(置信置信水平水平,0.05)b 的的估估计计值值bintb的置信区间的置信区间r残差向量残差向量y-xbrintr的置信区间的置信区间Stats检验统计检验统计量量R2,F,pyn维维数据向量数据向量输出输出由数据由数据y,x1,x2估计估计 参数参数参数估计值参数估计值置信区间置信区间17.32445.728228.92061.30700.68291.9311-3.6956-7.49890.10770.34860.03790.6594R2=0.9054F=82.9409p=0.0000 0 1 2 32021/9/2763结果分析结果分析y的的90.54%可由模型确定可由模型确定参数参数参数估计值参数估计值置信区间置信区间17.32445.728228.92061.30700.68291.9311-3.6956-7.49890.10770.34860.03790.6594R2=0.9054F=82.9409p=0.0000 0 1 2 3F远超过远超过F检验的临界值检验的临界值p远小于远小于=0.05 2的置信区的置信区间间包含零点包含零点(右端点距零点很近右端点距零点很近)x2对因变量对因变量y 的的影响不太显著影响不太显著x22项显著项显著可将可将x2保留在模型中保留在模型中模型从整体上看成立模型从整体上看成立2021/9/2764销售量预测销售量预测 价格差价格差x1=其它厂家其它厂家价格价格x3-本公司本公司价格价格x4估计估计x3调整调整x4控制价格差控制价格差x1=0.2元,投入广告费元,投入广告费x2=650万元万元销售量预测区间为销售量预测区间为7.8230,8.7636(置信度(置信度95%)上限用作库存管理的目标值上限用作库存管理的目标值 下限用来把握公司的现金流下限用来把握公司的现金流若估计若估计x3=3.9,设定,设定x4=3.7,则可以,则可以95%的把握知的把握知道销售额在道销售额在7.8320 3.7 29(百万元)以上(百万元)以上控制控制x1通过通过x1,x2预测预测y(百万支百万支)2021/9/2765模型改进模型改进x1和和x2对对y的的影响独立影响独立参数参数参数估计值参数估计值置信区间置信区间17.32445.728228.92061.30700.68291.9311-3.6956-7.49890.10770.34860.03790.6594R2=0.9054F=82.9409p=0.0000 0 1 2 3参数参数参数估计值参数估计值置信区间置信区间29.113313.701344.525211.13421.977820.2906-7.6080-12.6932-2.52280.67120.25381.0887-1.4777-2.8518-0.1037R2=0.9209F=72.7771p=0.0000 3 0 1 2 4x1和和x2对对y的影响有的影响有交互作用交互作用2021/9/2766两模型销售量预测两模型销售量预测比较比较(百万支百万支)区间区间7.8230,8.7636区间区间7.8953,8.7592(百万支百万支)控制价格差控制价格差x1=0.2元,投入广告费元,投入广告费x2=6.5百万元百万元预测区间长度更短预测区间长度更短略有增加略有增加2021/9/2767x2=6.5x1=0.2x1x1x2x2两模型两模型 与与x1,x2关系的关系的比较比较2021/9/2768交互作用影响的讨论交互作用影响的讨论价格差价格差x1=0.1价格差价格差x1=0.3加大广告投入使销售量增加加大广告投入使销售量增加(x2大于大于6百万元)百万元)价格差较小时增加价格差较小时增加的速率更大的速率更大x2价格优势会使销售量增加价格优势会使销售量增加价格差较小时更需要靠广告价格差较小时更需要靠广告来吸引顾客的眼球来吸引顾客的眼球2021/9/2769完全二次多项式模型完全二次多项式模型 MATLAB中有命令中有命令rstool直接求解直接求解x1x2从输出从输出Export可得可得2021/9/2770第二部分第二部分 SAS与与Excel数据数据 SAS系统是用于数据分析与决策支持的大型集成式模系统是用于数据分析与决策支持的大型集成式模块化软件包。块化软件包。(其早期的名称为其早期的名称为 Statistical Analysis System )2021/9/2771SAS 系统介绍DATA数据访问数据访问Base SASBase SASACCESSACCESSMDDB ServerMDDB ServerODBCODBC数据管理数据管理Base SASBase SASFSPFSPSHARESHARECONNECTCONNECTASSISTASSISTWarehouse Admin.Warehouse Admin.MDDB ServerMDDB Server数据分析数据分析Base SAS,STAT,ETS,Base SAS,STAT,ETS,OR,QC,IML,INSIGHT,OR,QC,IML,INSIGHT,NNA,LAB,NNA,LAB,SPECTRAVIEWSPECTRAVIEW数据呈现数据呈现Base SASBase SASGRAPH,GIS,CALC,GRAPH,GIS,CALC,INSIGHT,INSIGHT,SPECTRAVIEW,SPECTRAVIEW,ASSISTASSIST开开发发工工具具AFAFEISEISFSPFSP分分布布式式计计算算环环境境CONNECTCONNECTSHARESHAREIntrNETIntrNETThe SAS SystemThe SAS System2021/9/2772启动启动SAS:在:在Windows桌面系统下双击桌面系统下双击SAS图标图标SAS系统简介系统简介SAS提供的基本运行环境提供的基本运行环境或运行或运行SAS系统目录下系统目录下(例例C:SAS)的可的可执行程序执行程序sas.exe常用的是交互运行方式。也可用提交批作业方式运行的常用的是交互运行方式。也可用提交批作业方式运行的2021/9/2773n SAS 为交互方式运行提供的环境q显示管理系统下拉菜单(弹出菜单)q命令框、工具栏q三个基本窗口PROGRAM EDITOR 窗口、LOG 窗口、OUTPUT 窗口2021/9/2774工作界面介绍访问和编辑已有的SAS程序编写新的SAS程序递交SAS程序将SAS程序存为文件是一个基本的窗口,缺省地打开依次记录SAS进程中各程序运行的信息可用命令清空是一个基本的敞口,缺省地打开依次记录程序输出的结果有结果输出时自动转到前台2021/9/2775SAS编程基本概念编程基本概念n用户提交的 SAS 程序由许多程序步构成。数据步数据步DataStep过程步过程步ProcStep原始原始数据数据SAS表SAS表报告报告数据步常用于创建数据集过程步常用于处理数据集(生成报表、图形和实现数据分析功能)2021/9/2776一一.SAS与与Excel数据的转换数据的转换1.SAS数据输入,数据输入,了解了解 SAS数据步语言的格式。数据步语言的格式。2.调用调用Excel数据数据3.SAS输出结果的保存与转化成输出结果的保存与转化成Excel数据数据二二.数据图表与曲线,数据图表与曲线,掌握掌握SAS数据步语言的作用数据步语言的作用2021/9/2777格式格式:DATA 数据集名数据集名;功能功能:标志数据步的开始,并定标志数据步的开始,并定 义所建数据集的名称。义所建数据集的名称。例例:DATA a;DATA b;1.DATA语句语句2.INPUT语句语句格式格式:INPUT 变量名表;变量名表;功能功能:读入由语句指定的数据列;读入由语句指定的数据列;为相应数据定义变量名;为相应数据定义变量名;确定变量格式及读入方式。确定变量格式及读入方式。2021/9/27781)列表输入或自由格式列表输入或自由格式例:例:INPUTNAME$AGEHEIGHT;说明:说明:$表示表示NAME为字符型变量;为字符型变量;表示连续读入记录,如果缺省,表示仅读表示连续读入记录,如果缺省,表示仅读CARDS下每行第一个记录。下每行第一个记录。3种描述记录值的方法种描述记录值的方法:2)列方式列方式例:INPUT NAME$1-20 SEX$22 AGE 24-25;说明:要求各变量数据在数据区排列在固定区域,在说明:要求各变量数据在数据区排列在固定区域,在INPUT语句的变量表中要在变量名后指出该变量所占的列范围。语句的变量表中要在变量名后指出该变量所占的列范围。2021/9/27793)格式化输入格式化输入 例例:INPUT NAME$10.HEIGHT 4.2;说明:要求在变量后给出一个输入格式,用来说明变量的数据类型说明:要求在变量后给出一个输入格式,用来说明变量的数据类型和字段的宽度。和字段的宽度。2021/9/27803CARDS语句语句格式格式 CARDS;数据块数据块 ;功能功能 引导数据行。引导数据行。例:例:dataa1;inputnum$name$weight;cards;081kong60.5082zhao64083wang59.5;procprint;run;2021/9/27814.赋值语句赋值语句格式格式:Z=X+Y;Y=Y+1;功能功能:利用现有变量产生新变量。:利用现有变量产生新变量。data b1;input x y;z=sqrt(x);y=abs(y-z);cards;proc print;run;例:1 2 4 4 16 62021/9/27825SET语句语句常用格式常用格式SET数据集数据集1数据集数据集2.;功能功能调用调用SAS数据集或纵向联接数据集数据集或纵向联接数据集。数据步语句数据步语句例:DATAB;SETA;n打开数据集打开数据集B,并从数据集,并从数据集A读入数据。读入数据。DATAC;SETAB;n将将A和和B纵向联接起来,存放在数据集纵向联接起来,存放在数据集C中。中。2021/9/2783SASSAS程序实例程序实例 datab1;inputname$ageheight;cards;procprint;run;datab2;inputname$ageheight;cards;procprint;run;datab3;setb1b2;procprint;run;SAS语言基础语言基础fang17165.2ning19167.1zhou20168.9wang18156.3cheng21180.22021/9/27