2022年薪酬设计回归分析.doc
相关与回归分析第一节 简单线性相关分析 一、相关关系的概念与品种(一)相关关系的概念在自然界和人类社会中,普遍着存在现象之间的互相依赖、互相制约的关系。一些现象在数量上的开展变化经常伴随着另一些现象数量上的开展变化。现象间的数量关系可分为两种根本类型:函数关系。它是指现象间存在的严格依存的、确定的因果关系,一种现象的数量变化必定决定着另一种现象的数量变化,这种关系可通过精确的数学表达式来反映,比方,圆面积同其半径的关系为s=r2,自由落体落下的间隔同时间的关系为h=gt2,等等。相关关系。指的是现象之间确实存在着数量关系,但这种关系不是严格确定的,当一种现象的数量发生变化时,另一种现象的数量可能在一定范围内发生变化,出现不同的数值。比方,单位产品本钱同产量之间的关系,一般说来,当工厂规模扩大,产品产量增加时,单位产品本钱会随之下降,这种变化趋势表达了规模经济的效应,具有客观性和普遍性。但由于妨碍产品本钱的要素众多,有主要的,也有次要的,有必定的,也有偶尔的,有随机的,也有非随机的,有观察得到的,也有观察不到的,等等。同一产量水平下,可能会出现各种各样的单位本钱,或者某一确定的单位本钱对应着不同的产量,两者的关系不是唯一确定的。粮食收获量与施肥量之间、商品价格与需求量之间、身高与体重之间等都具有类似的特征,这种关系确实是相关关系。函数关系与相关关系既有区别,又有联络。由于观察和实验中的误差,函数关系往往通过相关关系表现出来;而当对现象之间的内在联络和规律性理解得更加清晰的时候,相关关系又可能转化为函数关系。在社会经济领域里,一般说来,函数关系反映了现象间关系的理想化状态,相关关系则反映了现象间关系的现实化状态,只有在大量观察时,在平均的意义上,它才能被描绘。综上所述,相关关系是现象之间确实存在的,但关系数值不固定的互相依存关系。相关分析则是研究一个变量与另一个变量或另一组变量之间相关亲密程度和相关方向的一种统计分析方法。(二)相关关系的品种现象之间的相关关系是非常复杂的,从不同的角度看,相关关系有不同的品种。1.固定相关和随机相关。按变量的性质(是否是随机变量),相关关系可分固定相关和随机相关。固定相关是指一个随机变量与另一个或一组非随机变量之间的的相关关系。例如,农作物的施肥量是一个可操纵的变量,农作物收获量是一个不确定的变量,两个变量之间的关系表现为一个随机变量与另一个非随机变量之间的固定相关。随机相关是指一个随机变量与另一个或一组随机变量之间的相关关系。例如,大学生的身高和体重之间的关系确实是两个随机变量之间的随机相关关系,假如观察某一身高的一组学生时,其体重各不一样,会构成一个分布;假如观察某一体重的一组学生时,其身高也不一样并构成一个分布,两个变量均为随机变量。2.简单相关和多元相关。按变量的多少,相关关系可分为简单相关和多元相关。简单相关,又称单相关,是指一个随机变量与另一个随机变量或非随机变量之间的相关关系;多元相关,又称复相关,是指一个随机变量与另一组随机变量或非随机变量之间的相关关系。按变量之间的相关方向不同,简单相关又可分为正相关和负相关。当自变量的值增加,因变量的值也相应地增加;自变量的值减少,因变量的值也随之减少时,如此的相关关系确实是正相关。反之,当自变量的值增加时,因变量的值随之减少;自变量的值减少时,因变量的值反而增加,具有这种特点的相关关系确实是负相关。多元相关可进一步分解为简单相关和偏相关。偏相关是指在测定一个随机变量与某个或某些随机变量或非随机变量之间的互相关系后,该随机变量与某一新增加的随机量或非随变量之间的相关关系,又称之为净相关。3.线性相关和非线性相关。按变量之间的相关方式,相关关系可分为线性相关和非线性相关。假设一随机变量与另一个或一组随机变量或非随机变量之间的相关关系表现为线性组合时,则称它们之间的相关关系为线性相关。反之,假设一随机变量与另一个或一组随机变量或非随机变量之间的相关关系不能表现为线性组合,而只能表现为非线性组合时,则称它们之间的相关关系为非线性相关。4.完全相关、不完全相关和不相关。按变量之间的相关程度不同,相关关系可分为完全相关、不完全相关和不相关。假设一个变量的值完全由另一个或一组变量的值所决定,则称变量之间的这种相关关系为完全相关,即函数关系。假设一个变量的值与另一个或一组变量的值有关,但其中要遭到随机要素的妨碍,则称变量之间的这种相关关系为不完全相关。假设一个变量的值完全不受另一个或一组变量值的妨碍,则称变量之间不相关。大量社会经济现象之间的相关关系都属于不完全相关,不完全相关是相关分析的根本内容。完全相关和不相关可视为相关关系中的特例。二、简单线性相关图表断定两变量之间的相关程度和相关方向是简单线性相关分析的重要内容之一。其最简单、最直观的方法确实是列相关表、绘制相关图。简单线性相关关系有固定简单线性相关与随机简单线性相关之分。简单线性相关图表可用于直观地说明这两类简单线性相关变量之间的相关程度和相关方向。(一)固定简单线性相关图表已经明白有两个变量,设y是随机变量,x是非随机变量,对应于x的每一个给定的取值,y有多个可能的取值,但在一次试验中,y只取其中一个可能值。由于x是非随机变量,在实验中其取值能够操纵并重复进展,因而在n次试验中,x可能取n个一样或不同的值,相应地也有n个y的值,即得到一一对应的样本材料(x,y)。将这些数据按x的取值由小到大依次对应陈列,即构成固定简单线性相关表,又称之为一维相关表。例9.1 某地区居民人均收入水平(x)与其食品支出占生活费支出比重(y)之间具有相关关系,编制相关表如下(见表9-1):表9-1 一维相关表人均收入水平(元)x2803203905306506707908809101050食品支出占生活费支出比重(%)y68.367.566.264.956.760.254.449.050.543.6从表9-1能够粗略看出,随着居民人均收入水平的提高,食品支出占生活费支出的比重有下降的趋势。将一一对应的(x,y)描点于坐标系上,即构成散点图,又称相关图。在相关图上,以横轴表示非随机变量(x),以纵轴表示随机变量(y),通过观察各对变量值坐标点的分布情况,能够大致推断变量之间相关的形态、方向和亲密程度。利用表9-1材料,可绘制相关图如下(见图9-1):图9-1 居民人均收入水平与其食品支出的关系图从图9-1能够看出,随着居民人均收入水平的提高,食品支出占生活费支出的比重明显降低,并大致呈线性下降趋势,即负线性相关。一些常见的相关分布状态可用下述各图表示(见图9-2): 较明显的线性正相关 较明显的线性负相关 不明显的线性负相关 不相关图9-2 几种常见的相关散点图(二)随机简单线性相关图表设x 、y为两个随机变量,将观测值(x,y)分组之后按顺序陈列,x从小到大陈列,y从大到小陈列,构成一棋盘式平衡表,称之为二维相关表。例9.2 某地区为研究降雨量和农作物平均每亩收获量的关系,从40个降雨量不同的试验田中获得40对数据。用x表示降雨量,y表示平均每亩收获量。据此可编出二维相关表如下(见表9-2)。该表中,中间每一格列出的是x、y的结合频数,它说明x和y同时取某值的次数;最后一列每一格是每一行的结合频数的和,它说明y取某值的次数;最后一行每一格则是每一列的结合频数的和,它说明x取某值的次数。表9-2 二维相关表 降雨量(毫米)xi频数fij81012141618行和(fj)收获量(公斤)yj260121424022262202351112001363131801231601113列和(fi)3614115140从表9-2能够粗略看出,降雨量与收获量之间大致呈线性正相关关系。利用表9-2材料,可绘制相关图如下(见图9-3):图9-3 降雨量与收获量之间相关图三、简单相关系数(一)简单相关系数的意义简单线性相关图表尽管直观,但不能精确地描绘现象间的相关关系。测量两个变量之间线性相关程度和相关方向的指标,称为简单相关系数。总体相关系数一般用R表示,定义式为 (式9.1)式中,和表示变量X和Y的标准差,对有限总体而言,其计算公式为 (式9.2) (式9.3)表示两个变量X和Y之间的协方差,计算公式为 (式9.4)这里,变量X和Y 为总体变量,N为总体单位数,和分别为变量X及Y的总体平均数,计算式为 (式9.5) (式9.6)要理解相关系数R的意义,首先要明确协方差和标准差、在反映变量之间相关关系中的作用。协方差反映了变量X和Y的共变性,能够显示两个变量的相关方向和相关关系的亲密程度,它可能出现以下几种情况:第一,所有相关点均为正相关,则> 0,说明两个变量之间正线性相关。第二,所有相关点均为负相关,则< 0,说明两个变量之间负线性相关。第三,在全部相关点中,既有正相关、又有负相关和零相关,在计算协方差时就会出现正负抵销。抵销的结果如为正数则是正相关,如为负数则是负相关。数值大表示相关程度强,数值小则表示相关关系弱。假设正、负全部低销掉了,结果为零,则表示不相关。第三种情况是实际经济生活中最常见到的情况。此外,还有两种极端的情况:当所有相关点都是零相关时,抵销结果为零,表示两个变量完全没有相关关系。当所有相关点全部落在直线上时,表示两个变量完全线性相关,即存在函数关系。进一步,相关系数是一个界于+1和-1之间的数,即-1R1,假设R=1,说明两个变量之间存在完全正线性相关;假设R=-1说明两个变量之间存在完全负线性相关;假设0 < R < 1,说明两个变量之间存在一定程度的正线性相关;假设-1 < R < 0,说明两个变量之间存在一定程度的负线性相关;假设R=0,说明两个变量之间没有线性相关关系。(二)简单相关系数的计算在实际工作中,总体相关系数R一般是未知的,往往需要用样本材料推断总体的相关情况,因而需要计算样本相关系数。1.固定简单线性相关系数的计算设x和y 为样本变量,其中y为随机变量,x为非随机变量, n为样本容量,、分别为变量x及y的样本平均数,、和分别表示变量x和y的样本标准差及它们之间的样本协方差,其计算为 (式9.7) (式9.8) (式9.9) (式9.10) (式9.11)因而,就可得到与总体相关系数计算方式一样的样本相关系数(记为r)的公式 (式9.12)通过简单的推导,上式还可变化为下面易于计算的方式 (式9.13)依照表9-1的材料计算相关系数如表9-3所示:表9-3 固定简单线性相关系数计算表序号人均收入水平(元)x食品支出占生活费支出比重(%)yx2y2xy128068.3784004664.8919124232067.51024004556.2521600339066.21521004382.4425818453064.92809004212.0134397565056.74225003214.8936855667060.24489003624.0440334779054.46241002959.3642976888049.07744002401.0043120991050.58281002550.254595510105043.611025001900.9645780合计6470581.3481430034466.09355959将表9-3数字代入上述相关系数计算公式,得:= - 0.982.随机简单线性相关系数的计算假如x和y均为随机变量,计算样本相关系数的根本式仍为但由于存在结合频数(fij),其详细的计算略有变化,通过不复杂的类推可得下式(式9.14)依照表9-2材料计算相关系数,计算过程如表9-4、表9-5、表9-6所示:表9-4 降雨量(x)数据的计算表降雨量(毫米)xifixi2xifixi2fi83642419210610060600121414416820161411196154215616525680128018132418324合计405046568表9-5 平均每亩收获量(y)数据的计算表平均每亩收获量(公斤)yjfjyj2yjfjyj2fj1603256004807680018033240054097200200134000026005200002201148400242053240024065760014403456002604676001040270400合计4085201842400表9-6 平均每亩收获量(y)数据的计算表降雨量(毫米)xi平均每亩收获量(公斤)yjfij xiyjfij816011280818011440820011600101601160010200360001022024400121601192012180243201220061440012220379201224025760142003840014220515400142402672014260136401622013520162402768016260283201626014680合计40109000依照以上各表材料可得: = = 0.67四、相关系数的统计推断总体相关系数R一般是未知的,能够计算出的只是样本相关系数r,r尽管能够提供关于总体相关程度与方向的某种信息,r愈大,在一定程度上说明总体相关程度愈高,但也可能犯错误。这就需要依照样本材料对总体相关系数R进展检验和可能。(一)关于总体相关系数R的检验由于相关系数r的分布复杂,不能直截了当利用它去进展统计推断,但假如设ZR= (式9.15)zr= (式9.16)能够证明,当样本(x,y)抽自正态分布总体时,zr近似服从平均值为ZR,方差为的正态分布,因而z=(zr-ZR) (式9.17)近似服从标准正态分布。据此能够检验H0:R=R0(R0¹0)利用例9.1材料,计算的样本相关系数r=-0.98,是否能够认为总体相关系数R=-0.90,统计假设为H0:R=-0.90H1:R¹-0.90如今,ZR=-1.472zr=-2.298因而,检验统计量z=(zr-ZR) =(-2.298+1.472) =-2.185当明显水平=5%时,查正态分布表可得,故否认H0,接受H1,即不能认为总体的相关系数R=-0.90。同理,也能够对总体相关系数进展单边检验。(二)关于总体相关系数R的区间可能首先,求出ZR的可能区间。假设与可能保证程度对应的概率度为Z,ZR的可能区间就为zr-ZR zr+关于例9.1,ZR的95%置信可能区间为-2.298-ZR-2.298+ 即 -3.039ZR-1.557依照ZR的置信区间,能够换算出R的置信区间:当ZR=-3.039时,R=-0.99当ZR=-1.557时,R=-0.92计算结果说明,居民人均收入水平与食品支出占生活费支出比重之间的总体相关系数R的95%的置信区间为-0.99至-0.92。同理,也可类似地对例9.2进展分析,请读者本人考虑。第二节 简单线性回归分析一、回归分析的概念和品种从历史上看,“回归”概念的提出是要早于“相关”的,生物统计学家高尔顿在研究豌豆和人体的身高遗传规律时,首先提出“回归”的思想。1887年,他第一次将“回复”(Reversion)作为统计概念使用,后改为“回归”(Regression)一词。1888年他又引入“相关”(Correlation)的概念。原来,他在研究人类身高的遗传时发觉,不管祖先的身高是高依然低,成年后代的身高总有向一般人口的平均身高回归的倾向。浅显的讲确实是,高个子父母,其子女一般不象他们那样高,而矮个子父母,其子女一般也不象他们那样矮,由于子女的身高不仅遭到父母的妨碍(尽管程度最强),还要受其上两代共四个双亲的妨碍(尽管程度相对弱一些),上三代共八个双亲的妨碍(尽管程度更加弱一些),如此等等 ,即子女的身高要遭到其2n(n趋近无穷)个祖先的整体(即总体)妨碍,是遗传和变异的统一结果。回归和相关已成为统计学中最根本的概念之一,其分析方法已是最标准、最常用的统计工具之一。从狭义上看,相关分析的任务主要是评判现象之间的相关程度高低以及相关的方向的,而回归分析则是在相关分析的根底上进一步借用数学方程将那种明显存在的相关关系表示出来,从而使这种被提醒出的关系详细化并可运用于实践中去。但也常从广义的角度去理解相关和回归,如今回归分析就包含着相关分析。回归分析最根本的分类确实是一元回归和多元回归,前者是指两个变量之间的回归分析,如收入与意愿支出之间的关系;后者则是指三个或三个以上变量之间的关系,如消费支出与收入及商品价格之间的关系等。进一步,一元回归还可细分为线性回归和非线性回归两种,前者是指两个相关变量之间的关系能够通过数学中的线性组合来描绘,后者则没有这种特征,即两个相关变量之间的关系不能通过数学中的线性组合来描绘,而表现为某种曲线模型。二、简单线性回归方程总体的简单线性回归模型可表示为Y=A+BX+e (式9.18)上式中,X称为自变量,Y称为因变量,e称为随机误差值。从这里能够看出相关分析与回归分析的明显区别,在前述的相关分析中通常能够将变量X和Y视作是某种“对等”的要素,而在这里的回归分析中,它们却是不“对等”的。自变量是解释变量或预测变量,并假定它是能够操纵的无测量误差的非随机变量;相反,因变量是被解释变量或被预测变量,它是随机变量,即一样的Y可能是由于不同的X所造成,或者一样的X可能引起不同的Y,其表现正是随机误差项e。随机误差值e是观察值Y能被自变量X解释后所剩下的值,故又称为残差值,它是随机变量。A和B为未知待估的总体参数,又称其为回归系数。由此可见,实际观测值Y被分割为两个部分:一是可解释的确信项A+BX,二是不可解释的随机项e。与相关分析类似,总体的回归模型Y=A+BX+e是未知的,如何依照样本材料去可能它就成为回归分析的根本任务。由此能够假设样本的回归方程如下: (式9.19)上式中,、和分别为Y、A和B的可能值。假如对变量X和Y结合进展n次观察,就能够获得一个样本(x,y),据此就可求出、的值。求、的方法有多种,但一般是采纳最小平方法。它要求观察值y与可能值的离差平方和到达最小值,即=最小值满足这一要求的和可由下述标准方程求出 y=n+x xy=x+x2解方程得: (式9.20) (式9.21)例9.3 为研究某类企业的消费量和单位本钱之间的关系,现随机抽取10个企业,得如下数据(见表9-7):依照该材料,经计算可得表9-8:表9-7 10个企业的消费量和单位本钱情况编号12345678910产量(万件)2344566789单位本钱(元/件)52545248484645444038表9-8 一元线性回归计算表编号产量(万件)x单位本钱(元/件)yx2y2xyy-12524270410454.35-2.3523549291616252.101.90345216270420849.852.15444816230419247.85-1.85554825230424047.600.40664636211627645.350.65764536202527045.35-0.35874449193630843.100.90984064160032040.85-0.851093881144434238.60-0.60合计544673362205324224670由上表材料,可得: = - 2.25 = 58.85如此就能够得到消费量(x)和单位本钱(y)之间的样本回归方程=58.85-2.25x在简单线性回归方程中,为截距, 为斜率,后者表示自变量x变化一个单位时,将平均变化个单位。当取正值时,说明x和y的变化方向一样,当取负值时,说明x和y的变化方向相反。本例中,=-2.25,说明产量每增加1万件时,单位本钱将平均下降2.25元。依照样本材料获得的回归方程又称为经历方程,假如计算出观察值y的可能值,并进一步求出残差y-,就能够观察回归方程对总体方程拟合的优良程度。关于某一特定的自变量x而言,观察值y同其可能值是有一定差异的,比方,当产量为5万件时,实际单位本钱为48元,而其可能值为47.60元,两者相差0.4元,但全部残差项之和等于零(见表9-8),这说明可能值平均来说是无偏的。事实上,最小平方可能量还满足下式(y-)=0 即 这里,表示可能值的平均值,即从理论上讲,最小平方法具有优良特性,由于参数A、B的最小平方可能量、是最优的线性无偏可能量,这一性质通常称为“高斯马尔科夫定理”,这也是最小平方法获得广泛应用的主要缘故。此外,假如记随机误差项e的方差为2,它也是未知的总体参数,其无偏可能量为 (式9.22)上式中,称为剩余离差平方和或残差平方和,n-2为自由度。三、离差分析关于某一个观察值,其离差大小可通过观察值与全部观察值的均值之差-表示出来,-又可进一步分解为-和-两部分,即-=(-)+(-)能够证明,当变量X和Y之间线性相关时,还进一步存在下述等式关系S(-)2=S(-)2+S(-)2通常记T=S(-)2R=S(-)2 分别称T、R和为总离差平方和、回归离差平方和和剩余离差平方和。总离差平方和反映了样本中全部数据的总波动程度;回归离差平方和反映了回归可能值本身的离散程度,它是由于回归方程及自变量x取值不同所造成的,是能够解释的差异;剩余离差平方和是回归拟合后所剩下的部分,是不能解释的变差,故又称为残差平方和。显然,T中R的比重愈大,或者的比重愈小,则说明线性回归拟合愈好,反之,拟合就愈差。由此能够建立下述指标r2= (式9.23)称r2为样本相关程度的断定系数,r=为样本相关系数。由此就可直观地看出r2和r的特性:(1)r21或-1r+1(2)|r|愈接近于1,相关程度愈强;|r|愈接近于0,相关程度愈弱。(3)r取正值时说明正相关,r取负值时说明负相关。(4)r只能说明总体是否可能存在线性相关,当|r|非常小甚至接近于0时,只能说明总体可能不存在线性相关,但是否存在非线性相关还需进一步断定。从计算角度看,上述几种离差还可表示为 T=S(-)2=R=S(-)2=b2S(-)2=b2 =T-R关于例9.3,有T=22053-×(467)2=244.10R= b2=(-2.25)2×336-×(54)2=224.78=T-R=244.1-224.78=19.32计算结果说明:单位本钱的总离差平方和为244.10,其中由于产量变化所造成的为224.78,占92.09%,由于产量以外的所有要素共同造成的为19.55,占8.01%。据此计算的相关系数为r=0.96四、统计推断依照样本数据得到的经历回归方程,是否能够较好地拟合了总体的实际情况,必须通过统计检验加以推断。能够证明:当变量Y服从正态分布时,从中随机抽取样本(x,y),回归系数A和B的最小平方可能值和也服从正态分布,其平均值分别为=A (式9.24)=B (式9.25)方差分别为 (式9.26) (式9.27)因而,就可建立两个标准正态统计量 (式9.28) (式9.29)同时,和的计算式中一般未知,但其无偏可能量为据此对A和B进展统计假设检验的步骤如下(仍以例9.3的材料):(1)检验A第一步:建立统计假设H0:A=0H1:A¹0第二步:计算z统计量 由于=2.415 =1.828 =1.352因而,检验统计量为=43.528第三步:确定明显水平,做出推断 假设设=5%,经查表得=1.96<z=43.528,回绝零假设,即认为回归系数A明显的不为零。(2)检验B同理,可对回归系数B进展检验。假设统计假设为H0:B=0H1:B¹0如今=0.054 =0.233检验统计量=-9.657由于=1.96<|z|=9.657,回绝零假设,即认为回归系数B也明显的不等于零,说明单位本钱同产量之间存在明显的线性相关关系。与前面的讨论类似,也可对A和B进展单边检验以及A和B是否明显的与某一确定值一样或不一样的检验。但通常进展的是对A=0和B=0的检验。对A=0的检验是调查回归直线是否通过坐标原点;由于B表示X变化一个单位时对Y的妨碍程度,因而对B=0的检验实际是调查这种程度是否为零,即是否存在线性相关关系。另外,通过最小平方法获得的和只是A和B的点可能量,在此根底上可进一步给出它们的区间可能。当置信度为1时,A和B的置信区间分别为-£ A £+ (式9.30)-£ A £+ (式9.31)这里= (式9.32)= (式9.33)关于例9.3,当置信概率为95%时=1.96×1.352=2.65=1.96×0.233=0.46因而可得A和B的置信区间分别为58.85-2.65£ A £58.85+2.65即56.20£ A £61.50-2.55-0.46£ B £-2.55+0.46即-3.01£ B £2.09五、回归预测拟合的回归方程及其参数通过检验后,经常要应用它去预测,显然,给定x=x0时,Y的点预测量为 (式9.34)Y的置信度为1-的区间预测量为-£ Y £+ (式9.35)这里= (式9.36) (式9.37)接上面的例子,当产量为10万件时,单位本钱的点预测值为=58.85-2.25´10=36.35(元)由于 =3.807 =1.951当产量为10万件,置信度为95%时,由于=1.96×1.951=3.82因而可得单位本钱的预测区间为-£ Y £+36.35-3.82£ Y £36.35+3.82即32.53元£ Y £40.17元必须指出的是,给定的x0假如在样本(x1,x2,xn)的最小值至最大值之间取值,预测过程称为内插预测,否则,称为外推预测。进展外推预测时,误差一般较大,这是由两方面缘故引起的:一是x0远离,二是回归方程通过检验后,尽管能代表总体的线性相关关系,但这种关系只能在样本范围内成立,在其之外就有可能出错误,同时,随着情况的变化,原样本也可能不再能反映总体的现状,如此,预测的效果就不好甚至失败。第三节 多元线性回归与相关分析一、多元线性回归分析简单线性回归与相关分析是对客观现象之间的关系进展高度简化的结果,但在实际咨询题中,妨碍因变量的要素往往不只一个,而是多个。比方,产品的本钱不仅取决于该产品的消费量,而且也与原材料价格、技术水平、治理水平等要素有关;再如,妨碍农作物收获量的要素,除施肥量外,还有种子、气候条件、耕作技术等要素。多元线性回归与相关所研究的确实是三个或三个以上的变量之间的数量关系咨询题。总体的多元线性回归方程为Y=A+B1X1+B2X2+BkXk+e (式9.38)总体回归方程一般未知,需要通过样本去可能。设可能方程为=+b1x1+b2x2+bkxk (式9.39)上式中,、b1、b2、bk称为回归系数,其中,bi(i=1,2,,k)又称为偏回归系数,它表示当其它自变量均为零时,xi每变化一个单位对因变量妨碍的数值。设样本为(x1,x2,xk,y),利用最小平方法可可能出回归方程中的参数,即要求=(y-)2=y (+b1x1+b2x2+bkxk)2=最小值据此可得以下联立标准方程 y=n+b1x1+b2x2+bkxkx1y= x1+b1x12+b2x1x2+bkx1xkx2y= x2+b1x1x2+b2x22+bkx2xkMxky= xk+b1x1xk+b2x2xk+bkxk2当k=2时,标准方程为变为 y=n+b1x1+b2x2x1y= x1+b1x12+b2x1x2x2y= x2+b1x1x2+b2x22解方程,可得 (式9.40) (式9.41) = (式9.42)为计算方便,上述各因子项还可表示为()2=x12 -(x1)2 (式9.43)()2=x22 -(x2)2 (式9.44)()()=x1x2 -x1x2 (式9.45)()2=y2 -(y)2 (式9.46)()()=x1y -x1y (式9.47)()()=x2y -x2y (式9.48)能够证明,最小平方可能量、b1、b2、bk是总体参数A、B1、B2、Bk的最优线性无偏可能量。例9.4 为研究某商品的需求量、价格、消费者收入三者之间的关系,经调查得如表9-9所示材料:表9-9 某商品的需求量、价格及消费者收入材料编号需求量(件)收入(百元)价格(元)11015328105381844710354866610571019381116291018110597依照上表材料,可得如表9-10的回归计算表:据表中数据,假如设需求量(y)与收入(x1)及价格(x2)之间的回归方程为:=+b1x1+b2x2可通过最小平方法求出、b1和b2,经计算可得:()2=x12 -(x1)2=1935-´1332=166.1()2=x22 -(x2)2=183-´392=30.9表9-10 回归数据计算表编号需求量(件)y收入(百元)x1价格(元)x2y2x12x22x1x2x1yx2y11015310022594515030281056410025508040381846432416721443247103491009307021548616643648322466105361002550603071019310036195719030811162121256432176229101811003241181801010597258149634535合计791333967519351834651127274()()=x1x2 -x1x2=456-´133´39=-53.7()2=y2 -(y)2=675-´792=50.9()()=x1y -x1y=1127-´133´79=76.3()()=x2y -x2y=274-´39´79=-34.1因而可得=0.234=-0.697=-0.234´-(-0.697)´=7.506从而可得经历方程=+b1x1+b2x2=7.506+0.234x1-0.697x2回归方程说明:在价格不变情况下,消费者收入增加1百元时,对该商品的需求平均上升0.234件;在消费者收入不变情况下,价格每上涨1元时,对该商品的需求平均下降0.697件。从数学角度看,回