【教学课件】第六章相关与回归分析.ppt
第六章第六章 相关与回归分析相关与回归分析 第一节 相关与回归分析的基本概念(1学时)n第二节 一元线性回归分析(4学时)n第三节 多元线性回归分析(2学时)n第四节 非线性回归分析(1学时)n第五节 相关分析(1学时)第一节 相关与回归分析的基本概念n一、函数关系与相关关系n二、相关关系的种类 n三、相关分析与回归分析n四、相关表和相关图 一、一、一、一、函数关系与相关关系函数关系与相关关系函数关系与相关关系函数关系与相关关系n n1 1、函数关系。当一个或几个变量取一定的值时,另一、函数关系。当一个或几个变量取一定的值时,另一、函数关系。当一个或几个变量取一定的值时,另一、函数关系。当一个或几个变量取一定的值时,另一个变量有确定值与之相对应。个变量有确定值与之相对应。个变量有确定值与之相对应。个变量有确定值与之相对应。n n 2 2、相关关系。当一个或几个相互联系的变量取一定、相关关系。当一个或几个相互联系的变量取一定、相关关系。当一个或几个相互联系的变量取一定、相关关系。当一个或几个相互联系的变量取一定数值时,与之相对应的另一变量的值虽然不确定,但数值时,与之相对应的另一变量的值虽然不确定,但数值时,与之相对应的另一变量的值虽然不确定,但数值时,与之相对应的另一变量的值虽然不确定,但它仍按某种规律在一定的范围内变化。它仍按某种规律在一定的范围内变化。它仍按某种规律在一定的范围内变化。它仍按某种规律在一定的范围内变化。n n 客观现象的函数关系可以用数学分析的方法去研究,客观现象的函数关系可以用数学分析的方法去研究,客观现象的函数关系可以用数学分析的方法去研究,客观现象的函数关系可以用数学分析的方法去研究,而研究客观现象的相关关系必须借助于统计学中的相而研究客观现象的相关关系必须借助于统计学中的相而研究客观现象的相关关系必须借助于统计学中的相而研究客观现象的相关关系必须借助于统计学中的相关与回归分析方法。关与回归分析方法。关与回归分析方法。关与回归分析方法。二、相关关系的种类二、相关关系的种类n按相关的程度可分为完全相关、不完全相关和不相关。一般的相按相关的程度可分为完全相关、不完全相关和不相关。一般的相关现象是不完全相关。关现象是不完全相关。n按相关的方向可分为:正相关和负相关。按相关的方向可分为:正相关和负相关。n按相关的形式可分为:线性相关和非线性相关。按相关的形式可分为:线性相关和非线性相关。n按变量多少可分为:单相关、复相关和偏相关。一个变量对另一按变量多少可分为:单相关、复相关和偏相关。一个变量对另一变量的相关关系,称为单相关;一个变量对两个以上变量的相关变量的相关关系,称为单相关;一个变量对两个以上变量的相关关系时,称为复相关;在某一现象与多种现象相关的场合,当假关系时,称为复相关;在某一现象与多种现象相关的场合,当假定其他变量不变时,其中两个变量的相关关系称为偏相关。定其他变量不变时,其中两个变量的相关关系称为偏相关。三、相关分析与回归分析三、相关分析与回归分析三、相关分析与回归分析三、相关分析与回归分析 相关分析是用一个指标来表明现象间依存关系的密切程度。相关分析是用一个指标来表明现象间依存关系的密切程度。相关分析是用一个指标来表明现象间依存关系的密切程度。相关分析是用一个指标来表明现象间依存关系的密切程度。n n 回归分析是用数学模型近似表达变量间的平均变化关系。回归分析是用数学模型近似表达变量间的平均变化关系。回归分析是用数学模型近似表达变量间的平均变化关系。回归分析是用数学模型近似表达变量间的平均变化关系。n n 相关分析可以不必确定变量中哪个是自变量,哪个是因变量,其所相关分析可以不必确定变量中哪个是自变量,哪个是因变量,其所相关分析可以不必确定变量中哪个是自变量,哪个是因变量,其所相关分析可以不必确定变量中哪个是自变量,哪个是因变量,其所涉及的变量都是随机变量。涉及的变量都是随机变量。涉及的变量都是随机变量。涉及的变量都是随机变量。n n 回归分析必须事先确定具有相关关系的变量中哪个为自变量,哪个回归分析必须事先确定具有相关关系的变量中哪个为自变量,哪个回归分析必须事先确定具有相关关系的变量中哪个为自变量,哪个回归分析必须事先确定具有相关关系的变量中哪个为自变量,哪个为因变量。一般地说,回归分析中因变量是随机的,而把自变量作为因变量。一般地说,回归分析中因变量是随机的,而把自变量作为因变量。一般地说,回归分析中因变量是随机的,而把自变量作为因变量。一般地说,回归分析中因变量是随机的,而把自变量作为研究时给定的非随机变量。为研究时给定的非随机变量。为研究时给定的非随机变量。为研究时给定的非随机变量。n n 相关分析和回归分析有着密切的联系,它们有共同的研究对象,常相关分析和回归分析有着密切的联系,它们有共同的研究对象,常相关分析和回归分析有着密切的联系,它们有共同的研究对象,常相关分析和回归分析有着密切的联系,它们有共同的研究对象,常常必须互相补充。相关分析需要依靠回归分析来表明现象数量相关常必须互相补充。相关分析需要依靠回归分析来表明现象数量相关常必须互相补充。相关分析需要依靠回归分析来表明现象数量相关常必须互相补充。相关分析需要依靠回归分析来表明现象数量相关的具体形式,而回归分析则需要依靠相关分析来表明现象数量变化的具体形式,而回归分析则需要依靠相关分析来表明现象数量变化的具体形式,而回归分析则需要依靠相关分析来表明现象数量变化的具体形式,而回归分析则需要依靠相关分析来表明现象数量变化的密切程度。只有当变量之间存在着高度相关时,进行回归分析才的密切程度。只有当变量之间存在着高度相关时,进行回归分析才的密切程度。只有当变量之间存在着高度相关时,进行回归分析才的密切程度。只有当变量之间存在着高度相关时,进行回归分析才有意义。有意义。有意义。有意义。四、相关表和相关图四、相关表和相关图四、相关表和相关图四、相关表和相关图n n相关表是一种反映变量之间相关关系的统计表。将某相关表是一种反映变量之间相关关系的统计表。将某相关表是一种反映变量之间相关关系的统计表。将某相关表是一种反映变量之间相关关系的统计表。将某一变量按其取值的大小排列,然后再将与其相关的另一变量按其取值的大小排列,然后再将与其相关的另一变量按其取值的大小排列,然后再将与其相关的另一变量按其取值的大小排列,然后再将与其相关的另一变量的对应值平行排列,便可得到简单的相关表。一变量的对应值平行排列,便可得到简单的相关表。一变量的对应值平行排列,便可得到简单的相关表。一变量的对应值平行排列,便可得到简单的相关表。n n相关图又称散点图。它是以直角坐标系的横轴代表变相关图又称散点图。它是以直角坐标系的横轴代表变相关图又称散点图。它是以直角坐标系的横轴代表变相关图又称散点图。它是以直角坐标系的横轴代表变量量量量X X,纵轴代表变量,纵轴代表变量,纵轴代表变量,纵轴代表变量Y Y,将两个变量间相对应的变量值,将两个变量间相对应的变量值,将两个变量间相对应的变量值,将两个变量间相对应的变量值用坐标点的形式描绘出来,用来反映两变量之间相关用坐标点的形式描绘出来,用来反映两变量之间相关用坐标点的形式描绘出来,用来反映两变量之间相关用坐标点的形式描绘出来,用来反映两变量之间相关关系的图形。关系的图形。关系的图形。关系的图形。第二节 一元线性回归分析n一、标准的一元线性回归模型n二、一元线性回归模型的估计n三、一元线性回归模型的检验 n四、一元线性回归模型预测 一、标准的一元线性回归模型一、标准的一元线性回归模型一、标准的一元线性回归模型一、标准的一元线性回归模型n (一一一一)总体回归函数总体回归函数总体回归函数总体回归函数 t t 1 1 2 2t tu ut t(6.16.1)u u t t是随机误差项,又称随机干扰项,它是一个特殊的随机变是随机误差项,又称随机干扰项,它是一个特殊的随机变是随机误差项,又称随机干扰项,它是一个特殊的随机变是随机误差项,又称随机干扰项,它是一个特殊的随机变量,反映未列入方程式的其他各种因素对的影响。量,反映未列入方程式的其他各种因素对的影响。量,反映未列入方程式的其他各种因素对的影响。量,反映未列入方程式的其他各种因素对的影响。n n (二二二二)样本回归函数样本回归函数样本回归函数样本回归函数:,.n.n.n.n t t称为残差,在概念上,称为残差,在概念上,称为残差,在概念上,称为残差,在概念上,t t与总体误差项与总体误差项与总体误差项与总体误差项u ut t相互对应;是相互对应;是相互对应;是相互对应;是样本的容量。样本的容量。样本的容量。样本的容量。总体回归线与随机误差项总体回归线与随机误差项(t)12tXYtY 。ut 样本回归函数与总体回归函数区别样本回归函数与总体回归函数区别样本回归函数与总体回归函数区别样本回归函数与总体回归函数区别n n总体回归线是未知的,只有一条。样本回归线是根据样本数据拟总体回归线是未知的,只有一条。样本回归线是根据样本数据拟总体回归线是未知的,只有一条。样本回归线是根据样本数据拟总体回归线是未知的,只有一条。样本回归线是根据样本数据拟合的,每抽取一组样本,便可以拟合一条样本回归线。合的,每抽取一组样本,便可以拟合一条样本回归线。合的,每抽取一组样本,便可以拟合一条样本回归线。合的,每抽取一组样本,便可以拟合一条样本回归线。n n总体回归函数中的总体回归函数中的总体回归函数中的总体回归函数中的 1 1和和和和 2 2是未知的参数,表现为常数。而样本回是未知的参数,表现为常数。而样本回是未知的参数,表现为常数。而样本回是未知的参数,表现为常数。而样本回归函数中的归函数中的归函数中的归函数中的 是随机变量,其具体数值随所抽取的样本观测是随机变量,其具体数值随所抽取的样本观测是随机变量,其具体数值随所抽取的样本观测是随机变量,其具体数值随所抽取的样本观测值不同而变动。值不同而变动。值不同而变动。值不同而变动。n n总体回归函数中的总体回归函数中的总体回归函数中的总体回归函数中的u ut t是是是是t t与未知的总体回归线之间的纵向距离,与未知的总体回归线之间的纵向距离,与未知的总体回归线之间的纵向距离,与未知的总体回归线之间的纵向距离,它是不可直接观测的。而样本回归函数中的它是不可直接观测的。而样本回归函数中的它是不可直接观测的。而样本回归函数中的它是不可直接观测的。而样本回归函数中的t t是是是是t t与样本回归与样本回归与样本回归与样本回归线之间的纵向距离,当根据样本观测值拟合出样本回归线之后,线之间的纵向距离,当根据样本观测值拟合出样本回归线之后,线之间的纵向距离,当根据样本观测值拟合出样本回归线之后,线之间的纵向距离,当根据样本观测值拟合出样本回归线之后,可以计算出可以计算出可以计算出可以计算出t t的具体数值。的具体数值。的具体数值。的具体数值。误差项的标准假定误差项的标准假定误差项的标准假定误差项的标准假定n n假定:假定:假定:假定:(u ut t)n n假定:假定:假定:假定:Var(uVar(ut t)()n n假定:假定:假定:假定:Cov(u Cov(ut tu us s)(u ut tu us s)n n假定:自变量是给定变量,与误差项线性无关。假定:自变量是给定变量,与误差项线性无关。假定:自变量是给定变量,与误差项线性无关。假定:自变量是给定变量,与误差项线性无关。n n假定:随机误差项服从正态分布。假定:随机误差项服从正态分布。假定:随机误差项服从正态分布。假定:随机误差项服从正态分布。n n满足以上标准假定的一元线性回归模型,称为标准的一元线性回满足以上标准假定的一元线性回归模型,称为标准的一元线性回满足以上标准假定的一元线性回归模型,称为标准的一元线性回满足以上标准假定的一元线性回归模型,称为标准的一元线性回归模型。归模型。归模型。归模型。二、一元线性回归模型的估计二、一元线性回归模型的估计二、一元线性回归模型的估计二、一元线性回归模型的估计n(一)回归系数的估计(一)回归系数的估计(一)回归系数的估计(一)回归系数的估计 最小二乘法最小二乘法最小二乘法最小二乘法 设设设设 将对求偏导数,并令其等于零,可得将对求偏导数,并令其等于零,可得将对求偏导数,并令其等于零,可得将对求偏导数,并令其等于零,可得:加以整理后有:加以整理后有:加以整理后有:加以整理后有:n n 回归系数的最小二乘估计量回归系数的最小二乘估计量回归系数的最小二乘估计量回归系数的最小二乘估计量n n以上方程组称为正规方程组或标准方程组,式中的是样本容量。以上方程组称为正规方程组或标准方程组,式中的是样本容量。以上方程组称为正规方程组或标准方程组,式中的是样本容量。以上方程组称为正规方程组或标准方程组,式中的是样本容量。n n求解这一方程组可得:求解这一方程组可得:求解这一方程组可得:求解这一方程组可得:(二)总体方差的估计(二)总体方差的估计(二)总体方差的估计(二)总体方差的估计n 上式中,分母是自由度,其中是样本观测值的个数,是一元上式中,分母是自由度,其中是样本观测值的个数,是一元上式中,分母是自由度,其中是样本观测值的个数,是一元上式中,分母是自由度,其中是样本观测值的个数,是一元线性回归方程中回归系数的个数。在一元线性回归模型中,残差线性回归方程中回归系数的个数。在一元线性回归模型中,残差线性回归方程中回归系数的个数。在一元线性回归模型中,残差线性回归方程中回归系数的个数。在一元线性回归模型中,残差t t必须满足必须满足必须满足必须满足 因而失去了两个自由度,所以其自由度为。因而失去了两个自由度,所以其自由度为。因而失去了两个自由度,所以其自由度为。因而失去了两个自由度,所以其自由度为。2 2的正平方根又叫做回归估计的标准误差。的正平方根又叫做回归估计的标准误差。的正平方根又叫做回归估计的标准误差。的正平方根又叫做回归估计的标准误差。S2 ;证明证明证明证明:残差平方和计算残差平方和计算残差平方和计算残差平方和计算n n一般采用以下公式计算残差平方和:一般采用以下公式计算残差平方和:一般采用以下公式计算残差平方和:一般采用以下公式计算残差平方和:(三)最小二乘估计量的性质n最小二乘估计量是随机变量。n在标准假定能够得到满足的条件下,回归系数的最小二乘估计量的期望值等于其真值,即有:()1 ()2 n其方差为:()()估计量性质的数学证明n(一)线性估计量 将12u代入估计量,得:=最小二乘估计量可表现为所要估计的参数的真值与随机误差项的线性组合 推导用的恒等式n n n n令 最小二乘估计量期望值和方差的推导n()2(u)2(u)(根据标准假定)2(根据标准假定)2 n ()(2u)(u)2 (根据标准假定、)(根据标准假定)有效性证明:有效性证明:n设 为任意无偏线性估计量,则有约束条件:n按照与上面同样的方法,可推导出Var()=n比较()与Var()的大小,有:n Var()Var()以上第二步到第三步之所以成立,是因为:而利用前面关于线性无偏估计量的约束条件,可有:三、一元线性回归模型的检验三、一元线性回归模型的检验 n(一)回归模型检验的种类 回归模型的检验包括理论意义检验、一级检验和二级检验。n(二)拟合程度的评价n 总离差平方和的分解 (8.28)是总离差平方和;是回归平方和;是残差平方和。n 可决系数:2 =1 (8.30)n 可决系数的特性(三)显著性检验 n1提出假设。n2.确定显著水平。n3.计算回归系数的值。=(8.36)n4.确定临界值。n双侧检验查分布表所确定的临界值是(-2)和(2);单侧检验所确定的临界值是()。n5.做出判断。四四、一元线性回归模型预测、一元线性回归模型预测 n(一)简单回归预测的基本公式:(8.38)n回归预测是一种有条件的预测,在进行回归预测时,必须先给出f的具体数值。内插检验或事后预测。外推预测或事前预测。n(二)预测误差n发生预测误差的原因。n 预测误差ar(f)2 (8.42)n(三)区间预测 f的()的置信区间为:f2(n-2)f n回归预测的置信区间的特点。回归预测的置信区间回归预测的置信区间第三节第三节 多元线性回归分析多元线性回归分析 n一、标准的多元线性回归模型 n二、多元线性回归模型的估计 n三、多元线性回归模型的检验和预测 n 四、多元线性回归预测 一、标准的多元线性回归模型一、标准的多元线性回归模型 n多元线性回归模型总体回归函数的一般形式 (8.48)n多元线性回归模型的样本回归函数 (8.49)n 多元线性回归分析的标准假定除了包括上一节中已经提出的的假定外,还要追加一条假定。这就是回归模型所包含的自变量之间不能具有较强的线性关系。二、多元线性回归模型的估计二、多元线性回归模型的估计 n(一)回归系数的估计 n (X(XX)X)1 1X XY Y (8.55)n(二)总体方差的估计n2 (8.56)n(三)最小二乘估计量的性质n 标准的多元线性回归模型中,高斯.马尔可夫定理同样成立。三、多元线性回归模型的检验和预测三、多元线性回归模型的检验和预测 n(一)拟合程度的评价(一)拟合程度的评价n修正自由度的可决系数(理由)。(8.61)(2)(8.62)式中,是样本容量;是模型中回归系数的个数。n修正自由度的可决系数 的特点。(二)显著性检验n1回归系数的显著性检验 j=1,2,k (8.63)式中,S 是的标准差的估计值。按下式计算:n (8.64)n 式中,是(X(XX)X)-1的第个对角线元素,2是随机误差项方差的估计值。(8.63)式的统计量的原假设是0:j,因此的绝对值越大表明j为的可能性越小,即表明相应的自变量对因变量的影响是显著的。2回归方程的显著性检验n具体的方法步骤 n回归模型方差分析表n(3)统计量 离差名称平方和自由度方差回归平方和SSR=k-1SSR/(k-1)残差平方和SSE=n-kSSE/(n-k)总离差平方和SST=四、多元线性回归预测四、多元线性回归预测 n基本公式:n (8.66)式中,Xjf(j=2,3,k)是给定的Xj在预测期的具体数值;是已估计出的样本回归系数;是Xj给定时的预测值。第四节非线性回归分析第四节非线性回归分析 n一、非线性回归分析的意义一、非线性回归分析的意义n二、非线性函数形式的确定二、非线性函数形式的确定n确定函数形式的原则n实际分析中较常用的几种非线性函数的特点 三、非线性回归模型的估计三、非线性回归模型的估计 n几种线性变换方法n实际应用时要注意:第一、比较复杂的非线性函数,需综合利用上述的几种方法。第二、变换得到的方程式中的变量不允许包含未知的参数。第三、当变换后的新模型中包含的误差项能够满足标准假定时,新模型中回归系数最小二乘估计量的理想性质才能成立。第四、严格地说,线性变换方法只是适用于变量为非线性的函数。第五、并不是所有的非线性函数都可以通过变换得到与原方程完全等价的线性方程。第五节第五节 相关分析相关分析 n一、单相关系数及其检验 n 二、等级相关系数及其检验 n四、复相关系数和偏相关系数 n 六、相关指数一、单相关系数及其检验一、单相关系数及其检验 n(一)相关系数的定义 (8.86)n样本相关系数的定义还可从另一个角度给出。设倚和倚的样本回归方程为:(8.87)(8.88)样本相关系数可定义为样本回归系数的乘积的开方,即:(8.89)上式中的符号应与回归系数的符号一致。n(二)相关系数与可决系数n 简单线性回归模型中相关系数的平方等于可决系数2。n 样本相关系数的特点:n(三)单相关系数的检验 二、等级相关系数及其检验二、等级相关系数及其检验 n(一)等级相关系数的定义和计算 s=(8.92)n式中,和 分别是两个变量按大小(或优劣)排位的等级,n是样本的容量。n推导推导n通常的单相关系数为:s i=1,2,n (9.121)注意到 和 是等级变量,其可能的取值范围均为:1,2,3,n。利用有关数列求和的公式可得:n (9.122)n (9.123)(9.124)(9.125)=n =n整理后,可得:n (9.126)将(9.124)、(9.125)和(9.126)式代入(9.121)式,便可导出等级相关系数的计算公式(9.120)式。n(二)等级相关系数检验 四、复相关系数和偏相关系数四、复相关系数和偏相关系数 n(一)复相关系数 (8.94)实际计算复相关系数时,一般是先计算出可决系数,然后再求可决系数的平方根。复相关系数只取正值。n(二)偏相关系数 计算偏相关系数时,需要掌握多个变量的数据,一方面考虑多个变量之间可能产生的影响,一方面又用一定的方法控制其他变量,专门考察两个特定变量的净相关关系。偏相关系数与单相关系数数值上可能相差很大,甚至符号都可能相反。(三)样本偏相关系数的定义n偏相关系数等于两个相应偏回归系数的几何平均数。设有个变量X1、X2和X3。个变量各自以另两个变量为自变量拟合的样本回归方程如下 n个变量之间的偏相关系数可定义如下:六、相关指数六、相关指数n相关指数,也就是对非线性回归模型进行拟合时所得到的可决系数。对相关指数进行显著性检验的方法与对复相关系数进行检验的方法类似。