相关分析与一元线性回归分析.ppt
xy第十章相关分析与一元线性回归分析第一节第一节 相关分析和回归分析概述相关分析和回归分析概述第二节第二节 相关分析相关分析第三节第三节 一元线性回归分析一元线性回归分析本章内容本章内容第一节第一节相关分析和回归分析概述相关分析和回归分析概述一、相关关系的概念及特点一、相关关系的概念及特点 1.1.相关关系:客观现象之间存在的互相依存的不确定性关系。相关关系:客观现象之间存在的互相依存的不确定性关系。2.2.特点:特点:(1 1)现象之间确实存在着数量上的依存关系;)现象之间确实存在着数量上的依存关系;(2 2)现象之间数量上的关系是不确定、不严格的依存关系。)现象之间数量上的关系是不确定、不严格的依存关系。图图10-1 10-1 相关关系分类示意图相关关系分类示意图二、相关关系的分类二、相关关系的分类三、相关分析与回归分析三、相关分析与回归分析相关分析是用相关系数去表现现象间相关关系的方向和密相关分析是用相关系数去表现现象间相关关系的方向和密切程度切程度 。回归分析:根据相关关系的形态,选择一个合适的数学模回归分析:根据相关关系的形态,选择一个合适的数学模型型(称为回归方程式称为回归方程式),来近似地表示变量间的平均变化关,来近似地表示变量间的平均变化关系的一种统计分析方法。系的一种统计分析方法。三、相关表与相关图三、相关表与相关图相关表是一种反映变量之间相关关系的统计表。相关表相关表是一种反映变量之间相关关系的统计表。相关表的编制,一般以的编制,一般以x x为自变量,为自变量,y y为因变量,把每个自变量为因变量,把每个自变量与其相应的因变量在表格中一一对应地排列。通过相关与其相应的因变量在表格中一一对应地排列。通过相关表可以初步看出相关关系的形式、密切程度和相关方向。表可以初步看出相关关系的形式、密切程度和相关方向。相关图又称散点图、散布图(相关图又称散点图、散布图(scatter diagramscatter diagram),是将),是将相关表中的观测值在平面直角坐标系中用坐标点描绘出相关表中的观测值在平面直角坐标系中用坐标点描绘出来,以表明相关点的分布状况。通过相关图,可以大致来,以表明相关点的分布状况。通过相关图,可以大致看出两个变量之间有无相关关系以及相关的形态、方向看出两个变量之间有无相关关系以及相关的形态、方向和密切程度。和密切程度。图图10-2 10-2 强正相关强正相关 图图10-3 10-3 弱正相关弱正相关图图10-4 10-4 强负相关强负相关图图10-5 10-5 弱负相关弱负相关图图10-6 10-6 非线性相关非线性相关图图10-7 10-7 不相关不相关利用利用ExcelExcel绘制散点图的具体方法绘制散点图的具体方法 进入进入ExcelExcel表格界面,然后直接点击表格界面,然后直接点击“图表图表”命令。出现如图命令。出现如图10-810-8所示的对话框,选择所示的对话框,选择“XY“XY散点图散点图”。图图 10-8 10-8 单击单击“自定义类型自定义类型”,出现图,出现图10-910-9所示的对话框,选择所示的对话框,选择“两轴折线两轴折线 图图”。单击下一步,出现图单击下一步,出现图10-1010-10的对话框,在数据区域里选择数据区域的对话框,在数据区域里选择数据区域 “$B2 “$B2C9”C9”。图图10-910-9图图10-1010-10 单击下一步,出现图单击下一步,出现图10-1110-11的对话框,在系列里选择的对话框,在系列里选择“产品产量产品产量”和和“生产费用生产费用”,在分类,在分类X X轴标志里选择轴标志里选择“$A2:$A9”“$A2:$A9”。单击下一步,出现图单击下一步,出现图10-1210-12的对话框的对话框,在图表标题框里输入在图表标题框里输入“产品产量产品产量与生产费用相关图与生产费用相关图”,X X轴输入轴输入“时间时间”,Y Y轴分别输入轴分别输入“产品产量产品产量”和和“生产费用生产费用”,单击,单击“完成完成”出现图出现图10-1310-13的输出结果:的输出结果:图图10-1110-11图图10-1210-12 输出结果输出结果图图10-1310-13第二节相关分析一、单相关关系的测定一、单相关关系的测定相关系数相关系数相关系数:在线性相关条件下,说明两个现象之间相关关相关系数:在线性相关条件下,说明两个现象之间相关关系的方向和密切程度的统计分析指标。通常用系的方向和密切程度的统计分析指标。通常用r r来表示。来表示。总体相关系数的计算:总体相关系数的计算:式中,式中,Var(X)Var(X)是变量是变量X X的方差;的方差;Var Var(Y Y)是变量)是变量Y Y的方差;的方差;Cov Cov(X X,Y Y)是变量)是变量X X和和Y Y的协方差。的协方差。相关系数的定义公式为:相关系数的定义公式为:式式中中,n,n表表示示资资料料项项数数;表表示示x x变变量量数数列列的的算算术术平平均均数数;表表示示y y变变量量数数列列的的算算术术平平均均数数;x x表表示示x x变变量量数数列列的的标标准准差差;y y 表表示示y y变变量量数数列列的的标标准准差差;表表示示x x,y y两两个个变量数列的协方差。变量数列的协方差。上述定义公式,整理可写成:上述定义公式,整理可写成:在实际应用中,可运用相关系数简捷法。即:在实际应用中,可运用相关系数简捷法。即:例例1 1:设某市十家主要商场的人均销售额和利润率资料:设某市十家主要商场的人均销售额和利润率资料如表如表10-210-2所示,试计算其相关系数。所示,试计算其相关系数。表表10-1 10-1 主要商场的人均销售额和利润率资料主要商场的人均销售额和利润率资料 解:根据表中所列示的资料,代入下式解:根据表中所列示的资料,代入下式 (1 1)利用)利用ExcelExcel公式计算相关系数公式计算相关系数r r 例例2 2:针对表:针对表10-210-2,借助于,借助于ExcelExcel表格计算相关系数。表格计算相关系数。进入进入ExcelExcel表格界面,选中表格界面,选中C15C15单元格,输入单元格,输入“=”“=”,单击插入,单击插入“f“fx x”函数命令,出现图函数命令,出现图10.1410.14对话框,单击对话框,单击“选择类别选择类别”,在下,在下拉菜单中选中拉菜单中选中“统计统计”,在选择函数中选择,在选择函数中选择“CORREL”“CORREL”函数。函数。图图10-1410-14 在图在图10-1510-15对话框里,在对话框里,在Arrey1Arrey1一栏输入一栏输入B3B3B12B12,在,在Arrey2Arrey2里输入里输入C3C3C12C12。单击单击“确定确定”,计算出,计算出r=0.9874r=0.9874。图图10-1510-15图图10-16 10-16(2 2)利用)利用Excel“Excel“数据分析数据分析”计算相关系数计算相关系数r r用工具用工具“加载宏加载宏”选项选中选项选中“分析工具库分析工具库”选项选项,见图,见图10-1710-17。这时,在这时,在“工具工具”菜单中选中菜单中选中“数据分析数据分析”命令。从命令。从“数据分析数据分析”选选项中选中项中选中“相关系数相关系数”选项,见图选项,见图10-1810-18。图图10-1710-17图图10-1810-18在输入的区域里输入在输入的区域里输入“$B$3“$B$3$C$12”$C$12”,在输出的区域里,在输出的区域里输入输入“$B$15“$B$15$D$17”,$D$17”,见图见图10-1910-19。相关系数分析的结果。相关系数分析的结果间图间图10-2010-20。图图10-1910-19图图10-2010-20 绘制散点绘制散点图,见图图,见图10-2110-21,可,可以看出:以看出:由于由于r=0.987r=0.987,人均销售人均销售额和利润额和利润率高度正率高度正相关相关。图图10-2110-21二、单相关关系的判定二、单相关关系的判定相关系数的数值范围,是在相关系数的数值范围,是在1 1和和1 1之间,即之间,即1r1r1 1;r r0 0为正相关,为正相关,r r0 0为负相关;为负相关;|r|r|越接近于越接近于1 1,则表示相关关系越强,越接近于,则表示相关关系越强,越接近于0 0,则表示相,则表示相关关系越弱;关关系越弱;相关系数的绝对值相关系数的绝对值|r|r|在在0.30.3以下是无直线相关,以下是无直线相关,0.30.3以上是有以上是有直线相关,直线相关,0.30.30.50.5是低度直线相关,是低度直线相关,0.50.50.80.8是显著相关是显著相关(中等程度相关中等程度相关),0.80.8以上是高度相关。以上是高度相关。第三节一元线性回归分析一、回归分析的一般问题一、回归分析的一般问题回归分析所研究的两个变量不是对等关系,必须根据研究回归分析所研究的两个变量不是对等关系,必须根据研究目的,先确定其中一个是自变量,另一个是因变量;目的,先确定其中一个是自变量,另一个是因变量;回归分析可以根据研究目的不同分别建立两个不同的回归回归分析可以根据研究目的不同分别建立两个不同的回归方程方程 ;回归分析对资料的要求是,自变量是可以控制的变量回归分析对资料的要求是,自变量是可以控制的变量(给给定的变量定的变量),因变量是随机变量。,因变量是随机变量。二、一元线性回归分析二、一元线性回归分析 式中,式中,a a表示回归直线在表示回归直线在y y轴上的截距,代表经济现轴上的截距,代表经济现象经过修匀的基础水平;象经过修匀的基础水平;b b表示直线的斜率,称为表示直线的斜率,称为y y倚倚x x的回归系数,表明的回归系数,表明x x每变动一个单位时,影响每变动一个单位时,影响y y平均变动的数量;平均变动的数量;a a和和b b表示确定回归直线模型的两表示确定回归直线模型的两个待定参数。个待定参数。例例3 3:根据表:根据表10-210-2人均销售额与利润率资料,求其一元线性回归方程。人均销售额与利润率资料,求其一元线性回归方程。表表10-2 10-2 人均销售额与利润率资料人均销售额与利润率资料 解:首先,根据表中合计栏的资料求出标准方程组中解:首先,根据表中合计栏的资料求出标准方程组中所需数据;其次,将求出的数据代入公式,求出所需数据;其次,将求出的数据代入公式,求出a a、b b的的值:值:再次,将再次,将a a、b b的值代入回归方程得:的值代入回归方程得:最最后后,由由回回归归方方程程可可得得相相应应的的回回归归估估计计值值,如如表表10-210-2所示。所示。三、估计标准误差的计算方法三、估计标准误差的计算方法 式中,式中,S Sy y表示估计标准误差;表示估计标准误差;为均方残为均方残差(差(SSSS),),n-2n-2表示数据的项数的自由度。表示数据的项数的自由度。估计标准误差是残差平方和估计标准误差是残差平方和(SS)(SS)除以它的自除以它的自由度由度n-2n-2后的平方根。后的平方根。1.1.根据定义公式计算根据定义公式计算例例4 4:根据表:根据表10-110-1,估计标准误。,估计标准误。解:解:2.2.根据回归直线方程中的参数根据回归直线方程中的参数a a、b b计算。计算。3.3.利用估计标准误差与相关系数的关系推利用估计标准误差与相关系数的关系推算。这两个指标在数量上具有如下关系:算。这两个指标在数量上具有如下关系:式中,式中,r r表示相关系数;表示相关系数;y y表示因变量数列的标准差;表示因变量数列的标准差;S Sy y表示估计标准误差。表示估计标准误差。