(06)第6章 相关与回归分析.ppt
第第 6 章章 相关与回归分析相关与回归分析6.1 变量间关系的度量变量间关系的度量 6.2 一元线性回归一元线性回归6-2统计学统计学基础基础学习目标学习目标l相关关系的分析相关关系的分析l参数的最小二乘估计参数的最小二乘估计l回归直线的拟合优度回归直线的拟合优度l回归方程的显著性检验回归方程的显著性检验l利用回归方程进行预测利用回归方程进行预测l用用 Excel 进行回归进行回归 6.1 变量间关系的度量变量间关系的度量 6.1.1 变量间的关系变量间的关系 6.1.2 相关关系的描述与测度相关关系的描述与测度 第第 6 章章 相关与回与归分析相关与回与归分析6.1.1 变量间的关系变量间的关系6.1 变量量间关系的度量关系的度量6-5统计学统计学基础基础 x xy y函数函数关系关系 相关关系相关关系变量之间的关系形态可分为两种类型,即函数关系和相关关系。变量之间的关系形态可分为两种类型,即函数关系和相关关系。函数关系:是函数关系:是一一一一对应的确定对应的确定关系关系相关关系:一个变量的取值不能由另一个变量唯一确定相关关系:一个变量的取值不能由另一个变量唯一确定y y x x 函数关系相关关系6-6统计学统计学基础基础函数关系 例1 例2相关关系子女的身高与其父母身高的关系一个人的收入水平同他受教育程度的关系农作物的单位面积产量与降雨量之间的关系几个例子几个例子6.1.2 相关关系的描述与测度相关关系的描述与测度6.1 变量量间关系的度量关系的度量6-8统计学统计学基础基础散点图散点图(scatter diagram)不相关不相关不相关不相关不相关不相关 负线性相关负线性相关负线性相关负线性相关负线性相关负线性相关 正线性相关正线性相关正线性相关正线性相关正线性相关正线性相关6-9统计学统计学基础基础用散点图描述变量间的关系用散点图描述变量间的关系(例题分析例题分析)【例例例例6.66.6】一一家家大大型型商商业业银银行行在在多多个个地地区区设设有有分分行行,其其业业务务主主要要是是进进行行基基础础设设施施建建设设、国国家家重重点点项项目目建建设设、固固定定资资产产投投资资等等项项目目的的贷贷款款。近近年年来来,该该银银行行的的贷贷款款额额平平稳稳增增长长,但但不不良良贷贷款款额额也也有有较较大大比比例例的的提提高高,这这给给银银行行业业务务的的发发展展带带来来较较大大压压力力。为为弄弄清清楚楚不不良良贷贷款款形形成成的的原原因因,希希望望利利用用银银行行业业务务的的有有关关数数据据做做些些定定量量分分析析,以以便便找找出出控控制制不不良良贷贷款款的的办办法法。下下面面是是该该银银行行所所属属的的2525家家分分行行20022002年的有关业务数据年的有关业务数据 绘制散点图绘制散点图绘制散点图绘制散点图6-10统计学统计学基础基础用散点图描述变量间的关系用散点图描述变量间的关系(例题分析例题分析)6-11统计学统计学基础基础散点图散点图(例题分析例题分析)6-12统计学统计学基础基础相关系数相关系数(correlation coefficient)1.1.度量变量之间度量变量之间线性关系线性关系线性关系线性关系强度的一个统计量强度的一个统计量n n若若相相关关系系数数是是根根据据总总体体全全部部数数据据计计算算的的,称称为为总总体体相关系数,记为相关系数,记为 n n若若是是根根据据样样本本数数据据计计算算的的,则则称称为为样样本本相相关关系系数数,简称为相关系数,记为简称为相关系数,记为 r rl l也也称称为为PearsonPearson相相关关系系数数 (Pearsons(Pearsons correlation correlation coefficient)coefficient)2.2.样本相关系数的计算公式样本相关系数的计算公式 计算相关系数计算相关系数计算相关系数计算相关系数6-13统计学统计学基础基础相关系数相关系数(例题分析例题分析)6-14统计学统计学基础基础相关系数的性质相关系数的性质性质性质1:r 的取值范围是-1,1n n|r r|=|=1 1,为完全相关为完全相关l lr r=1 1,为完全正相关,为完全正相关l lr r=-1-1,为完全负正相关,为完全负正相关n nr r=0=0,不存在不存在线性线性线性线性相关相关关系关系n n-1-1 r r 0 0,为负相关为负相关n n0 0 r r 1 1,为正相关为正相关n n|r r|越越趋趋于于1 1表表示示关关系系越越强强;|r r|越越趋趋于于0 0表表示示关关系越弱系越弱6-15统计学统计学基础基础相关系数的性质相关系数的性质性质性质性质性质2 2:r r具有对称性。即具有对称性。即x x与与y y之间的相关系数和之间的相关系数和y y与与x x之间之间 的相关系数相等,即的相关系数相等,即r rxyxy=r ryxyx性质性质性质性质3 3:r r数值大小与数值大小与x x和和y y原点及尺度无关,即改变原点及尺度无关,即改变x x和和y y的的 数据原点及计量尺度,并不改变数据原点及计量尺度,并不改变r r数值大小数值大小性质性质性质性质4 4:仅仅是仅仅是x x与与y y之间线性关系的一个度量,它不能用之间线性关系的一个度量,它不能用 于描述非线性关系。这意为着,于描述非线性关系。这意为着,r r=0=0只表示两个只表示两个 变量之间不存在线性相关关系,并不说明变量之变量之间不存在线性相关关系,并不说明变量之 间没有任何关系间没有任何关系性质性质性质性质5 5:r r虽然是两个变量之间线性关系的一个度量,却不虽然是两个变量之间线性关系的一个度量,却不 一定意味着一定意味着x x与与y y一定有因果关系一定有因果关系6-16统计学统计学基础基础相关系数的经验解释相关系数的经验解释1.1.|r r|0.80.8时,可视为两个变量之间高度相关时,可视为两个变量之间高度相关2.2.0.50.5|r r|0.80.8时,可视为中度相关时,可视为中度相关3.3.0.30.3|r r|0.50.5时,视为低度相关时,视为低度相关4.4.|r r|0.3 F F ,拒绝拒绝H H0 0;若若F F F F ,不能拒绝不能拒绝H H0 0 或如果或如果 P P值值 F F ,拒绝拒绝H H0 0,线性关系显著,线性关系显著6-43统计学统计学基础基础输出结果输出结果输出结果输出结果EXCEL回归结果借助于软件输出的回归结果,我们通常不采用临界值法则,而是应用P 值:P=1.18349E-7 t t,拒绝,拒绝H H0 0;t t t t,不能拒绝,不能拒绝H H0 0或如果或如果 P P值值=7.533515t t=2.201=2.201,拒拒绝绝H H0 0,表表明明不不良良贷贷款款与贷款余额之间有线性关系与贷款余额之间有线性关系6-47统计学统计学基础基础输出结果输出结果输出结果输出结果EXCEL回归结果借助于软件输出的回归结果,我们通常不采用临界值法则,而是应用P 值:P=0.000000=0.05所以拒绝原假设.6.2.5 利用回归方程进行估计和预测利用回归方程进行估计和预测6.2 一元一元线性回性回归6-49统计学统计学基础基础回归的一个用途是“估计”和“预测”(1)对应于给定的X0,估计均值E(Y|X0)(2)对应于给定的X0,预测个值Y0“估计估计”和和“预测预测”6-50统计学统计学基础基础 E(Y|X0)的点估计 E(Y|X0)的置信区间置信区间 1-的置信区间是 其中 y 的平均值的的平均值的 估计估计 s se e为估计标准误差为估计标准误差6-51统计学统计学基础基础Y0的点估计 Y0的预测区间预测区间 1-的预测区间是 其中 y 的个别值的个别值的预测的预测 s se e为估计标准误差为估计标准误差6-52统计学统计学基础基础例题分析例题分析【例例例例】在在前前面面的的例例子子中中,我我们们要要估估计计贷贷款款余余额额为为100100亿亿元元时时,所所有有分分行行不不良良贷贷款款的的平平均均值值,就就是是平平均均值值的的点点估估计计 。根据估计的回归方程根据估计的回归方程得得【例例例例】如如果果我我们们只只是是想想知知道道贷贷款款余余额额为为72.872.8亿亿元元的的那那个个分分行行(这这里里是是编编号号为为1010的的那那个个分分行行)的的不不良良贷贷款款是是多多少少,则则属属于个别值的点估计于个别值的点估计 。根据估计的回归方程得。根据估计的回归方程得6-53统计学统计学基础基础例题分析例题分析【例例例例】求求出出贷贷款款余余额额为为100100亿亿元元时时,不不良良贷贷款款9595%的的置信区间置信区间 解解:根据前面的计算结果,已知根据前面的计算结果,已知n n=25=25,s sy y=1.97991.9799,t t(25-2)=2.0687(25-2)=2.0687 置信区间置信区间为为当当贷贷款款余余额额为为100100亿亿元元时时,不不良良贷贷款款的的平平均均值值在在2.11412.1141亿元到亿元到3.80593.8059亿元之间亿元之间 6-54统计学统计学基础基础例题分析例题分析【例例例例】求求出出贷贷款款余余额额为为72.872.8亿亿元元的的那那个个分分行行,不不良良贷贷款款 95%95%的预测区间的预测区间 解解:根据前面的计算结果,已知根据前面的计算结果,已知n n=25=25,s sy y=1.97991.9799,t t(25-2)=2.0687(25-2)=2.0687 预测区间预测区间为为贷贷款款余余额额为为72.872.8亿亿元元的的那那个个分分行行,其其不不良良贷贷款款的预测区间在的预测区间在-2.2766-2.2766亿元到亿元到6.13666.1366亿元之间亿元之间 6-55统计学统计学基础基础本章小结本章小结1.1.相关系数的分析方法相关系数的分析方法2.2.线性回归的基本原理和参数的最小二乘估计线性回归的基本原理和参数的最小二乘估计3.3.回归直线的拟合优度回归直线的拟合优度4.4.回归方程的显著性检验回归方程的显著性检验 线性关系的显著性检验线性关系的显著性检验 回归系数检验回归系数检验5.5.利用回归方程进行估计和预测利用回归方程进行估计和预测6.6.用用 ExcelExcel 进行回归进行回归6-56统计学统计学基础基础思考题思考题6.1 6.1 解释相关关系的含义,说明相关关系的特点。解释相关关系的含义,说明相关关系的特点。6.2 6.2 相关分析主要解决哪些问题?相关分析主要解决哪些问题?6.4 6.4 简述相关系数的性质。简述相关系数的性质。6.7 6.7 解释回归模型、回归方程、估计的回归方程的含义。解释回归模型、回归方程、估计的回归方程的含义。6.8 6.8 一元线性回归模型中有哪些基本的假定?一元线性回归模型中有哪些基本的假定?6.9 6.9 简述参数最小二乘估计的基本原理。简述参数最小二乘估计的基本原理。6.10 6.10 解释总平方和、回归平方和、残差平方和的含义,并说明他们之间解释总平方和、回归平方和、残差平方和的含义,并说明他们之间的关系。的关系。6.11 6.11 简述判定系数的含义和作用。简述判定系数的含义和作用。6.12 6.12 在回归分析中,在回归分析中,F F检验和检验和t t检验各有什么作用?检验各有什么作用?6.13 6.13 简述线性关系检验和回归系数检验的具体步骤。简述线性关系检验和回归系数检验的具体步骤。6.14 6.14 什么是置信区间估计和预测区间估计?二者有何区别?什么是置信区间估计和预测区间估计?二者有何区别?6-57统计学统计学基础基础练习题练习题6.2 6.2 学生在期末考试之前用于复习的时间和考试分数之间是学生在期末考试之前用于复习的时间和考试分数之间是否有关系?为研究这一问题,一位研究者抽取了由否有关系?为研究这一问题,一位研究者抽取了由8 8名学名学生构成的一个随机样本,得到的数据如下:生构成的一个随机样本,得到的数据如下:(1 1)绘制复习时间和考试分数的散点图,判断二者之间的)绘制复习时间和考试分数的散点图,判断二者之间的 关系形态。关系形态。(2 2)计算相关系数,说明两个变量之间的关系强度。)计算相关系数,说明两个变量之间的关系强度。复习时间复习时间(h)2016342327321822考试分数(分)64618470889272776-58统计学统计学基础基础练习题练习题6.6 6.6 下面是下面是7 7个地区个地区20002000年的人均年的人均GDPGDP和人均消费水平的统计数据:和人均消费水平的统计数据:(1 1)人均)人均GDPGDP作自变量,人均消费水平作因变量,绘制散点图,并说明二作自变量,人均消费水平作因变量,绘制散点图,并说明二者之间的关系形态。者之间的关系形态。(2 2)计算两个变量之间的线性相关系数,说明两个变量之间的关系强度。)计算两个变量之间的线性相关系数,说明两个变量之间的关系强度。(3 3)利用最小二乘法求出估计的回归方程,并解释回归系数的实际意义。)利用最小二乘法求出估计的回归方程,并解释回归系数的实际意义。(4 4)计算判定系数,并解释其意义。)计算判定系数,并解释其意义。(5 5)检验回归方程线性关系的显著性()检验回归方程线性关系的显著性(=0.05=0.05)(6 6)如果某地区的人均)如果某地区的人均GDPGDP为为50005000元,预测其人均消费水平。元,预测其人均消费水平。(7 7)求人均)求人均GDPGDP为为50005000元时,人均消费水平的元时,人均消费水平的95%95%的置信区间和预测区间。的置信区间和预测区间。地区北京辽宁上海江西河南贵州陕西人均GDP(元)2264011226345474851544426624549人均消费水平(元)73264490115462396220816082035