统计学第七章相关分析与回归分析幻灯片.ppt
统计学第七章相关分析与回归分析第1页,共40页,编辑于2022年,星期二第一节第一节 相关分析相关分析1.相关关系的种类相关关系的种类(1)按相关程度划分按相关程度划分 完全相关:完全相关:Y的变化完全由的变化完全由X的变化确定;的变化确定;不相关:不相关:Y与与X不相互影响,各自独立变化;不相互影响,各自独立变化;不完全相关:不完全相关:Y与与X之间有一定程度的相互影响。之间有一定程度的相互影响。(2)按相关方向划分按相关方向划分 正相关:正相关:X与与Y同时变大或变小;同时变大或变小;负相关:负相关:X变大,变大,Y变小变小 或或 X变小,变小,Y变大。变大。(3)按相关形式划分按相关形式划分 线性相关:线性相关:Y与与X的关系呈现出线性关系;的关系呈现出线性关系;非线性相关:非线性相关:Y与与X的关系呈现出非线性关系。的关系呈现出非线性关系。第2页,共40页,编辑于2022年,星期二第一节第一节 相关分析相关分析1.相关关系的种类相关关系的种类(4)按变量多少划分按变量多少划分 单相关:单相关:指两个变量间的相关关系;指两个变量间的相关关系;复相关:复相关:指三个以上变量间的相关关系;指三个以上变量间的相关关系;偏相关偏相关:指多个变量情形下,固定其他变量,只考指多个变量情形下,固定其他变量,只考 虑其中两个变量间的相关关系。虑其中两个变量间的相关关系。(5)按相关性质划分按相关性质划分 真实相关:真实相关:两个变量确实存在内在的相关关系;两个变量确实存在内在的相关关系;虚假相关:虚假相关:两个变量只是表现为数量上相关,并不两个变量只是表现为数量上相关,并不 存在内在的联系。存在内在的联系。第3页,共40页,编辑于2022年,星期二第一节第一节 相关分析相关分析2.相关表和相关图相关表和相关图(1)相关表相关表 将某一变量按其数值的大小顺序排列,然后再将与将某一变量按其数值的大小顺序排列,然后再将与其相关的另一变量的对应值平行排列,便可得到相关表。其相关的另一变量的对应值平行排列,便可得到相关表。第4页,共40页,编辑于2022年,星期二第一节第一节 相关分析相关分析2.相关表和相关图相关表和相关图(2)相关图相关图 相关图又称散点图,是以直角坐标系的横轴代表变量相关图又称散点图,是以直角坐标系的横轴代表变量x,纵轴代表变量纵轴代表变量y,将两个变量相对应的成对数据用坐标点的,将两个变量相对应的成对数据用坐标点的形式描绘出来,用于反映两变量之间的相关关系的图形。形式描绘出来,用于反映两变量之间的相关关系的图形。第5页,共40页,编辑于2022年,星期二第一节第一节 相关分析相关分析3.相关系数及其计算方法相关系数及其计算方法(1)相关系数的定义相关系数的定义(2)变量变量x与变量与变量y之间的相关关系,可用数量指标来表示。之间的相关关系,可用数量指标来表示。通常以字母通常以字母 表示表示总总体的相关系数,以体的相关系数,以 表示表示样样本的相关本的相关系数。定系数。定义义如下:如下:式中,式中,是是变变量量X与与变变量量Y的的协协方差。方差。第6页,共40页,编辑于2022年,星期二第一节第一节 相关分析相关分析3.相关系数及其计算方法相关系数及其计算方法(2)相关系数的特点相关系数的特点 a.r的取值介于的取值介于-1到到1之间;之间;b.当当r=0时,时,X与与Y的样本观测值之间没有的样本观测值之间没有线性线性关系;关系;c.在大多数情况下,在大多数情况下,。r0,说明,说明X与与Y正相正相 关;关;r0,说明,说明X与与Y负相关。负相关。r值越接近值越接近1,X与与Y的的 相关程度越高。相关程度越高。微弱相关:微弱相关:低度相关:低度相关:显著相关:显著相关:高度相关:高度相关:第7页,共40页,编辑于2022年,星期二第一节第一节 相关分析相关分析3.相关系数及其计算方法相关系数及其计算方法(3)相关系数的计算相关系数的计算 具体计算相关系数时,通常利用以下公式:具体计算相关系数时,通常利用以下公式:【例【例7-2】基于表基于表7-1中的数据,求广告费与年销售收入间的中的数据,求广告费与年销售收入间的相关系数。相关系数。可可见,广告,广告费与与销售收入售收入间存在高度的相关关系。存在高度的相关关系。第8页,共40页,编辑于2022年,星期二第一节第一节 相关分析相关分析4.样本相关系数样本相关系数(Pearson)显著异于显著异于0的的T检验检验 在二维总体在二维总体(X,Y)服从正态分布的前提下,服从正态分布的前提下,Fisher给出了给出了检验简单相关系数检验简单相关系数(Pearson)显著异于显著异于0的的 t 统计量如下:统计量如下:式子中,式子中,n是样本容量,是样本容量,r是简单相关系数是简单相关系数(Pearson)。设定假设:设定假设:H0:r=0,H1:r0 这是一个双尾检验问题。这是一个双尾检验问题。第9页,共40页,编辑于2022年,星期二【例【例7-3】根据表】根据表7-3资料计算的相关系数,检验该公司广告费和年销资料计算的相关系数,检验该公司广告费和年销售收入之间的相关系数是否显著售收入之间的相关系数是否显著(设定显著水平设定显著水平=0.05)?解:第一步,提出假解:第一步,提出假设设:H0:;H1:第二步,第二步,计计算算检验检验的的统计统计量量 第三步,第三步,统计统计决策。从下式中可以看出,相关系数决策。从下式中可以看出,相关系数显显著。著。第一节第一节 相关分析相关分析4.样本相关系数样本相关系数(Pearson)显著异于显著异于0的的T检验检验第10页,共40页,编辑于2022年,星期二此此时时的偏相关系数的偏相关系数计计算公式算公式为为:式中,式中,是普通是普通样样本相关系数。本相关系数。第一节第一节 相关分析相关分析5.剔除了一个变量剔除了一个变量Z的影响后,的影响后,X、Y的偏相关系数的偏相关系数6.剔除两个变量剔除两个变量Z1,Z2的影响后,的影响后,X、Y的偏相关系数的偏相关系数此此时时的偏相关系数的偏相关系数计计算公式算公式为为:式中,式中,是固定是固定z1的偏相关系数。的偏相关系数。第11页,共40页,编辑于2022年,星期二偏相关系数偏相关系数显著异于著异于0的的 t 统计量如下:量如下:,服从,服从 分布分布式中,式中,n 是是样本容量,本容量,k是剔除了的是剔除了的变量数,量数,r 是偏相关系是偏相关系数。数。第一节第一节 相关分析相关分析7.偏相关系数显著异于偏相关系数显著异于0的的T检验检验第12页,共40页,编辑于2022年,星期二第二节第二节 一元线性回归分析一元线性回归分析1.相关分析与回归分析的关系相关分析与回归分析的关系 (1)相关分析通过计算相关系数来确定两个变量之间的相关分析通过计算相关系数来确定两个变量之间的相关方向和密切程度,回归分析则是选择一个合适的数学模型,相关方向和密切程度,回归分析则是选择一个合适的数学模型,对具有相关关系的两个或多个变量之间的具体数量关系进行测对具有相关关系的两个或多个变量之间的具体数量关系进行测定,以实现对因变量的估计或预测。定,以实现对因变量的估计或预测。(2)相关分析无需考虑变量作用顺序,回归分析则要考虑;相关分析无需考虑变量作用顺序,回归分析则要考虑;(3)相关分析将变量都视为随机变量,回归分析则只将因相关分析将变量都视为随机变量,回归分析则只将因变量视为随机变量,自变量被认为是非随机的。变量视为随机变量,自变量被认为是非随机的。第13页,共40页,编辑于2022年,星期二第二节第二节 一元线性回归分析一元线性回归分析2.一元线性回归模型与回归函数一元线性回归模型与回归函数 总体回归模型总体回归模型 总体总体回归函数回归函数 和和 是未知参数,又叫回归系数;是未知参数,又叫回归系数;是随机误差项。是随机误差项。3.样本模型与样本函数样本模型与样本函数 样本回归模型样本回归模型 样本回归函数样本回归函数 称为截距项,称为截距项,称为趋势项,称为趋势项,是残差项。是残差项。第14页,共40页,编辑于2022年,星期二第二节第二节 一元线性回归分析一元线性回归分析 样本回归函数是对总体回归函数的近似反映。回归分析的主要任样本回归函数是对总体回归函数的近似反映。回归分析的主要任务就是采用适当的方法,充分利用样本提供的信息,使得样本回归务就是采用适当的方法,充分利用样本提供的信息,使得样本回归函数尽可能地接近函数尽可能地接近于真实的总体回归于真实的总体回归函数。函数。第15页,共40页,编辑于2022年,星期二第二节第二节 一元线性回归分析一元线性回归分析4.模型参数的点估计:最小二乘法模型参数的点估计:最小二乘法OLS 所谓最小二乘法就是通过令样本的残差平方和达到最小,所谓最小二乘法就是通过令样本的残差平方和达到最小,来求得截距项与趋势项的估计值的方法。大致包括三个步骤:来求得截距项与趋势项的估计值的方法。大致包括三个步骤:第一,建立最小二乘函数;第一,建立最小二乘函数;第二,应用极值定理对最小二乘函数求偏导数;第二,应用极值定理对最小二乘函数求偏导数;第三,求解偏导数方程组。第三,求解偏导数方程组。第16页,共40页,编辑于2022年,星期二第二节第二节 一元线性回归分析一元线性回归分析4.模型参数的点估计:最小二乘法模型参数的点估计:最小二乘法OLS(1)建立二乘函数:)建立二乘函数:(2)基于极值定理对二乘函数求偏导数)基于极值定理对二乘函数求偏导数 化简后可得化简后可得 第17页,共40页,编辑于2022年,星期二第二节第二节 一元线性回归分析一元线性回归分析4.模型参数的点估计:最小二乘法模型参数的点估计:最小二乘法OLS应用应用克莱姆法则克莱姆法则解之得解之得 第18页,共40页,编辑于2022年,星期二第二节第二节 一元线性回归分析一元线性回归分析4.模型参数的点估计:最小二乘法模型参数的点估计:最小二乘法OLS 和和 是样本值与均值的离差。是样本值与均值的离差。对对 和和 做进一步的变形为做进一步的变形为其中其中特例特例第19页,共40页,编辑于2022年,星期二第二节第二节 一元线性回归分析一元线性回归分析4.模型参数的点估计:最小二乘法模型参数的点估计:最小二乘法OLS【例【例7-4】我们利用例我们利用例7-1的表的表7-3的数据计算该公司广告费对年销的数据计算该公司广告费对年销售收入的回归方程(直线)。售收入的回归方程(直线)。解:解:第一,观察原始数据的散点图;第一,观察原始数据的散点图;第20页,共40页,编辑于2022年,星期二第二节第二节 一元线性回归分析一元线性回归分析4.模型参数的点估计:最小二乘法模型参数的点估计:最小二乘法OLS 第二,利用第二,利用Excel表格计算截距项与趋势项中的各个值;表格计算截距项与趋势项中的各个值;第21页,共40页,编辑于2022年,星期二第二节第二节 一元线性回归分析一元线性回归分析4.模型参数的点估计:最小二乘法模型参数的点估计:最小二乘法OLS 第二,利用第二,利用Excel表格计算截距项与趋势项中的各个值;表格计算截距项与趋势项中的各个值;从而有从而有 因此,样本回归方程为因此,样本回归方程为 第22页,共40页,编辑于2022年,星期二第二节第二节 一元线性回归分析一元线性回归分析5.如何利用样本残差估计总体方差如何利用样本残差估计总体方差 除了除了 和和 外,一元线性回归模型中还包括另一个未知参数,那外,一元线性回归模型中还包括另一个未知参数,那就是总体随机误差项的方差就是总体随机误差项的方差 。在数学上已证明:在数学上已证明:因约束条件因约束条件 、,所以,自由度为,所以,自由度为 n-2。S2 还可化简为:还可化简为:第23页,共40页,编辑于2022年,星期二第二节第二节 一元线性回归分析一元线性回归分析5.回归参数的区间估计回归参数的区间估计因为因为 所以所以 第一,考虑第一,考虑 、的概率分布的概率分布 由于由于 服从正态分布,服从正态分布,也服从正态分布。也服从正态分布。、都是都是 的线性组合,因而也服从正态分布。的线性组合,因而也服从正态分布。公式表述如下:公式表述如下:第24页,共40页,编辑于2022年,星期二第二节第二节 一元线性回归分析一元线性回归分析5.回归参数的区间估计回归参数的区间估计 第二,考虑随机变量第二,考虑随机变量 的方差的方差 的方差可用残差值的方差可用残差值 来表示:来表示:是是 的无偏估计量,即的无偏估计量,即 因此,因此,与与 的标准差估计值分别为:的标准差估计值分别为:第25页,共40页,编辑于2022年,星期二第二节第二节 一元线性回归分析一元线性回归分析5.回归参数的区间估计回归参数的区间估计 第三,利用第三,利用 t 统计量求出置信区间统计量求出置信区间置信区间为:置信区间为:第26页,共40页,编辑于2022年,星期二第二节第二节 一元线性回归分析一元线性回归分析5.回归参数的区间估计回归参数的区间估计 【例【例7-6】根据例根据例7-1中给出的有关数据和例中给出的有关数据和例7-4中已得到的中已得到的回归参数的估计值,求回归系数回归参数的估计值,求回归系数 的置信区间。的置信区间。解:解:由由得得进一步简化得进一步简化得 0.2241 10.382第27页,共40页,编辑于2022年,星期二第二节第二节 一元线性回归分析一元线性回归分析6.一元线性回归模型的拟合优度一元线性回归模型的拟合优度(1)什么是拟合优度?什么是拟合优度?拟合优度指的是模型对拟合优度指的是模型对样本数据的拟合情况,回样本数据的拟合情况,回归线距离样本值越近拟合归线距离样本值越近拟合度越好,同时,说明度越好,同时,说明X对对Y的解释程度越强。拟合优的解释程度越强。拟合优度的评价指标为度的评价指标为“样本可决样本可决系数系数”。第28页,共40页,编辑于2022年,星期二第二节第二节 一元线性回归分析一元线性回归分析6.一元线性回归模型的拟合优度一元线性回归模型的拟合优度.YXYi Xi A0(2)什么是样本可决系数?什么是样本可决系数?在给出可决系数的公式之在给出可决系数的公式之前,我们先来看离差平方和的前,我们先来看离差平方和的“神奇分解神奇分解”。离差离差 未被解未被解 被解释被解释 释的部释的部 的部分的部分 分分对式子求平方和可得:对式子求平方和可得:第29页,共40页,编辑于2022年,星期二第二节第二节 一元线性回归分析一元线性回归分析6.一元线性回归模型的拟合优度一元线性回归模型的拟合优度下面证明最后一项为下面证明最后一项为0因而,有因而,有第30页,共40页,编辑于2022年,星期二第二节第二节 一元线性回归分析一元线性回归分析6.一元线性回归模型的拟合优度一元线性回归模型的拟合优度其中其中是样本的总离差平方和;是样本的总离差平方和;是样本的回归平方和;是样本的回归平方和;是样本的残差平方和。是样本的残差平方和。可见,总离差平方和可见,总离差平方和=回归平方和回归平方和+残差平方和残差平方和第31页,共40页,编辑于2022年,星期二第二节第二节 一元线性回归分析一元线性回归分析6.一元线性回归模型的拟合优度一元线性回归模型的拟合优度则则记记第32页,共40页,编辑于2022年,星期二第二节第二节 一元线性回归分析一元线性回归分析6.一元线性回归模型的拟合优度一元线性回归模型的拟合优度(2)什么是样本可决系数呢?什么是样本可决系数呢?对上式移项可得对上式移项可得 就被称作样本的可决系数就被称作样本的可决系数 或或 决定系数决定系数 或或 判定系数。判定系数。第33页,共40页,编辑于2022年,星期二 是样本回归线与样本观测值拟合优度的度量指标,也是回是样本回归线与样本观测值拟合优度的度量指标,也是回归模型包含多少样本信息量的具体表现。归模型包含多少样本信息量的具体表现。第二节第二节 一元线性回归分析一元线性回归分析6.一元线性回归模型的拟合优度一元线性回归模型的拟合优度(2)什么是样本可决系数呢?什么是样本可决系数呢?说明变量说明变量X与与Y之间不存在线性关系;之间不存在线性关系;说明变量说明变量X与与Y之间存在线性关系,(之间存在线性关系,(X,Y)的样本点都)的样本点都落在同一条直线上。落在同一条直线上。通常通常 越接近越接近1,样本回归线对样本值的拟合优度越好,样本回归线对样本值的拟合优度越好,X 对对Y的解释能力越强。的解释能力越强。第34页,共40页,编辑于2022年,星期二第二节第二节 一元线性回归分析一元线性回归分析6.一元线性回归模型的拟合优度一元线性回归模型的拟合优度(3)样本可决系数的计算公式样本可决系数的计算公式由最小二乘回归结果知:由最小二乘回归结果知:因此样本系数可表示为:因此样本系数可表示为:其中:其中:第35页,共40页,编辑于2022年,星期二第二节第二节 一元线性回归分析一元线性回归分析6.一元线性回归模型的拟合优度一元线性回归模型的拟合优度【例【例7-7】利用例利用例7-2中表中表7-3的资料,计算年销售收的资料,计算年销售收入对广告费的回归的判定系数,并解释其意义。入对广告费的回归的判定系数,并解释其意义。解:方法解:方法1:方法方法2:第36页,共40页,编辑于2022年,星期二第二节第二节 一元线性回归分析一元线性回归分析7.一元线性回归模型的显著性检验一元线性回归模型的显著性检验(1)未知参数的未知参数的 t 检验检验 第一步:提出假设第一步:提出假设 H0:;H1:第二步:确定显著性水平第二步:确定显著性水平 =0.05*或或0.01*或或0.001*。第三步:第三步:计计算未知参数的算未知参数的统计统计量量 t 值值 第四步:依据显著水平第四步:依据显著水平 和自由度和自由度 确定临界值确定临界值 第五步:作出判断。第五步:作出判断。则,拒绝原假设。则,拒绝原假设。第37页,共40页,编辑于2022年,星期二第二节第二节 一元线性回归分析一元线性回归分析7.一元线性回归模型的显著性检验一元线性回归模型的显著性检验(2)未知参数的未知参数的 P值值 检验检验 P值检验是指在计算出值检验是指在计算出 值后,计算值后,计算 【例【例7-8】利用例利用例7-4和例和例7-6的有关资料和结果,检验回归系的有关资料和结果,检验回归系 数的显著性数的显著性(=0.05)。解:解:此外,可基于此外,可基于SPSS等统计软件的输出结果,直接作出判断。等统计软件的输出结果,直接作出判断。第38页,共40页,编辑于2022年,星期二第二节第二节 一元线性回归分析一元线性回归分析7.一元线性回归模型的显著性检验一元线性回归模型的显著性检验 SPSS 软件的操作结果:软件的操作结果:t 检验检验 P值检验值检验第39页,共40页,编辑于2022年,星期二第二节第二节 一元线性回归分析一元线性回归分析8.一元线性回归模型的预测一元线性回归模型的预测(1)点预测点预测 点预测是指利用估计的回归方程,对自变量点预测是指利用估计的回归方程,对自变量 X 的的一个给定值一个给定值 X0,求出因变量求出因变量 Y 的可能值的可能值 。(2)区间预测区间预测【例【例7-11】详见教材。】详见教材。第40页,共40页,编辑于2022年,星期二