《《元回归分析》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《元回归分析》PPT课件.ppt(36页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 第九章第九章 一元回归分析一元回归分析主要内容主要内容9.0 回归分析的概念回归分析的概念9.1 回归方程的建立回归方程的建立9.2 回归方程的显著性检验回归方程的显著性检验一、函数关系和相关关系一、函数关系和相关关系9.0 回归分析的概念回归分析的概念二、回归分析的概念二、回归分析的概念一、函数关系和相关关系一、函数关系和相关关系在现实问题中,处于同一个过程中的一些变量之间往在现实问题中,处于同一个过程中的一些变量之间往往是存在着一定的关系往是存在着一定的关系,这些关系大致可分为两种:这些关系大致可分为两种:(1 1)确定性确定性关系关系函数关系函数关系(2 2)非确定性非确定性关系关系相
2、关关系相关关系 相关关系表现为这些变量之间有一定的依赖关系,相关关系表现为这些变量之间有一定的依赖关系,但这种关系并不完全确定,它们之间的关系不能精确但这种关系并不完全确定,它们之间的关系不能精确地用函数表示出来,这些变量其实是随机变量或其中地用函数表示出来,这些变量其实是随机变量或其中至少有一个是随机变量。至少有一个是随机变量。能够应用常规数学的函数加以表示能够应用常规数学的函数加以表示相关关系举例相关关系举例 例如:在气候、土壤、水利、种子和耕作技术等例如:在气候、土壤、水利、种子和耕作技术等条件基本相同时,某农作物的亩产量条件基本相同时,某农作物的亩产量 Y 与施肥量与施肥量 X 之之间
3、有一定的关系,但施肥量相同,亩产量却不一定相间有一定的关系,但施肥量相同,亩产量却不一定相同。同。亩产量是一个随机变量。亩产量是一个随机变量。又如:人的血压又如:人的血压 Y 与年龄与年龄 X 之间有一定的依赖关之间有一定的依赖关系,一般来说,年龄越大,血压越高,但年龄相同的系,一般来说,年龄越大,血压越高,但年龄相同的两个人的血压不一定相等。两个人的血压不一定相等。血压是一个随机变量。血压是一个随机变量。农作物的亩产量与施肥量、血压与年龄之间的这农作物的亩产量与施肥量、血压与年龄之间的这种关系称为相关关系,在这些变量中,施肥量、年龄种关系称为相关关系,在这些变量中,施肥量、年龄是可控变量,亩
4、产量、血压是不可控变量。一般在讨是可控变量,亩产量、血压是不可控变量。一般在讨论相关关系问题中,论相关关系问题中,可控变量称为自变量,不可控变可控变量称为自变量,不可控变量称为因变量。量称为因变量。函数关系与相关关系的区别函数关系与相关关系的区别 相关关系相关关系影响影响的值,的值,函数关系函数关系决定决定的值的值 因此,统计学上讨论两变量的相关关系时,是设法因此,统计学上讨论两变量的相关关系时,是设法确定:在给定自变量确定:在给定自变量 的条件下,因变量的条件下,因变量 的的条件数学期望条件数学期望不能确定不能确定二、回归分析的概念二、回归分析的概念 研究一个随机变量与一个(或几个)可控变量
5、之间研究一个随机变量与一个(或几个)可控变量之间的相关关系的统计方法称为的相关关系的统计方法称为回归分析回归分析。引进回归函数引进回归函数称为称为回归方程回归方程 回归方程反映了因变量回归方程反映了因变量Y随自变量随自变量x的变化而变化的的变化而变化的平均变化情况平均变化情况回归分析方法回归分析方法 非确定性情况涉及的状态比较复杂,因此回归非确定性情况涉及的状态比较复杂,因此回归分析方法也有多种:分析方法也有多种:线性回归分析线性回归分析:变量中自变量与因变量成简单变量中自变量与因变量成简单的线性关系,但随着影响变量数目不同又分为:的线性关系,但随着影响变量数目不同又分为:一元线性回归一元线性
6、回归:它是描述一个自变量与一个它是描述一个自变量与一个因变量间线性关系的回归分析方法,又称因变量间线性关系的回归分析方法,又称单回归单回归。多元线性回归多元线性回归:它是描述一个因变量与多个它是描述一个因变量与多个自变量间线性关系的回归分析方法,又称自变量间线性关系的回归分析方法,又称复回归复回归。非线性回归分析非线性回归分析:变量之间的关系是一种复杂变量之间的关系是一种复杂的非线性关系。的非线性关系。回归分析主要包括三方面的内容回归分析主要包括三方面的内容:(1)提供建立有相关关系的变量之间的数学关系)提供建立有相关关系的变量之间的数学关系式(称为经验公式)的一般方法;式(称为经验公式)的一
7、般方法;(2)判别所建立的经验公式是否有效,并从影响)判别所建立的经验公式是否有效,并从影响随机变量的诸变量中判别哪些变量的影响是显著的,随机变量的诸变量中判别哪些变量的影响是显著的,哪些是不显著的;哪些是不显著的;(3)利用所得到的经验公式进行预测和控制。)利用所得到的经验公式进行预测和控制。回归分析的内容回归分析的内容一、一元线性回归方程的概念一、一元线性回归方程的概念9.1 一元线性一元线性回归方程的建立回归方程的建立二、一元线性回归方程的建立二、一元线性回归方程的建立例例9-1 某种合金的抗拉强度某种合金的抗拉强度y(kg/mm2)与其中的含碳量与其中的含碳量x(%)有关,现测有关,现
8、测12对数据如下表所示对数据如下表所示,试求出试求出y与与x的关的关系。系。一、一元线性回归方程的概念一、一元线性回归方程的概念 以含碳量作为横坐标以含碳量作为横坐标X,以抗拉强度作为纵坐标,以抗拉强度作为纵坐标Y建立直角坐标系;以上表实际数据建立直角坐标系;以上表实际数据(xi,yi)为坐标为坐标作数据点,绘制出数据散点图;观察这些数据点作数据点,绘制出数据散点图;观察这些数据点大致形成什么样的图形。大致形成什么样的图形。可以认为上述散点图中各点基本上呈直线状,即认可以认为上述散点图中各点基本上呈直线状,即认为为y与与x的关系基本上是线性的。的关系基本上是线性的。其中其中 ,为随机误差项,为
9、随机误差项,且相互独立,且相互独立,易见易见 则假设这批数据的数学模型为:则假设这批数据的数学模型为:其中其中 是与是与 无关的无关的未知常数未知常数。一般地,称如下数学模型为一元线性模型一般地,称如下数学模型为一元线性模型 ,且各,且各 i相互独立相互独立若若 分别是分别是 的点估计的点估计,一元线性回归分析解决的基本问题一元线性回归分析解决的基本问题 依据样本依据样本(xi,yi),i=1,2,n,一元线性回归分析解,一元线性回归分析解决如下基本问题:决如下基本问题:(1)未知参数未知参数 的点估计的点估计则可得则可得E(Y)的估计的估计上式称为上式称为Y关于关于x的的一一元线性回归方程元
10、线性回归方程一元线性回归方程对应的直线称为一元线性回归方程对应的直线称为回归直线回归直线称为称为回归系数回归系数,是回归直线的斜率是回归直线的斜率称为称为回归常数回归常数,是回归直线的截踞是回归直线的截踞一元线性回归分析解决的基本问题一元线性回归分析解决的基本问题 依据样本依据样本(xi,yi),i=1,2,n,一元线性回归分析解,一元线性回归分析解决如下基本问题:决如下基本问题:(1)未知参数未知参数 的点估计的点估计 (2)回归方程的显著性检验,在实际问题中,回归方程的显著性检验,在实际问题中,Y与与x之之间是否存在线性关系是要经过检验的。间是否存在线性关系是要经过检验的。(3)利用回归方
11、程进行预测和控制。利用回归方程进行预测和控制。回归方程的建立回归方程的建立 由观测值由观测值 确定的回归确定的回归方程方程 考虑函数考虑函数 问题问题:确定:确定 ,使得,使得 取得极小值。取得极小值。因变量的各个实际值与估计值之间的误差为:因变量的各个实际值与估计值之间的误差为:要使得回归方程与实际情况拟合得最好,就必须要使得回归方程与实际情况拟合得最好,就必须使得误差平方和使得误差平方和 最小。最小。令令 正规方程组正规方程组最小二乘法最小二乘法称为称为最小二乘估计,具有如下性质:最小二乘估计,具有如下性质:因此因此编号编号123456789脂肪含脂肪含量量%15.417.518.920.
12、021.022.815.817.819.1蛋白质蛋白质含量含量%44.039.241.838.937.438.144.640.739.8试求出试求出 与与 的关系。的关系。例例 为了研究大豆脂肪含量为了研究大豆脂肪含量 和蛋白质含量和蛋白质含量 的关系,的关系,测定了九种大豆品种籽粒内的脂肪含量和蛋白质含量,测定了九种大豆品种籽粒内的脂肪含量和蛋白质含量,得到如下数据得到如下数据解解编号编号123456789 x15.417.518.920.021.022.815.817.819.1168.3y44.039.241.838.937.438.144.640.739.8364.5x2237.163
13、06.25357.21400441519.84249.64316.84364.813192.75xy677.6686790.02778785.4868.68704.68724.46760.186775.02 设变量设变量 与与 为线性相关关系:为线性相关关系:所以,所求的回归方程为所以,所求的回归方程为 例例9-1 某种合金的抗拉强度某种合金的抗拉强度y(kg/mm2)与其中的含碳量与其中的含碳量x(%)有关,现测有关,现测12对数据如下表所示对数据如下表所示,试求出试求出y与与x的关系。的关系。见书P187-188 例例 某企业欲根据其产品前某企业欲根据其产品前6个月的售价个月的售价x(单位
14、:万元单位:万元)和销售量和销售量y(单位:吨单位:吨)用一元线性回归分析法预测第用一元线性回归分析法预测第7个月的销售量。现通过对前个月的销售量。现通过对前6个月的资料整理,得个月的资料整理,得xi=27,yi=71,回归方程斜率。若预计第,回归方程斜率。若预计第7个月售个月售价为万元,试预测第价为万元,试预测第7个月销售量个月销售量(保留两位小数保留两位小数)。解解:因此回归方程为因此回归方程为y=20.x 则第则第7个月销售量预测为个月销售量预测为 练习练习 设某商店有一统计数据,共统计了近设某商店有一统计数据,共统计了近6个月某个月某商品的进价和售价数据,如下表所示:商品的进价和售价数
15、据,如下表所示:月份月份123456进价进价3元元5元元2元元8元元9元元12元元售价售价4元元6元元3元元9元元12元元14元元 假设第假设第7个月预计进价为个月预计进价为10元,试采用一元线性回元,试采用一元线性回归分析法预测第归分析法预测第7个月的售价。个月的售价。月份月份123456进价进价xi3元元5元元2元元8元元9元元12元元售价售价yi4元元6元元3元元9元元12元元14元元月份月份123456合计合计进价进价xi3元元5元元2元元8元元9元元12元元售价售价yi4元元6元元3元元9元元12元元14元元xi yixi2月份月份123456进价进价xi3元元5元元2元元8元元9元
16、元12元元售价售价yi4元元6元元3元元9元元12元元14元元月份月份123456合计合计进价进价xi3元元5元元2元元8元元9元元12元元39售价售价yi4元元6元元3元元9元元12元元14元元48xi yi1230672108168396xi292546481144327月份月份123456合计合计进价进价xi3元元5元元2元元8元元9元元12元元39售价售价yi4元元6元元3元元9元元12元元 14元元48xi yi1230672108168396xi292546481144327所以回归方程为所以回归方程为y x 由于第由于第7个月的预计进价为个月的预计进价为10元,元,所以该月的预测
17、售价为:所以该月的预测售价为:0.571+1.14310=12.001元一、一、F检验法检验法9.2 一元线性一元线性回归方程的回归方程的显著性检验显著性检验二、二、t检验法检验法 对于任何一组数据对于任何一组数据 ,都可按最,都可按最小二乘法确定一个线性函数,但变量小二乘法确定一个线性函数,但变量 与与 之间是否真之间是否真有近似于线性函数的相关关系呢?尚需进行假设检验。有近似于线性函数的相关关系呢?尚需进行假设检验。假设假设 如果如果 成立,则不能认为成立,则不能认为 与与 有线性相关关系。有线性相关关系。两种检验方法:两种检验方法:F F检验法、检验法、t t检验法。检验法。一、回归方程
18、有效性的一、回归方程有效性的F检验法检验法 记记 总偏差平方和总偏差平方和,反映观测值与平均值的偏差程度。,反映观测值与平均值的偏差程度。经恒等变形,将经恒等变形,将 分解分解 回归平方和回归平方和,反映回归值与平均值的偏差,揭示,反映回归值与平均值的偏差,揭示变量变量 与与 的线性关系所引起的数据波动。的线性关系所引起的数据波动。剩余平方和剩余平方和,反映观测值与回归值的偏差,揭示,反映观测值与回归值的偏差,揭示试验误差和非线性关系对试验结果所引起的数据波动。试验误差和非线性关系对试验结果所引起的数据波动。如果如果 为真,则为真,则 于是,统计量于是,统计量 对给定的检验水平对给定的检验水平
19、 ,(1 1)当)当 时,时,拒绝拒绝 ,即可认为,即可认为 与与 有线性相关关系有线性相关关系,此时称,此时称回归方程是显著的回归方程是显著的;(2 2)当)当 时,时,接受接受 ,即可认为,即可认为 与与 没有线性相关关系没有线性相关关系,此时称,此时称回归方程不显著回归方程不显著;且且S S回回与与S S剩剩相互独立相互独立例例9-2 见书见书P190二、回归方程有效性的二、回归方程有效性的t检验法检验法 统计量统计量 H0成立时,成立时,对给定的检验水平对给定的检验水平 ,H0的拒绝域为的拒绝域为 即当即当 时,变量时,变量 与与 有线性相关关系。有线性相关关系。假设假设 回归方程是显著的回归方程是显著的例例9-3 见书见书P191例例 某市市区的社会商品零售总额某市市区的社会商品零售总额y y和当地的居民可支和当地的居民可支配收入总额配收入总额x x之间的年统计数据(单位:亿万)为之间的年统计数据(单位:亿万)为经计算得经计算得试求试求y对对x的线性回归方程并检验线性回归方程的显著的线性回归方程并检验线性回归方程的显著性。性。
限制150内