2022年3..1..1回归分析的基本思想及其初步应用 .pdf
1 / 19 3 1.1 回归分析的基本思想及其初步应用【教学目标】 1. 了解回归分析的基本思想方法及其简单应用. 2. 会解释解释变量和预报变量的关系. 【教学重难点】教学重点:回归分析的应用. 教学难点:a、b公式的推到 . 【教学过程】一、 设置情境,引入课题引入 :对于一组 具有 线性相 关关 系的数据112233(,),(,),(,),(,).nnxyxyxyxy其回归直线方程的截距和斜率的最小二乘法估计公式分别为:aybx121()()()niiiniixxyybxx11niixxn11niiyyn( , )x y称为样本点的中心。如何推到着两个计算公式?二、 引导探究,推出公式从已经学过的知识,截距a和斜率b分别是使21(,)()niiiQyx取最小值时,的值,由于名师归纳总结 精品学习资料 - - - - - - - - - - - - - - -精心整理归纳 精选学习资料 - - - - - - - - - - - - - - - 第 1 页,共 19 页 - - - - - - - - - 2 / 19 212212211(,)(2( (2(niiiniiiiinniiiiiiQyxyxyxyxyxyxyxyxyxyxyxyxyxyxn yx)+)因为1111(0,nniiiiiinniiiiyxyxyxyxyxyxyxyxn yxyxnynxn yx)所以2212222111222221122111()2()()()()()()()() ()()()niiinnniiiiiiinniiiiniiiinniiiiiiQyxyxnyxxxxxyyyyn yxxxyyxxyyn yxxxyyxxxx(, )1n在上式中,后两项和,无关,而前两项为非负数,因此要使Q 取得最小值,当且仅当前两项的值均为0. ,既有121()()()niiiniixxyyxxyx通过上式推导,可以训练学生的计算能力,观察分析能力,能够很好训练学生数学能力,必须在老师引导下让学生自己推出。i0GnpkpXmH 所以:aybx121()()()niiiniixxyybxx三、 例题应用,剖析回归基本思想与方法名师归纳总结 精品学习资料 - - - - - - - - - - - - - - -精心整理归纳 精选学习资料 - - - - - - - - - - - - - - - 第 2 页,共 19 页 - - - - - - - - - 3 / 19 例1、从某大学中随机选取8 名女大学生,其身高和体重的数据如图所示:(1)画出以身高为自变量x, 体重为因变量 y 的散点图(2)求根据女大学生的身高预报体重的回归方程(3)求预报一名身高为172cm的女大学生的体重解:1)由于问题中要求根据身高预报体重,因此选取身高为自变量 x, 体重为因变量 y 作散点图对于身高 172cm的女大学生,由回归方程可以预报体重为:0.849 17285.71260.316()ykg四、 当堂练习观察两相关变量得如下数据x 1 2 3 4 5 5 3 4 2 1 y 9 7 5 3 1 1 5 3 7 9 求两个变量的回归方程 . 答:10102110,0,110,110,iiiiixyxx y10110221101101001,000.11010010iiiiix yxybaybxbxx编号1 2 3 4 5 6 7 8 身高/cm 165 165 157 170 175 165 155 170 体重/kg 48 57 50 54 64 61 43 59 名师归纳总结 精品学习资料 - - - - - - - - - - - - - - -精心整理归纳 精选学习资料 - - - - - - - - - - - - - - - 第 3 页,共 19 页 - - - - - - - - - 4 / 19 所以所求回归直线方程为yx五、 课堂小结1. a、b公式的推到过程。2, )ybxax y通过(六、布置作业课本 90 页习题 1 名师归纳总结 精品学习资料 - - - - - - - - - - - - - - -精心整理归纳 精选学习资料 - - - - - - - - - - - - - - - 第 4 页,共 19 页 - - - - - - - - - 5 / 19 31.1 回归分析的基本思想及其初步应用课前预习学案预习目标通过截距a与斜率b分别是使21(,)()niiiQyx取最小值时,求,的值。二、预习内容 : 1. 对于一组具有线性相关关系的数据112233(,),(,),(,),(,).nnx yxyxyxy其回归直线方程的截距和斜率的最小二乘法估计公式:a= ,b= 2x= , y= 3样本点的中心三、提出问题如何使( ,)Q值最小,通过观察分析式子进行试探推到课内探究学案学习目标1. 了解回归分析的基本思想和方法2. 培养学生观察分析计算的能力二、学习重难点学习重点:回归方程ybxa,学习难点:a、b公式的推到三、学习过程1使(,)Q值最小时,,值的推到名师归纳总结 精品学习资料 - - - - - - - - - - - - - - -精心整理归纳 精选学习资料 - - - - - - - - - - - - - - - 第 5 页,共 19 页 - - - - - - - - - 6 / 19 2结论121()()()niiiniixxyyxxyx3ybxa中a和b的含义是什么4. ( , )x y一定通过回归方程吗?四、典型例题例 1研究某灌溉倒水的流速y 与水深 x 之间的关系,测得一组数据如下:水深x 1.70 1.79 1.88 1.95 2.03 2.10 2.16 2.21 (1)求 y 与 x 的回归直线方程;(2)预测水深为 1.95m时水的流速是多少?分析: 1)y 与 x 的回归直线方程为0.7330.6948yx2)当水深为 1.95m时,可以预测水的流速约为2.12m/s 五、当堂练习1. 对 两 个变 量 y 和 x 进行 回 归 分析 , 得 到 一组 样 本 数据 :112233(,),(,),(,),(,).nnxyxyxyxy则下列说法不正确的是 70 74 80 78 85 92 90 95 y(t 5.1 6.0 6.8 7.8 9.0 10.2 10.0 12.0 年份1993 1994 1995 1996 1997 1998 1999 x(kg 92 108 115 123 130 138 145 y(t 11.5 11.0 11.8 12.2 12.5 12.8 13.0 若 x 与 y 之间线性相关,求蔬菜年平均产量y 与使用氮肥量 x 之间的回归直线方程,并估计每单位面积蔬菜的年平均产量. 已知1 51 5211101,10.11,161,16076.8iiiiixyxx y)i0GnpkpXmH 解:设所求的回归直线方程为ybxa,则1511522211516076.815 101 10.110.0937,10.110.09371010.6463.16112515 10115iiiiix yxybaybxxx所以,回归直线方程为:0.09370.6463yx当x=150kg时 , 每 单 位 面 积 蔬 菜 的 年 平 均 产 量0.0937 1500.646314.701 ()ykg课后练习与提高1、下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量 x的几组对照数据:名师归纳总结 精品学习资料 - - - - - - - - - - - - - - -精心整理归纳 精选学习资料 - - - - - - - - - - - - - - - 第 7 页,共 19 页 - - - - - - - - - 8 / 19 i0GnpkpXmH x 3 4 5 6 y 2.5 3 4 4.5 (1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于 x 的线性回归方程ybxa;(3) 已知该厂技改前100 吨甲产品的生产能耗为90 吨标准煤,试根据2)求出的线性回归方程,预测生产100 吨甲产品的生产能耗比技改前降低多少吨标准煤?i0GnpkpXmH 参考数值:32.5435464.566.5)解:1)由题设所给数据,可得散点图如下图2)由对照数据,计算得:42134562.5344.586,4.5,3.5,44iixxy已知4166.5iiix y所以,由最小二乘法确定的回归方程的系数为:4142221466.544.53.50.7,3.50.74.50.35.8644.54iiiiix yx ybaybxxx因此,所求的线性回归方程为0.70.35yx(4)由2)的回归方程及技改前生产100 吨甲产品的生产能耗,得降低的生产能耗为90(0.71000.35)19.65r0 表明两个变量正相关; 2)r0 表明两个变量负相关;3)r 的绝对值越接近1,表明相关性越强, r 的绝对值越接近0,表明相关性越弱。=0,D(e= 20. D(e越小,预报真实值y 的精度越高。随机误差是引起预报值y与真实值 y 之间的误差之一。,a b为截距和斜率的估计值,与a,b 的真实值之间存在误差,这种误差也引起y与真实值 y 之间的误差之一。4 思考产生随机误差项 e 的原因是什么?5 探究在线性回归模型中,e 是用y预报真实值 y 的误差,它是一个不可观测的量,那么应该怎样研究随机误差?如何衡量预报的精度?i0GnpkpXmH 2( )D e来 衡 量 随 机 误 差 的 大 小 。 iiieyyiiiiieyyybxa22111( , )(2)22nieQ a bnnn( , )Q a b称为残差平方和,2越小,预报精度越高。6 思考当样本容量为1 或 2 时,残差平方和是多少?用这样的样本建立的线性回归方程的预报误差为0 吗?名师归纳总结 精品学习资料 - - - - - - - - - - - - - - -精心整理归纳 精选学习资料 - - - - - - - - - - - - - - - 第 10 页,共 19 页 - - - - - - - - - 11 / 19 7 残差分析判断原始数据中是否存在可疑数据;残差图 相关指数22121()1()niiiniiyyRyyR2越大,残差平方和越小,拟合效果越好;R2越接近 1,表明回归的效果越好。8 建立回归模型的基本步骤:确定研究对象,明确哪个变量时解释变量,哪个变量时预报变量。画出确定好的解释变量和预报变量得散点图,观察它们之间的关系;由经验确定回归方程的类型;按一定规则估计回归方程中的参数;得出结果后分析残差图是否异常。三、 典型例题例 1 下表是某年美国旧轿车价格的调查资料,今以x 表示轿车的使用年数, y 表示响应的年均价格,求y 关于 x 的回归方程i0GnpkpXmH 使用年数x 1 2 3 4 5 6 7 8 9 10 年均价格y美元)2651 1943 1494 1087 765 538 484 290 226 204 名师归纳总结 精品学习资料 - - - - - - - - - - - - - - -精心整理归纳 精选学习资料 - - - - - - - - - - - - - - - 第 11 页,共 19 页 - - - - - - - - - 12 / 19 分析:由已知表格先画出散点图,可以看出随着使用年数的增加,轿车的平均价格在递减,但不在一条直线附近,但据此认为y 与 x之间具有线性回归关系是不科学的,要根据图的形状进行合理转化,转化成线性关系的变量间的关系。i0GnpkpXmH 解:作出散点图如下图可以发现,各点并不是基本处于一条直线附近,因此,y 与 x之间应是非线性相关关系. 与已学函数图像比较,用bx aye来刻画题中模型更为合理,令lnzy,则zbxa,i0GnpkpXmH 题中数据变成如下表所示:x 1 2 3 4 5 6 7 8 9 10 y 7.883 7.572 7.309 6.991 6.640 6.288 6.182 5.670 5.421 5.318 在散点图中可以看出变换的样本点分布在一条直线附近,因此可以用线性回归模型方程拟合,由表中数据可得0.996,0.75rr,认为x 与 z 之间具有线性相关关系,由表中数据的0.298,8.165,ba所以0.2988.165zx,最后回代lnzy,i0GnpkpXmH 即0.2988.165xye四、 当堂练习:1 两个变量 y 与 x 的回归模型中,分别选择了4 个不同模型,它们的相关指数 R2如下,其中拟合效果最好的模型是0 表明两个变量;r= , 方 差D(e= 20i0GnpkpXmH 线性回归模型的完整表达式为2( )0,( )ybxaeE eD e随机误差 e 的方差2越小,通过回归直线ybxa预报真实值 y 的精确度名师归纳总结 精品学习资料 - - - - - - - - - - - - - - -精心整理归纳 精选学习资料 - - - - - - - - - - - - - - - 第 14 页,共 19 页 - - - - - - - - - 15 / 19 3 残差分析残差对于样本点112233(,),(,),(,),(,).nnx yxyx yxy而言,相应于它们的随机误差为ie= = (i=1,2,3, ,n 其 估 算 值为ie= = (i=1,2,3, ,n. 称为相应于点(,)iix y的残差。i0GnpkpXmH 残差平方和:类比样本方差估计总体方差的思想,可以用2= = 2)作为2的估计量,其中aybx,121()()()niiiniixxyybxx,( , )Q a b称为残差平方和,可以用2衡量回归方程的预报精度,2越小,预报精度用图形来分析残差特性:用21R来刻画回归的效果。三、提出问题1 随机误差产生的原因是什么?2 如何建立模型拟合效果最好?课内探究学习一、 学习目标1 了解相关系数和相关指数的关系. 2 理解随机误差产生的原因.3 3 会进行简单的残差分析名师归纳总结 精品学习资料 - - - - - - - - - - - - - - -精心整理归纳 精选学习资料 - - - - - - - - - - - - - - - 第 15 页,共 19 页 - - - - - - - - - 16 / 19 二、学习重难点学习重点 1 相关系数 r 2 相关指数 R2 3 随机误差学习难点残差分析的应用三、学习过程1 相关系数 r= 2 r 的性质:3 随机误差的定义:4 相关指数 R2= 5 R2的性质:6 残差分析的步骤:四、典型例题例 随着我国经济的快速发展,城乡居民的审核水平不断提高,为研究某市家庭平均收入与月平均生活支出的关系,该市统计部门随机调查 10 个家庭,得数据如下:i0GnpkpXmH 家庭编号1 2 3 4 5 6 7 8 9 10 x收 入(千元 0.8 1.1 1.3 1.5 1.5 1.8 2.0 2.2 2.4 2.8 y 支出千元0.7 1.0 1.2 1.0 1.3 1.5 1.3 1.7 2.0 2.5 (1)判断家庭平均收入与月平均生活支出是否相关?(2)若二者线性相关,求回归直线方程。思路点拨:利用散点图观察收入x 和支出 y 是否线性相关,若呈现线性相关关系,可利用公式来求出回归系数,然后获得回归直线方程。i0GnpkpXmH 名师归纳总结 精品学习资料 - - - - - - - - - - - - - - -精心整理归纳 精选学习资料 - - - - - - - - - - - - - - - 第 16 页,共 19 页 - - - - - - - - - 17 / 19 解:作散点图观察发现各个数据对应的点都在一条直线附近,所以二者呈现线性相关关系。(2 1(0.81.11.31.51.51.82.02.22.42.8)1.74,10 x1(0.71.01.21.01.31.51.31.72.02.5)1.42,10y12210.8136,1.421.740.0043.niiiniix ynx ybaxnx所以回归方程0.81360.0043yx五、当堂练习1 山东鲁洁棉业公式的可按人员在7 块并排形状大小相同的实验田上对某棉花新品种进行施化肥量x 对产量 y 影响的实验,得到如下表所示的一组数据 单位: kg)i0GnpkpXmH 施化肥量 x 15 20 25 30 35 40 45 产量 y 330 345 365 405 445 450 455 (1)画出散点图;(2)判断是否具有相关关系思路点拨 1 )散点图如图所示2)由散点图可知,各组数据对应点大致都在一条直线附近,所以施化肥量 x 与产量 y 具有线性相关关系 . 六、课后练习与提高1 在对两个变量 x、y 进行线性回归分析时有下列步骤:对所求出的回归方程作出解释;收集数据(,),1,2,iix yin; 求线性回归方程;求相关系数;根据所搜集的数据绘制散点图。名师归纳总结 精品学习资料 - - - - - - - - - - - - - - -精心整理归纳 精选学习资料 - - - - - - - - - - - - - - - 第 17 页,共 19 页 - - - - - - - - - 18 / 19 如果根据可靠性要求能够作出变量x、y 具有线性相关结论,则在下列操作顺序中正确的是 )i0GnpkpXmH A B C D 2 三点3,10), 的线性回归方程为 ) A 1.755.75yxB 1.755.75yx C 1.755.75yxD1.755.75yx3 对有线性相关关系的两个变量建立的回归直线方程yabx中,回归系数 b )A.可以大于 0 B 大于 0 C 能等于 0 D只能小于 0 4 废 品 率00 x和 每吨 生 铁 成 本 y 元) 之 间 的 回归 直 线 方程 为2562yx,表明 )A 废品率每增加001,生铁成本增加258 元; B废品率每增加001,生铁成本增加 2 元;C 废品率每增加001,生铁成本每吨增加2 元;D 废品率不变,生铁成本增加 256 元;答案 1 D 2 B 3 A 4 C 申明:所有资料为本人收集整理,仅限个人学习使用,勿做商业用名师归纳总结 精品学习资料 - - - - - - - - - - - - - - -精心整理归纳 精选学习资料 - - - - - - - - - - - - - - - 第 18 页,共 19 页 - - - - - - - - - 19 / 19 途。名师归纳总结 精品学习资料 - - - - - - - - - - - - - - -精心整理归纳 精选学习资料 - - - - - - - - - - - - - - - 第 19 页,共 19 页 - - - - - - - - -