回归分析的基本思想及其应用PPT讲稿.ppt
回归分析的基本思想及其应用第1页,共25页,编辑于2022年,星期六+1.1.线性回归模型线性回归模型:e=y-(bx+a)e=y-(bx+a)称称为随机误差为随机误差温故知新温故知新一一.用心温故用心温故第2页,共25页,编辑于2022年,星期六R R2 2越大模越大模型越好型越好残差平方和越残差平方和越小精确度越高小精确度越高3.3.相关指数相关指数R R2 2第3页,共25页,编辑于2022年,星期六引例引例:从某大学中随机选出从某大学中随机选出8 8名女大学生,其身高和名女大学生,其身高和体重数据如下表:体重数据如下表:编号编号12345678身高身高165165157170175165155170体重体重4857505464614359残差残差(1)(1)求每个点求每个点(x(xi,i,y yi i)的残差的残差 (2)(2)画出残差的散点图画出残差的散点图(3)(3)求出相关指数求出相关指数R R2 2,说明身高在多大程度上说明身高在多大程度上解释了体重的变化解释了体重的变化.二二.探求新知探求新知 -6.373-6.3732.6272.6272.4192.419-4.618-4.618 1.1371.1376.6276.627-2.883-2.8830.3820.382第4页,共25页,编辑于2022年,星期六-8-8-6-6-4-4-2-22 24 46 68 8O O2 21 13 34 46 65 57 78 89 91010编号编号残差残差.R.R2 2=0.64,=0.64,表明女大学生的身高解释了表明女大学生的身高解释了64%64%的体重变化。的体重变化。残差点比较均匀地落在(以x轴为中心)水平带状区域内.模型较合适带状区域的宽度越窄,模型拟合精度越高,回归方程的预报精度越高第5页,共25页,编辑于2022年,星期六.43210-1-2-3-40 100 200 300 400 500 600 700 800 900 1000 454035302520151050-50 10 20 30 40 50 60 70 80 90 100 25002000150010005000-500-10000 10 20 30 40 50 60 70 80 90 100200150100500-50-100-1500 10 20 30 40 50 60 70 80 90 100 .()()分析下列残差图分析下列残差图,所选用的回归模型效果最好的是()所选用的回归模型效果最好的是()牛刀小试牛刀小试第6页,共25页,编辑于2022年,星期六(2)有下列说法:)有下列说法:在残差图中,残差点比在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用较均匀地落在水平的带状区域内,说明选用的模型比较合适。的模型比较合适。相关指数相关指数R2来刻画回归来刻画回归的效果的效果,R2 值越大,说明模型的拟合效果越好。值越大,说明模型的拟合效果越好。比较两个模型的拟和效果,可以比较残差平方比较两个模型的拟和效果,可以比较残差平方的大小,残差平方和越小的模型,拟合效果越好。的大小,残差平方和越小的模型,拟合效果越好。正确的是(正确的是()第7页,共25页,编辑于2022年,星期六建立回归模型的基本步骤建立回归模型的基本步骤画出散点图画出散点图;确定回归方程类型确定回归方程类型;求出回归方程求出回归方程;利用相关指数或残差进行分析利用相关指数或残差进行分析.确定解释变量和预报变量确定解释变量和预报变量;第8页,共25页,编辑于2022年,星期六被害棉花 红铃红铃 虫喜高温高湿,适宜各虫态发育的虫喜高温高湿,适宜各虫态发育的温度为温度为 25 一一32 ,相对湿度为,相对湿度为80一一100,低于,低于 20 和高于和高于35 卵不卵不能孵化,相对湿度能孵化,相对湿度60 以下成虫不产卵。以下成虫不产卵。冬季月平均气温低于一冬季月平均气温低于一48 时,红铃虫时,红铃虫就不能越冬而被冻死。就不能越冬而被冻死。创设情景创设情景 19531953年,年,1818省发生红铃虫大灾害,受灾面积省发生红铃虫大灾害,受灾面积300300万公顷,损失皮棉约二十万吨。万公顷,损失皮棉约二十万吨。因材施教因材施教第9页,共25页,编辑于2022年,星期六温度温度xoC21232527293235产卵数产卵数y/个个711212466115325例例2 2 现现收收集集了了一一只只红红铃铃虫虫的的产产卵卵数数y y和和温温度度x xo oC C之之间的间的7 7组观测数据列于下表:组观测数据列于下表:(1 1)试试建建立立产产卵卵数数y y与与温温度度x x之之间间的的回回归归方方程程;并预测温度为并预测温度为2828o oC C时产卵数目。时产卵数目。(2 2)你所建立的模型中温度在多大程度上解)你所建立的模型中温度在多大程度上解释了产卵数的变化?释了产卵数的变化?问题呈现:第10页,共25页,编辑于2022年,星期六画散点图画散点图假设线性回归方程为假设线性回归方程为:选选 模模 型型分析和预测分析和预测当当x=28时,时,y=19.8728-463.73 93选变量选变量 解:选取气温为解释变量解:选取气温为解释变量x x,产卵数,产卵数 为预报变量为预报变量y y。合作探究合作探究050100150200250300350036912151821242730333639方案1当当x=28时,时,y=19.8728-463.73 93估计参数估计参数由计算器得:线性回归方程为由计算器得:线性回归方程为第11页,共25页,编辑于2022年,星期六残差残差编号12345671020304050607080-10-20-30-40-50-6090100 xy残差21723112521272429663211535325线性模型线性模型53.4617.72-12.02-48.76-46.5-57.1193.2819818.919818.9 相关指数相关指数R R2 20.74640.7464所以,一次函数模型中温度解释了所以,一次函数模型中温度解释了74.64%的产卵数变化。的产卵数变化。第12页,共25页,编辑于2022年,星期六 y=bx2+a 变换变换 y=bx+a非线性关系非线性关系 线性关系线性关系方案2问题问题选用选用y=bx2+a,还是,还是y=bx2+cx+a?问题问题3 产卵数产卵数气气温温问题问题2如何求如何求a、b?合作探究合作探究 t=x2第13页,共25页,编辑于2022年,星期六温度温度xoC21232527293235产卵数产卵数y/个个711212466115325方案2解答平方变换:平方变换:令令t=xt=x2 2,产卵数,产卵数y y和温度和温度x x之间二次函数模型之间二次函数模型y=bxy=bx2 2+a+a就转化为就转化为产卵数产卵数y y和温度的平方和温度的平方t t之间线性回归模型之间线性回归模型y=bt+ay=bt+a作散点图,并由计算器得:作散点图,并由计算器得:将将t=xt=x2 2代入线性回归方程得:代入线性回归方程得:y=y=0.3670.367x x2 2-202.54-202.54tt温度温度21232527293235温度的平方温度的平方t44152962572984110241225产卵数产卵数y/个个711212466115325y y和和t t之间的线性回归方程为之间的线性回归方程为y=y=0.3670.367t t-202.54-202.54,当当x x=28=28时时,y y=0.36728=0.367282 2-202.5485202.5485第14页,共25页,编辑于2022年,星期六残差残差编号12345671020304050607080-10-20-30-40-50-6090100 xy残差21723112521272429663211535325二次函数模型二次函数模型47.69619.400-5.832-41.000-40.104-58.26577.96815448.415448.4相关指数相关指数R R2 2=0.802=0.802所以二次函数模型中温度解释了所以二次函数模型中温度解释了80.2%80.2%的产卵数变化。的产卵数变化。第15页,共25页,编辑于2022年,星期六问题问题 变换变换 y=bx+a非线性关系非线性关系 线性关系线性关系问题问题如何选取指数函数的底如何选取指数函数的底?产卵数产卵数气气温温指数函数模型指数函数模型方案3合作探究合作探究对数对数第16页,共25页,编辑于2022年,星期六令令 ,则,则 就转换为就转换为z z=bx+a=bx+a 对数变换:在对数变换:在 中两边取常用对数得中两边取常用对数得方案3解答xz当当x=28x=28o oC C 时,时,y 44 y 44 温度温度xoC21232527293235产卵数产卵数y/个个711212466115325温度温度xoC21232527293235z=lgy0.851.041.321.381.822.062.51产卵数产卵数y/个个711212466115325第17页,共25页,编辑于2022年,星期六残差残差编号12345671020304050607080-10-20-30-40-50-6090100 xy残差21723112521272429663211535325指数函数模型指数函数模型-0.19441.7248-9.18948.8521-14.121933.25731471.51471.5指数回归模型中温度解释了指数回归模型中温度解释了98.5%98.5%的产卵数的产卵数的变化的变化0.49870.4987第18页,共25页,编辑于2022年,星期六最好的模型是哪个最好的模型是哪个?产卵产卵数数气气温温产卵产卵数数气气温温线性模型二次函数模型指数函数模型第19页,共25页,编辑于2022年,星期六比比一一比比函数模函数模型型相关指相关指数数R2残差平残差平方和方和线性回线性回归模型归模型二次函二次函数模型数模型指数函指数函数模型数模型最好的模型是哪最好的模型是哪个个?0.74640.74640.8020.8020.9850.9851981819818154481544814711471第20页,共25页,编辑于2022年,星期六编号编号编号编号编号编号123456 7残差残差1020304050607080-10-20-30-40-50-6090100残差残差1020304050607080-10-20-30-40-50-6090100123456 7123456 7残差残差1020304050607080-10-20-30-40-50-6090100结论:无论从图形上直观观察,还是从数据上结论:无论从图形上直观观察,还是从数据上分析,指数函数模型是更好的模型。分析,指数函数模型是更好的模型。第21页,共25页,编辑于2022年,星期六数学思想:数学思想:数学方法:数学方法:数形结合的思想,化归思想及整体思想数形结合的思想,化归思想及整体思想数形结合法,转化法,换元法数形结合法,转化法,换元法数学知识数学知识:建立回归模型及残差图分析的基本步骤建立回归模型及残差图分析的基本步骤不同模型拟合效果的比较方法:相关指数和残不同模型拟合效果的比较方法:相关指数和残差的分析差的分析非线性模型向线性模型的转换方法非线性模型向线性模型的转换方法课堂总结课堂总结第22页,共25页,编辑于2022年,星期六1.在画两个变量的散点图时,下面叙述正确的事()(A)预报变量在x轴上,解释变量在y轴上(B)解释变量在x轴上,预报变量在y轴上(C)可以选择两个变量中任意一个变量在x轴上(D)可以选择两个变量中任意一个变量在y轴上2.一位母亲记录了她儿子3到9岁的身高,数据如下表。年龄/岁3456789身高/cm94.8104.2108.7117.8124.3130.8139.0由此她建立了身高与年龄的回归模型 ,她用这个模型预测儿子10岁时的身高,则下面的叙述正确的是()(A)身高一定是145.83cm (B)身高在145.83CM以上(C)身高在145.83cm左右 (D)身高在145.83cm以下学以致用第23页,共25页,编辑于2022年,星期六3.在建立两个变量x与y的回归模型中,分别选择了4个不同模型,它们的相关指数 如下,其中拟和得最好的模型是()(A)模型1的相关指数为0.98为0.80为0.504.如果发现散点图中所有的样本点都在一条直线上,请回答下列问题:(1)解释变量和预报变量的关系是 ,残差平方和是_ (2)解释变量和预报变量之间的相关系数是_ (B)模型2的相关指数(C)模型3的相关指数(D)模型4的相关指数为0.25第24页,共25页,编辑于2022年,星期六2 2、通过互联网收集、通过互联网收集19931993年至年至20032003年每年中年每年中国人口总数的数据,建立人口与年份的关系,国人口总数的数据,建立人口与年份的关系,预测预测20042004和和20052005年的人口总数,并计算与年的人口总数,并计算与实际数据的误差。实际数据的误差。1、某种书每册的成本费、某种书每册的成本费y(元)与印刷册数(元)与印刷册数x(千册)有关,经统计得到(千册)有关,经统计得到数据如下:数据如下:X12345678910y10.155.524.082.852.111.621.411.301.211.15(1)画出散点图;画出散点图;(2)求成本费求成本费y(元)与印刷册数(元)与印刷册数x(千册)的回归方程。(千册)的回归方程。课后实践课后实践:第25页,共25页,编辑于2022年,星期六