选修2-33.1回归分析的基本思想及其初步应用ppt课件.ppt
2022-6-203.1回归分析的基回归分析的基本思想及其初步本思想及其初步应用(一)应用(一)高二数学高二数学 选修选修2-2022-6-20数学数学统计内容统计内容1. 画散点图画散点图2. 了解最小二乘法的思想了解最小二乘法的思想3. 求回归直线方程求回归直线方程 ybxa4. 用回归直线方程解决应用问题用回归直线方程解决应用问题2022-6-20问题问题1:正方形的面积:正方形的面积y与正方形的边长与正方形的边长x之间之间 的的函数关系函数关系是是y = x2确定性关系确定性关系问题问题2:某水田水稻产量:某水田水稻产量y与施肥量与施肥量x之间是否之间是否 有一个确定性的关系?有一个确定性的关系?复习复习 变量之间的两种关系变量之间的两种关系 自变量取值一定时,因变量的取值带有一定自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做随机性的两个变量之间的关系叫做相关关系相关关系。2022-6-20 现实生活中存在着大量的相关关系。现实生活中存在着大量的相关关系。探索:水稻产量探索:水稻产量y与施肥量与施肥量x之间大致有何规之间大致有何规律?律?2022-6-2010 20 30 40 50500450400350300发现:图中各点,大致分布在某条直线附近。发现:图中各点,大致分布在某条直线附近。探索探索2:在这些点附近可画直线不止一条,哪条直:在这些点附近可画直线不止一条,哪条直线最能代表线最能代表x与与y之间的关系呢?之间的关系呢?xy散点图散点图施化肥量施化肥量水稻产量水稻产量施化肥量施化肥量x 15 20 25 30 35 40 45水稻产量水稻产量y 330 345 365 405 445 450 4552022-6-20称为样本点称为样本点的中心,线性回归直线一定过的中心,线性回归直线一定过样本中心。样本中心。2、对两个变量进行的线性分析叫做、对两个变量进行的线性分析叫做线性回归分析线性回归分析。1122211()(),()nniiiiiinniiiixx yyxnxybxxxnxaybxy1、所求、所求直线方程直线方程 叫做叫做回归直线方程回归直线方程; 相应的直线叫做相应的直线叫做回归直线回归直线。ybxa1111,.nniiiixxyynn其 中( ,)x y2022-6-20求求回归直线方程的步骤:回归直线方程的步骤:1111(1),nniiiixxyynn求211(2),.nniiiiixx y求(3)代入公式)代入公式1122211()(),(),nniiiiiinniiiixx yyx ynxybxxxnxay bx(4)写出直线)写出直线方程为方程为 ,即为所求的回归直线方程。即为所求的回归直线方程。ybxa2022-6-20例例1 1、观察两相关量得如下数据、观察两相关量得如下数据: :x-1-2-3-4-553421y-9-7-5-3-115379求两变量间的回归方程求两变量间的回归方程. .解:解:列表:列表:i12345678910 xi-1-2-3-4-553421yi-9-7-5-3-115379xiyi9141512551512149101010221110,0,110,3010.3,1iiiiiiixyyyxx2022-6-201 011 02211 01 1 01 0011 1 01 001 0iiiiixybyxxx000aybxb .yx所求回归直线方程为所求回归直线方程为2022-6-20例题例题 从某大学中随机选出从某大学中随机选出8 8名女大学生,其身名女大学生,其身高和体重数据如下表:高和体重数据如下表:编号12345678身高165165157170175165155170体重4857505464614359 求根据一名女大学生的身高预报她的体重的回求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为归方程,并预报一名身高为172172的女大学生的的女大学生的体重。体重。2022-6-20172.85849.0 xy分析:由于问题中分析:由于问题中要求根据身高预报要求根据身高预报体重,因此选取身体重,因此选取身高为自变量,体重高为自变量,体重为因变量为因变量学学身身 高高 1 17 72 2c cm m女女 大大生生 体体 重重y y = = 0 0. .8 84 49 91 17 72 2 - - 8 85 5. .7 71 12 2 = = 6 60 0. .3 31 16 6( (k kg g) )2.2.回归方程:回归方程:1. 散点图;散点图;2022-6-20 探究:身高为探究:身高为172cm的女大学生的体重一定是的女大学生的体重一定是60.316kg吗?如果不是,你能解析一下原因吗?吗?如果不是,你能解析一下原因吗? 答:身高为答:身高为172cm的女大学生的体重不一定的女大学生的体重不一定是是60.316kg,但一般可以认为她的体重接近于,但一般可以认为她的体重接近于60.316kg。2022-6-20例例1 从某大学中随机选取从某大学中随机选取8名女大学生,其身高和体重数据如表名女大学生,其身高和体重数据如表1-1所示。所示。编号12345678身高/cm165 165 157 170 175 165 155 170体重/kg4857505464614359求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为172cm的女大学生的体重。的女大学生的体重。案例案例1:女大学生的身高与体重:女大学生的身高与体重解:解:1、选取身高为自变量、选取身高为自变量x,体重为因变量,体重为因变量y,作散点图:,作散点图:2、由散点图知道身高和体重有比较、由散点图知道身高和体重有比较好的线性相关关系,因此可以用线性好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系。回归方程刻画它们之间的关系。3、从散点图还看到,样本点散布在某、从散点图还看到,样本点散布在某一条直线的附近,而不是在一条直线一条直线的附近,而不是在一条直线上,所以不能用一次函数上,所以不能用一次函数y=bx+a描述描述它们关系。它们关系。2022-6-在线性回归模型在线性回归模型(4)中,随机误差中,随机误差e的方差的方差 越小。越小。2s由于样本点不在同一条直线上,只是散布在某一条直线附近,由于样本点不在同一条直线上,只是散布在某一条直线附近,所以身高与体重的关系可用所以身高与体重的关系可用线性回归模型线性回归模型:y=bx+a+e, (3) 来表示,其中来表示,其中a和和b为模型的未知参数,为模型的未知参数,e是是y与与bx+a之间的误差之间的误差.通常通常e为随机变量,称为随机误差为随机变量,称为随机误差(random error),即即e称为随机称为随机误差误差.它的均值它的均值E(e)=0,方差方差D(e)=2.这样线性回归模型的完整表这样线性回归模型的完整表达式为:达式为:2022-6-20思考思考:产生随机误差项产生随机误差项e的原因是什么?的原因是什么?随机误差随机误差e e的来源的来源( (可以推广到一般):可以推广到一般):1、忽略了其它因素的影响:影响身高、忽略了其它因素的影响:影响身高 y 的因素不只的因素不只是体重是体重 x,可能还包括遗传基因、饮食习惯、生,可能还包括遗传基因、饮食习惯、生长环境等因素;长环境等因素;2、用线性回归模型近似真实模型所引起的误差;、用线性回归模型近似真实模型所引起的误差;3、身高、身高 y 的观测误差。的观测误差。 以上三项误差越小,说明我们的回归模型的拟合以上三项误差越小,说明我们的回归模型的拟合效果越好。效果越好。2022-6-20探究探究3:在线性回归模型中,:在线性回归模型中,e是用是用bx+a预报真实值预报真实值y的随机的随机误差,它是一个误差,它是一个不可观测的量,不可观测的量,那么怎样研究随机误差呢?那么怎样研究随机误差呢?是真实值是真实值与估计值与估计值的差!的差!2022-6-20思考:如何发现数据中的错误?如何衡量模型的拟合效果?思考:如何发现数据中的错误?如何衡量模型的拟合效果?0.84985.712,iiyx,iiieyy3335047.5812.419eyy如2022-6-20382.0883.2627.6137.1618.4419.2627.2373.6e 5943616454505748kg/170155165175170157165165cm/87654321残残差差体体重重身身高高编编号号残残差差图图2022-6-20编编号号残残差差31.3图图2022-6-2022121()1()niiiniiyyRyy2022-6-20例例2、在一段时间内,某中商品的价格、在一段时间内,某中商品的价格x元和需求量元和需求量Y件之间件之间的一组数据为:的一组数据为:求出求出Y对的回归直线方程,并说明拟合效果的好坏。对的回归直线方程,并说明拟合效果的好坏。价格x1416182022需求量Y1210753解:解:18,7.4,xy555221111660,327,620,iiiiiiixyx y7.41.151828.1.a1.1528.1.yx 回 归 直 线 方 程 为 :51522155iiiiix yx ybxx26205187.41.15.1660518 2022-6-20例例2、在一段时间内,某中商品的价格、在一段时间内,某中商品的价格x元和需求量元和需求量Y件之间件之间的一组数据为:的一组数据为:求出求出Y对的回归直线方程,并说明拟合效果的好坏。对的回归直线方程,并说明拟合效果的好坏。价格x1416182022需求量Y1210753列出残差表为列出残差表为521()iiiyy0.3,521()iiyy53.2,5221521()1()iiiiiyyRyy0.994因而,拟合效果较好。因而,拟合效果较好。iiyyiyy00.3-0.4-0.10.24.62.6-0.4-2.4-4.42022-6-20即在实际应用中应该尽量选择即在实际应用中应该尽量选择 R2 大的回归模型大的回归模型.案例案例 一只红铃虫的产卵数一只红铃虫的产卵数y和温度和温度x有关。现收有关。现收集了集了7组观测数据列于表中:组观测数据列于表中:(1 1)试建立产卵数)试建立产卵数y y与温度与温度x x之间的回归方程;并之间的回归方程;并预测温度为预测温度为2828o oC C时产卵数目。时产卵数目。(2 2)你所建立的模型中温度在多大程度上解释了)你所建立的模型中温度在多大程度上解释了产卵数的变化?产卵数的变化? 温度温度xoC21232527293235产卵数产卵数y/个个711212466115325非线性回归问题非线性回归问题选选 模模 型型由计算器得:线性回归方程为由计算器得:线性回归方程为y=y=19.8719.87x x-463.73-463.73 相关指数相关指数R R2 2= =r r2 20.8640.8642 2=0.7464=0.7464估计参数估计参数 解:选取气温为解释变量解:选取气温为解释变量x x,产卵数,产卵数 为预报变量为预报变量y y。选变量选变量所以,一次函数模型中温度解释了所以,一次函数模型中温度解释了74.64%的产卵数变化。的产卵数变化。探索新知探索新知画散点图画散点图050100150200250300350036912151821242730333639方案1分析和预测分析和预测当当x=28时,时,y =19.8728-463.73 93一元线性模型一元线性模型假设线性回归方程为假设线性回归方程为 :ybxa奇怪?奇怪?9366 ?模型不好?模型不好? y=bx2+a 变换变换 y=bt+a非线性关系非线性关系 线性关系线性关系方案2问题问题选用选用y=bx2+a ,还是,还是y=bx2+cx+a ?问题问题3 产卵数产卵数气气温温问题问题2如何求如何求a、b ?合作探究合作探究 t=x2二次函数模型二次函数模型方案2解答平方变换平方变换:令令t=xt=x2 2,产卵数,产卵数y y和温度和温度x x之间二次函数模型之间二次函数模型y=bxy=bx2 2+a+a就转化为产卵数就转化为产卵数y y和温度的平方和温度的平方t t之间线性回归模型之间线性回归模型y=bt+ay=bt+a温度温度21232527293235温度的平方温度的平方t44152962572984110241225产卵数产卵数y/个个711212466115325作散点图,并由计算器得:作散点图,并由计算器得:y y和和t t之间的线性回归方程为之间的线性回归方程为y=y=0.3670.367t t-202.543-202.543,相关指数,相关指数R R2 2=0.802=0.802将将t=xt=x2 2代入线性回归方程得:代入线性回归方程得: y=y=0.3670.367x x2 2 -202.543 -202.543当当x x=28=28时时,y y=0.367=0.36728282 2- -202.5485202.5485,且,且R R2 2=0.802=0.802,所以,二次函数模型中温度解所以,二次函数模型中温度解释了释了80.2%80.2%的产卵数变化。的产卵数变化。t问题问题 变换变换 y=bx+a非线性关系非线性关系 线性关系线性关系21c xyc e问题问题如何选取指数函数的底如何选取指数函数的底?产卵数产卵数气气温温指数函数模型指数函数模型方案3合作探究合作探究对数对数方案3解答温度温度xoC21232527293235z=lny1.9462.3983.0453.1784.1904.7455.784产卵数产卵数y/个个711212466115325xz当当x=28x=28o oC C 时,时,y 44 y 44 ,指数回归模型,指数回归模型中温度解释了中温度解释了98.5%98.5%的产卵数的变化的产卵数的变化由计算器得:由计算器得:z z关于关于x x的线性回归方程的线性回归方程为为0.272x-3.849 .ye22111221lnln()lnlnlnlnlnc xc xyc ececc xec xc 对数变换:在对数变换:在 中两边取常用对数得中两边取常用对数得21c xyc e令令 ,则,则 就转换为就转换为z=bx+a.z=bx+a.12ln,ln,zy acbc21c xyc e z=0.272x-3.849 ,相关指数相关指数R R2 2=0.98=0.98最好的模型是哪个最好的模型是哪个? 产卵数产卵数气温气温产卵数产卵数气气温温线性模型线性模型二次函数模型二次函数模型指数函数模型指数函数模型比一比一比比函数模型函数模型相关指数相关指数R2线性回归模型线性回归模型0.7464二次函数模型二次函数模型0.80指数函数模型指数函数模型0.98最好的模型是哪个最好的模型是哪个?回归分析(二)回归分析(二)(1)0.2723.849(2)2y, y0.367202.543.xex则回归方程的残差计算公式分别为:则回归方程的残差计算公式分别为:由计算可得:由计算可得:(1)(1)0.2723.849(2)(2)2,1, 2,.,7;0.367202.543,1, 2,.,7.xiiiiiiiieyyyeieyyyxix21232527293235y7112124661153250.557-0.1011.875-8.9509.230-13.38134.67547.69619.400-5.832-41.00-40.104-58.26577.968(1) e(2) e(1)(2)1550.538,15448.431.QQ因此模型(因此模型(1)的拟合效果远远优于模型()的拟合效果远远优于模型(2)。)。2022-6-20用身高预报体重时,需要注意下列问题:用身高预报体重时,需要注意下列问题:1、回归方程只适用于我们所研究的样本的总体;、回归方程只适用于我们所研究的样本的总体;2、我们所建立的回归方程一般都有时间性;、我们所建立的回归方程一般都有时间性;3、样本采集的范围会影响回归方程的适用范围;、样本采集的范围会影响回归方程的适用范围;4、不能期望回归方程得到的预报值就是预报变量的精确值。、不能期望回归方程得到的预报值就是预报变量的精确值。 事实上,它是预报变量的可能取值的平均值。事实上,它是预报变量的可能取值的平均值。这些问题也适用于其他问题。这些问题也适用于其他问题。涉及到统计的一些思想:涉及到统计的一些思想:模型适用的总体;模型适用的总体;模型的时间性;模型的时间性;样本的取值范围对模型的影响;样本的取值范围对模型的影响;模型预报结果的正确理解。模型预报结果的正确理解。小结小结2022-6-20一般地,建立回归模型的基本步骤为:一般地,建立回归模型的基本步骤为:(1)确定研究对象,明确哪个变量是解析变量,哪个变量是预报变量。)确定研究对象,明确哪个变量是解析变量,哪个变量是预报变量。(2)画出确定好的解析变量和预报变量的散点图,观察它们之间的关系)画出确定好的解析变量和预报变量的散点图,观察它们之间的关系 (如是否存在线性关系等)。(如是否存在线性关系等)。(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程选用线性回归方程y=bx+a).(4)按一定规则估计回归方程中的参数(如最小二乘法)。)按一定规则估计回归方程中的参数(如最小二乘法)。(5)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差呈现不随机的规律性,等等),过存在异常,则检查数据是否有误,或差呈现不随机的规律性,等等),过存在异常,则检查数据是否有误,或模型是否合适等。模型是否合适等。2022-6-202022-6-20