高中数学选修3.1回归分析的基本思想及其初步应用-(5)人教版课件.ppt
《高中数学选修3.1回归分析的基本思想及其初步应用-(5)人教版课件.ppt》由会员分享,可在线阅读,更多相关《高中数学选修3.1回归分析的基本思想及其初步应用-(5)人教版课件.ppt(56页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、回归分析知识结构图回归分析知识结构图问题背景分析问题背景分析线性回归模型线性回归模型两个变量线性相关两个变量线性相关最小二乘法最小二乘法两个变量非线性相关两个变量非线性相关非线性回归模型非线性回归模型残差分析残差分析散点图散点图应用应用注:虚线表示高中阶段不涉及的关系1回归分析的基本方法线性回归模型回归分析的基本方法线性回归模型ybxae不同于一次函数不同于一次函数ybxa,含有含有_,其中,其中x为为_,y为为_知识结构知识结构样本点的中心样本点的中心随机误差随机误差e解释变量解释变量预报变量预报变量残差平方和残差平方和3相关指数:(1)在含有一个解释变量的线性模型中,R2恰好等于相关系数r
2、的平方.(2)R2取值越大(越接近1),则残差平方和越小,即模型的拟合效果越好.(实际上就是:|r|越大,则|e|越小)其中:4.3.1回归分析的基本思想及其初步应用(一)回归分析的基本思想及其初步应用(一)回归直线方程回归直线方程高二数学高二数学 选修选修2-3对于两个变量,当对于两个变量,当自变量取值一定时,因变量的取值带有一定随机性的自变量取值一定时,因变量的取值带有一定随机性的 两个变量之间的关系叫做两个变量之间的关系叫做相关关系相关关系。2、相关关系的相关关系的定义定义:一一.回顾复习回顾复习1、两个变量的关系、两个变量的关系不确定性关系不确定性关系确定性关系确定性关系函数关系函数关
3、系线性相关线性相关非线性相关非线性相关相关关系相关关系不相关关系不相关关系正相关(增)正相关(增)负相关(减)负相关(减)注:1)对具有相关关系的两个变量进行统计分析的方法叫对具有相关关系的两个变量进行统计分析的方法叫回归分析回归分析。2)函数关系中的两个变量间是一种确定性关系 相关关系是一种非确定性关系 函数关系是一种理想的关系模型 相关关系在现实生活中大量存在,是更一般的情况 如:人的身高与年龄;产品的成本与生产数量如:人的身高与年龄;产品的成本与生产数量如:人的身高与年龄;产品的成本与生产数量如:人的身高与年龄;产品的成本与生产数量 商品的销售额与广告费;家庭的支出与收入。等等商品的销售
4、额与广告费;家庭的支出与收入。等等商品的销售额与广告费;家庭的支出与收入。等等商品的销售额与广告费;家庭的支出与收入。等等问题问题1:正方形的面积:正方形的面积y与正方形的边长与正方形的边长x之间之间 的的函数关系函数关系是是y=x2确定性关系确定性关系问题问题2:某水田水稻产量:某水田水稻产量y与施肥量与施肥量x之间是否有一个确之间是否有一个确 定性的关系?定性的关系?例如:在例如:在 7 块并排、形状大小相同的试验田上进行施肥量对水块并排、形状大小相同的试验田上进行施肥量对水 稻产量影响的试验,得到如下所示的一组数据:稻产量影响的试验,得到如下所示的一组数据:施化肥量施化肥量x 15 20
5、 25 30 35 40 45水稻产量水稻产量y 330 345 365 405 445 450 455一一.回顾复习回顾复习10 20 30 40 50500450400350300施化肥量施化肥量x 15 20 25 30 35 40 45水稻产量水稻产量y 330 345 365 405 445 450 455xy施化肥量施化肥量水稻产量水稻产量10 20 30 40 50500450400350300发现:图中各点,大致分布在某条直线附近。发现:图中各点,大致分布在某条直线附近。探索探索2:在这些点附近可画直线不止一条,哪条直线最能代表:在这些点附近可画直线不止一条,哪条直线最能代表
6、x与与y之间的关系呢?之间的关系呢?施化肥量施化肥量x 15 20 25 30 35 40 45水稻产量水稻产量y 330 345 365 405 445 450 455xy散点图散点图施化肥量施化肥量水稻产量水稻产量探索探索1:水稻产量:水稻产量y与施肥量与施肥量x之间大致有何规律?之间大致有何规律?对于一组具有线性相关关系的数据对于一组具有线性相关关系的数据其回归直线方程为其回归直线方程为 此直线叫做此直线叫做回归直线回归直线。其回归方程的其回归方程的截距和斜率截距和斜率的最小二乘估计公式分别为:的最小二乘估计公式分别为:2)、对两个变量进行的线性分析叫做)、对两个变量进行的线性分析叫做线
7、性回归分析线性回归分析。3.线性回归直线方程:线性回归直线方程:最最小小二二乘乘估估计计注:注:1)回归直线方程)回归直线方程 恒过恒过样本中心样本中心点点4.求回归直线方程的步骤:求回归直线方程的步骤:(3)代入公式)代入公式(4)写出直线方程为)写出直线方程为y=bx+a,即为所求的回归直线方程。即为所求的回归直线方程。5.回归分析的基本步骤回归分析的基本步骤:画散点图画散点图求回归方程求回归方程预报、决策预报、决策例例1 1、某大学中随机选取某大学中随机选取8 8名女大学生,其身高和体重数据如下表所示名女大学生,其身高和体重数据如下表所示.编号编号1 12 23 34 45 56 67
8、78 8身高身高/cm/cm165165165165157157170170175175165165155155170170体重体重/kg/kg48485757505054546464616143435959(1)画出散点图)画出散点图(2)根据女大学生的身高预报体重的回归方程,)根据女大学生的身高预报体重的回归方程,(3)预报一名身高为)预报一名身高为172cm的女大学生的体重的女大学生的体重.解:解:1.确定变量:确定变量:由于问题中要求根据身高预报体重,因此选取身高为自变由于问题中要求根据身高预报体重,因此选取身高为自变量量x,体重为因变量,体重为因变量y2.2.作散点图;作散点图;3.
9、设回归方程:设回归方程:由散点图可知,样本点呈由散点图可知,样本点呈条状分布条状分布,身高和体重有较好的线性相关关系,因,身高和体重有较好的线性相关关系,因此可以用线性回归方程来此可以用线性回归方程来近似的近似的刻画它们之间的关系刻画它们之间的关系.故设回归直线方程为故设回归直线方程为因此,对于身高因此,对于身高172cm的女大学生,由线性回归方程可以预报其体重为:的女大学生,由线性回归方程可以预报其体重为:是斜率的估计值,说明身高是斜率的估计值,说明身高x每增加每增加1个单位时,体重个单位时,体重y就增加就增加0.849个单位,这表明体重与身高具有正的线性相关关系个单位,这表明体重与身高具有
10、正的线性相关关系.4.4.求回归方程:求回归方程:5.根据回归方程作出预报根据回归方程作出预报.有故所求线性回归方程为:故所求线性回归方程为:思考思考1:如何描述两个变量之间线性相关关系的强弱?如何描述两个变量之间线性相关关系的强弱?1)用相关系数用相关系数r来衡量两个变量之间线性相关关系的强弱来衡量两个变量之间线性相关关系的强弱相关系数相关系数 2)相关系数的性质相关系数的性质:(1)|r|1 (2)正相关;负相关)正相关;负相关(3)|r|越接近于越接近于1,x与与y相关程度越强;相关程度越强;|r|越接近于越接近于0,x与与y相关程度越弱相关程度越弱问题:问题:达到怎样程度,达到怎样程度
11、,x、y线性相关呢?它们的相关程度怎样呢?线性相关呢?它们的相关程度怎样呢?通常:通常:r r-1,-0.75-1,-0.75-负相关很强负相关很强;r r0.75,10.75,1正相关很强正相关很强;r r-0.75,-0.3-0.75,-0.3-负相关一般负相关一般;r r0.3,0.750.3,0.75正相关一般正相关一般;r r-0.25,0.25-0.25,0.25-相关性较弱相关性较弱;注注:通常,通常,r0.75,认为两个变量有很强的相关性,认为两个变量有很强的相关性相关关系的测度相关关系的测度(相关系数取值及其意义)-1.0+1.00-0.5+0.5完全负相关完全负相关完全负相
12、关完全负相关无线性相关无线性相关无线性相关无线性相关完全正相关完全正相关完全正相关完全正相关负相关程度增加负相关程度增加负相关程度增加负相关程度增加r正相关程度增加正相关程度增加正相关程度增加正相关程度增加本例中本例中,由上面公式可求得由上面公式可求得r=0.7980.75表明体重与身高有很强的线性相关性,从而说明我们建立的回归模型表明体重与身高有很强的线性相关性,从而说明我们建立的回归模型 有意义的有意义的.、当、当 时,时,x x与与y y为完全线性相关,它们之间存在确定的函数关系。为完全线性相关,它们之间存在确定的函数关系。、当、当 时,表示时,表示x x与与y y存在着一定的线性相关,
13、存在着一定的线性相关,r r的绝对值越大,越接近于的绝对值越大,越接近于1 1,表示,表示x x与与y y直线相关程度越高,反之越低。直线相关程度越高,反之越低。思考思考2:身高为身高为172cm的女大学生的体重一定是的女大学生的体重一定是60.316kg吗?如果不是,你能吗?如果不是,你能解析一下原因吗?解析一下原因吗?答:身高为答:身高为172cm的女大学生的体重不一定是的女大学生的体重不一定是60.316kg,但一般可以认为她的体重接近于,但一般可以认为她的体重接近于60.316kg或在或在60.316kg 左右。即,用这个回归方程不能给出每个身高为即,用这个回归方程不能给出每个身高为1
14、72cm的女大学生的体重的女大学生的体重的预测值,只能给出她们平均体重的值。的预测值,只能给出她们平均体重的值。从散点图看到,样本点散布在某一条直线的附近,而不是在一条直线上,所以不能用一次函数从散点图看到,样本点散布在某一条直线的附近,而不是在一条直线上,所以不能用一次函数y=bx+a描述它们关系。描述它们关系。我们可以用下面的我们可以用下面的线性回归模型线性回归模型来表示:来表示:y=bx+a+e,(其中(其中a和和b为模型的未知参数,为模型的未知参数,e称为随机误差)称为随机误差)。思考思考3:产生随机误差项产生随机误差项e的原因是什么?的原因是什么?随机误差随机误差e e的来源的来源(
15、可以推广到一般):可以推广到一般):1、其它因素的影响:影响体重y 的因素不只是身高x,可能还包括遗传基因、饮食习惯、生长环境等因素;2、用线性回归模型近似真实模型所引起的误差;3、身高 y 的观测误差。以上三项误差越小,说明我们的回归模型的拟合效果越好。以上三项误差越小,说明我们的回归模型的拟合效果越好。函数模型:回归模型:函数模型:因变量函数模型:因变量y完全由自变量完全由自变量x确定确定 线性回归模型线性回归模型y=bx+a+e增加了随机误差项增加了随机误差项e,因变量因变量y的值由自变量的值由自变量x和和随机误差项随机误差项e共同确定,共同确定,即即自变量自变量x只能解析部分只能解析部
16、分y的变化的变化。在统计中,我们也把自变量在统计中,我们也把自变量x称为称为解析变量解析变量,因变量,因变量y称为称为预报变量预报变量。因此,因此,一次函数模型是线性回归模型的特殊形式,一次函数模型是线性回归模型的特殊形式,线性回归模型是一次函数模型的一般形式线性回归模型是一次函数模型的一般形式.思考思考4:函数模型与回归模型之间的差别?函数模型与回归模型之间的差别?1.确定变量;确定变量;2.作散点图,判断相关关系;作散点图,判断相关关系;3.设回归方程;设回归方程;4.求回归方程;求回归方程;5.根据回归方程作出预报根据回归方程作出预报.小结:线性回归分析的基本步骤:小结:线性回归分析的基
17、本步骤:3.1回归分析的基本思想及其初步应用(二)回归分析的基本思想及其初步应用(二)随机误差与线性回归模型随机误差与线性回归模型高二数学高二数学 选修选修2-3一一.复习回顾复习回顾1、线性回归模型:、线性回归模型:y=bx+a+e (其中(其中a和和b为模型的未知参数,为模型的未知参数,e称为随机误差)称为随机误差)。1)确定变量;)确定变量;2)作散点图,判断相关关系;)作散点图,判断相关关系;3)设回归方程;)设回归方程;4)求回归方程;)求回归方程;5)根据回归方程作出预报)根据回归方程作出预报.2.2.线性回归分析的基本步骤:线性回归分析的基本步骤:3 3、线性相关关系强弱的判断:
18、、线性相关关系强弱的判断:相关系数相关系数r 1)1)相关系数相关系数r r2)相关系数相关系数r的性质的性质:(1)|r|1(2)正相关;负相关)正相关;负相关(3)|r|越接近于越接近于1,x与与y相关程度越强;相关程度越强;|r|越接近于越接近于0,x与与y相关程度越弱相关程度越弱例例1 从某大学中随机选取从某大学中随机选取8名女大学生,其身高和体重数据如表名女大学生,其身高和体重数据如表1-1所示。所示。编号12345678身高/cm165165157170175165155170体重/kg4857505464614359求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为
19、求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为172cm的女大学生的体重。的女大学生的体重。案例案例1:女大学生的身高与体重:女大学生的身高与体重解:解:1、选取身高为自变量、选取身高为自变量x,体重为因变量,体重为因变量y,作散点图:,作散点图:2、由散点图知道身高和体重有比较好的线性相关、由散点图知道身高和体重有比较好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系,因此可以用线性回归方程刻画它们之间的关系。关系。3、从散点图还看到,样本点散布在某一条直线、从散点图还看到,样本点散布在某一条直线的附近,而不是在一条直线上,所以不能用一次的附近,而不是在一条直线上,
20、所以不能用一次函数函数y=bx+a描述它们关系。描述它们关系。思考:思考:有些时候,样本数据中难免混有错误数据,通过何有些时候,样本数据中难免混有错误数据,通过何 种方法把它剔除?种方法把它剔除?1.残差分析与残差图的定义:残差分析与残差图的定义:然后,我们可以通过残差然后,我们可以通过残差 来判断模型拟合的效果,判断原始来判断模型拟合的效果,判断原始数据中是否存在可疑数据,数据中是否存在可疑数据,这方面的分析工作称为残差分析这方面的分析工作称为残差分析。我们可以利用图形来分析残差特性,作图时纵我们可以利用图形来分析残差特性,作图时纵坐标为残差,横坐标可以选为样本坐标为残差,横坐标可以选为样本
21、编号,或身高数据,或体重估计值等编号,或身高数据,或体重估计值等,这样作出的图形称为,这样作出的图形称为残差图残差图。数据点和它在回归直线上相应位置的差异数据点和它在回归直线上相应位置的差异 是随机误差的效应,称是随机误差的效应,称 为为残差残差。注意:注意:1 1)残差分析步骤:)残差分析步骤:1 1)计算每组数据的残差,即样本值减预测值)计算每组数据的残差,即样本值减预测值2 2)画残差图。纵坐标为残差,横坐标为自变量。)画残差图。纵坐标为残差,横坐标为自变量。3 3)分析残差图)分析残差图4 4)找异常值)找异常值2)残差图的制作:)残差图的制作:坐标纵轴为残差变量,横轴可以有不同的选择
22、坐标纵轴为残差变量,横轴可以有不同的选择.横轴为编号:可以考察残差与编号次序之间的关系,常用于调查数据错误横轴为编号:可以考察残差与编号次序之间的关系,常用于调查数据错误.横轴为解释变量:可以考察残差与解释变量的关系,常用于研究模型是否横轴为解释变量:可以考察残差与解释变量的关系,常用于研究模型是否 有改进的余地有改进的余地.下表列出了女大学生身高和体重的原始数据以及相应的残差数据。下表列出了女大学生身高和体重的原始数据以及相应的残差数据。编号编号12345678身高身高/cm165165157170175165155170体重体重/kg4857505464614359残差残差-6.3732.
23、6272.419-4.6181.1376.627-2.8830.382残残差差图图问问题题数数据据越越窄窄越越好好注意:残差图的作用:注意:残差图的作用:1)发现原始数据中的可疑数据发现原始数据中的可疑数据,问题数据 2)判断模型的适用性,若模型选择的正确,残差图中的点应该判断模型的适用性,若模型选择的正确,残差图中的点应该比较均匀地落在比较均匀地落在 以横轴为中心的以横轴为中心的水平的带状区域中水平的带状区域中 带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高,带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高,说明选用的模型较合适。说明选用的模型较合适。2.用
24、相关指数用相关指数R2来刻画回归的效果:来刻画回归的效果:残差平方和残差平方和总体偏差平方和总体偏差平方和注意:注意:1)取值范围在取值范围在取值范围在取值范围在 0,1 0,1 之间,即之间,即之间,即之间,即0 R2 1 2)在线性回归模型中,在线性回归模型中,相关指数相关指数R2表示解析变量表示解析变量x对预报变量对预报变量y变化的贡献率。变化的贡献率。代表自变量刻画预报变量的能力。代表自变量刻画预报变量的能力。R2反映回归直线的拟合程度反映回归直线的拟合程度反映回归直线的拟合程度反映回归直线的拟合程度,是度量模型拟合效果的一种指标。,是度量模型拟合效果的一种指标。3)R2的值越大,说明
25、残差平方和越小,模型拟合效果越好的值越大,说明残差平方和越小,模型拟合效果越好 R2的值越小,说明残差平方和越大,模型拟合效果越好的值越小,说明残差平方和越大,模型拟合效果越好 4)R R2 2 1 1,说明回归方程拟合的越好,说明回归方程拟合的越好,说明回归方程拟合的越好,说明回归方程拟合的越好,表示解析变量表示解析变量x和预报变量和预报变量y的线性相的线性相 关性越强关性越强。R R2 20 0,说明回归方程拟合的越差,说明回归方程拟合的越差,说明回归方程拟合的越差,说明回归方程拟合的越差 5)如果某组数据可能采取几种不同回归方程进行回归分析,则可以通过如果某组数据可能采取几种不同回归方程
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 高中数学 选修 3.1 回归 分析 基本 思想 及其 初步 应用 人教版 课件
限制150内