一元线性回归模型及其应用课件——高二下学期数学人教A版(2019)选择性必修第三册.pptx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《一元线性回归模型及其应用课件——高二下学期数学人教A版(2019)选择性必修第三册.pptx》由会员分享,可在线阅读,更多相关《一元线性回归模型及其应用课件——高二下学期数学人教A版(2019)选择性必修第三册.pptx(55页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、一元线性回归模型及其应用一、一元线性回归模型14有人调查了 名男大学生的身高及其父亲的身高,得到的数据如表所示生活经验告诉我们,儿子的身高与父亲的身高不仅线性相关,而且还是正相关,即父亲的身高较高时,儿子的身高通常也较高。为了进一步研究两者之间的关系,表明儿子身高和父亲身高正线性相关,且相关程度较高。散点大致分布在一条从左下角到右上角的直线附近,再将表中的成对样本数据表示为散点图,如图所示以横轴表示父亲身高、纵轴表示儿子身高建立直角坐标系,0.886r 利用统计软件,求得样本相关系数为表明儿子身高和父亲身高线性相关。根据下表中的数据,儿子身高和父亲身高这两个变量之间的关系可以用函数模型刻画吗?
2、可见儿子身高和父亲身高之间不是函数关系,也就不能用函数模型刻画3,4170,173169.cmcmcm同样,第两个观测中,儿子身高都是而父亲身高分别为和68172,176174;cmcmcm例如,第 个和第 个观测的父亲身高均为而对应的儿子身高分别为和在上表的数据中,存在父亲身高相同,而儿子身高不同的情况思考其中,随机误差是一个随机变量如母亲身高、生活环境、饮食习惯等作为随机误差,而把影响儿子身高的其他因素,因此我们可以用一次函数来刻画父亲身高对儿子身高的影响,表明儿子身高和父亲身高这两个变量之间有较强的线性相关关系,散点图中的散点大致分布在一条直线附近,得到刻画两个变量之间关系的线性回归模型
3、。0 ,eYx如果那么 与 之间的关系就可用一元线性函数模型来描述2(1)( )0 ,( )YbxaeE eD e则它们之间的关系可以表示为2,方差为与父亲身高无关的定值xYe用 表示父亲身高, 表示儿子身高, 表示随机误差Yx模型中的 也是随机变量,其值虽然不能由变量 的值确定,eYbxa是 与之间的随机误差。abab和 为模型的未知参数, 称为截距参数, 称为斜率参数;x解释变量称为自变量或Y量因变其中, 称量为响应变或)(1Yx型我于一元为线称性们式关回归模的x前一部分由 所确定,后一部分是随机的bxae但是却能表示为与 的和(叠加),0e假的定机误差均值为随2(1)( )0 ,( )Y
4、bxaeE eD e11iiiYbxaeiijxY父亲身高都为 的所有男大学生的身高组成一个子总体,)(1xY对于父亲身高 和儿子身高 的一元线性回归模型22iiiYbxae33iiiYbxaeiniinYbxaen将上面 个式子累加 得()( )iiinYn bxanE eiiYbxa( )0iE e 2(1)( )0 ,( )YbxaeE eD e()iiiebxay这个观测值与均值有一个误差项它仅是该子总体中的一个观测值,,iiixybxa而对于父亲身高为的某一名男大学生,他的身高 并不一定为即该子总体的均值与父亲身高是线性函数关系。ibxa该子总体的均值为ix可以解释为父亲身高为的所有
5、男大学生的身高组成一个子总体,)(1xY对于父亲身高 和儿子身高的一元线性回归模型(1)你能结合具体实例解释产生模型中随机误差项的原因吗?思考(3)e实际问题中,我们不知道儿子身高和父亲身高的相关关系是什么,可以利用一元线性回归模型来近似这种关系,这种近似也是产生随机误差的原因e在研究儿子身高与父亲身高的关系时,产生随机误差的原因有:(2)在测量儿子身高时,由于测量工具、测量精度所产生的测量误差;(1)除父亲身高外,其他可能影响儿子身高的因素,比如母亲身高、生活环境、饮食习惯和锻炼时间等;练习1.说明函数模型与回归模型的区别,并分别举出两个应用函数模型和回归模型的例子举例:路程与速度的关系,正
6、方体体积与边长的关系可以应用函数模型刻画,体重与身高的关系、冷饮销售与气温的关系可以应用回归模型刻画即回归模型刻画的是两个变量之间的随机关系。回归模型刻画的是变量之间具有的相关关系不是一种确定性的关系,答:函数模型刻画的是变量之间具有的函数关系,是一种确定性的关系2,2(1)( )0( ).YbxaebE eD e中,参数 的含义是什么?在一元线性回归模型1751740.839cmcmcm例如,教科书中父亲身高为的儿子身高的均值比父亲身高为的儿子身高的均值高出1xYb变量 每增加 个单位,响应变量 的均值将增加 个单位。bxY答:参数 的含义可以解释为解释变量 对响应变量的均值的影响xYb所以
7、不能解释成解释变量 ,每增加一个单位,响应变量 增加 个单位Yxe注意:因为响应变量 最终取值,除了受变量 的影响,还要受随机误差 的影响,3.将图中的点按父亲身高的大小次序用折线连起来,所得到的图象是一个折线图可以用这条折线表示儿子身高和父亲身高之间的关系吗?二是这组数据仅是总体的一个样本,不一定能很好地描述两个变量之间的关系答:不能一是父亲的身高与儿子的身高之间是随机关系,不是函数关系因此通过成对样本数据估计这两个参数,相当于寻找一条适当的直线,利用散点图找出一条直线,使各散点在整体上与此直线尽可能接近二、一元线性回归模型参数的最小二乘估计abYx由模型的建立过程可知,参数 和 刻画了变量
8、 与变量 的线性关系,ab其中参数 和 未知,需要根据成对样本数据进行估计。YbxaeYx在一元线性回归模型中,表达式刻画的是变量 与变量 之间的线性相关关系,探究使表示成对样本数据的这些散点在整体上与这条直线最接近(1)有的同学可能会想,可以采用测量的方法,先画出一条直线,测量出各点与它的距离,然后移动直线,到达一个使距离的和最小的位置。测量出此时的斜率和截距,就可得到一条直线,如图所示(2)有的同学可能会想,可以在图中选择这样的两点画直线,使得直线两侧的点的个数基本相同,把这条直线作为所求直线,如图所示(3)还有的同学会想,在散点图中多取几对点,确定出几条直线的方程,再分别求出这些直线的斜
9、率、截距的平均数,将这两个平均数作为所求直线的斜率和截距如图所示然后用所有“距离”之和刻画所有样本观测数据与该直线的接近程度。上面这些方法虽然有一定的道理,但比较难操作,我们需要另辟蹊径来刻画散点与该直线的接近程度,ybxa通常,我们会想到利用点到直线的“距离”从成对样本数据出发,用数学的方法刻画“从整体上看,各散点与直线最接近”。先进一步明确我们面临的任务:(1,2, )iiiybxinae由得ybxa来刻画各样本观测数据与直线的“整体接近程度”1122(),(),(,)nnnx yxyxy我们设满足一元线性回归模型的两个变量的对样本数据为|()iiibxaye1()|iniibxany因此
10、,可以用这 个竖直距离之和 )0( ,iiiex y当时,表示点在这条直线上。ybxa即样本数据点离直线的竖直距离越小,)( ,),|(iiiiiex yx bxa显然越小,表示点与点的“距离”越小,:( ,)|cosiiil ybxaP x ylde设直线的倾斜角为则点到直线 的距离,Qa b作为截距和斜率的估计值。下面利用成对样本数据求使取最小值的11niiyynQabab所以由 和 所决定,即它是 和 的函数。(1 ,2 ,),iixiyn在上式中,是已知的成对样本数据,21()niiiQybxa所以人们通常用各散点到直线的竖直距离的平方之和来刻画“整体接近程度”在实际应用中,因为绝对值
11、使得计算不方便,Qab所以我们取使达到最小的 和 的值,21,niiQe因为还可以表示为即它是随机误差的平方和,这个和当然越小越好,11niixxn01()()()niiiybxayyb xx1()()()niiiyyb xxybxa2112()()2()()()()nniiiiiiyyb xxyyb xxybxan ybxa21()()()niiiyyb xxybxa21()()niiiybxybxybxa21( , )()niiiQ a bybxa()()()ybxanynyb nxnx11()()()nniiiiybxayybxx121()()(2)()niiiniiabxxyybxxa
12、ybxQ 综上知,当 , 的取值为时,达到最小21( , )()()niiiQ a byyb xxaybx即0Q要使取得最小值,后一项的值应为na上式右边各项均为非负数,且前项与无关221( , )()()()niiiQ a byyb xxn ybxa121()()()niiiniixxyybxxQb因此要使取得最小值,当且仅当 的取值为b上式是关于 的二次函数,222111()2()()()nnniiiiiiibxxbyyxxyy此时1221niiiniix ynx yxnx,b ab a求得的。叫做的最小二乘估计这里的“”二乘是平方的意思0.83928.957yx这种求经验回归方程的方法叫
13、做最小二乘法其图形称为经验回归直线。也称经验回归函数或经验回归公式,ybxaYx我们将称为 关于 的经验回归方程,相应的经验回归直线如图所示0.83928.957Yxyx得到儿子身高 关于父亲身高 的经验回归方程为(20.83928.)957ba本题中,利用公式可以计算出176177.176,177xycmcm当时,如果一位父亲的身高为他儿子长大成人后的身高一定是吗?为什么?英国著名统计学家高尔顿把这种后代的身高向中间值靠近的趋势称为“回归现象”后来,人们把由一个变量的变化去推测另一个变量的变化的方法称为回归分析。177cm那么是这个子总体的均值的估计值思考176cm实际上,如果把这所学校父亲
14、身高为的所有儿子身高作为一个子总体,176177cmcm不过,我们可以作出推测,当父亲身高为时,儿子身高一般在左右父亲身高不能完全决定儿子身高。因为还有其他影响儿子身高的因素,显然不一定,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析。10.839cmcm其斜率可以解释为父亲身高每增加,其儿子身高平均增加0.83928.957yx这里的经验回归方程170,171.58)7(.()xycmcm例如则矮个子父亲有生矮个子儿子的趋势,185,184.17)2(;()xycmcm例如则但一群高个子父亲的儿子们的平均身高要低于父亲们的平均身高,分析模型还可以发现,高个子父亲有生高个子儿子的
15、趋势,通过对残差的分析可以判断模型刻画数据的效果,残差是随机误差的估计结果,观测值减去预测值称为残差。y通过经验回归方程得到的称为预测值,,Y对于响应变量通过观测得到的数据称为观测值,176 173.26)52.7(35 cm残差为66172,17)6(cmycm例如,本题中第 个观测,父亲身高为其儿子身高的观测值为60.839 17228.957173.265,()cmy 预测值为类似地,可以得到其他的残差,如下表所示为了使数据更加直观,用父亲身高作为横坐标,残差作为纵坐标,可以画出残差图4.413观察右表可以看到,残差有正有负,残差的绝对值最大是20说明残差比较符合一元线性回归模型的假定,
16、是均值为 、方差为的随机变量的观测值观察残差的散点图可以发现,残差比较均匀地分布在横轴的两边。可见,通过观察残差图可以直观判断模型是否满足一元线性回归模型的假设借助残差分析还可以对模型进行改进,使我们能根据改进模型作出更符合实际的预测与决策一般地,建立经验回归方程后,通常需要对模型刻画数据的效果进行分析。思考观察下图中四幅残差图,你认为哪一个残差满足一元线性回归模型中对随机误差的假定?)(2图显示残差与观测时间有非线性关系,应在模型中加入时间的非线性函数部分;)(1图显示残差与观测时间有线性关系,应将时间变量纳入模型;20残差应是均值为、方差为的随机变量的观测值根据一元线性回归模型中对随机误差
17、的假定,( )4可见,只有图满足一元线性回归模型对随机误差的假设(40)图的残差比较均匀地分布在以取值为的横轴为对称轴的水平带状区域内。)(3图说明残差的方差不是一个常数,随观测时间变大而变大;1.abab对一元线性回归模型参数 和 的估计中,有人认为:估计方法不止一种,根据不同的样本观测数据到直线“整体接近程度”的定义,可以得到参数 和 不同的估计,只要“整体接近程度”定义合理即可。你觉得这个说法对吗?练习1|niiiybxaab也可以用刻画“整体接近程度”得到参数和的估计,二者估计的结果一般不同21()niiiybxaab例如,我们可以用刻画“整体接近程度”得到参数和 的最小二乘估计,ab
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一元 线性 回归 模型 及其 应用 课件 下学 期数 学人 2019 选择性 必修 第三
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内