回归分析的基本思想及其初步应用三课时.ppt
3.1 3.1 回归分析的基本回归分析的基本思想及其初步应用思想及其初步应用问题问题1:正方形的面积:正方形的面积y与正方形的边长与正方形的边长x之间的之间的函数关系函数关系是是y=x2确定性关系确定性关系问题问题2:某水田水稻产量:某水田水稻产量y与施肥量与施肥量x之间之间是否有一个确定性的关系?是否有一个确定性的关系?变量之间的两种关系变量之间的两种关系 自变量取值一定时,因变量的取值带自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做有一定随机性的两个变量之间的关系叫做相关关系相关关系.定义定义:注:(注:(1)相关关系是一种不确定性关系;)相关关系是一种不确定性关系;(2)对具有相关关系的两个变量进行统)对具有相关关系的两个变量进行统计分析的方法叫计分析的方法叫回归分析回归分析.10 20 30 40 50500450400350300施化肥量施化肥量x 15 20 25 30 35 40 45水稻产量水稻产量y 330 345 365 405 445 450 455xy施化肥量施化肥量水稻产量水稻产量思考思考1:水稻产量水稻产量y与施肥量与施肥量x之间大致有之间大致有何规律?何规律?散点图散点图发现:图中各点,大致分布在某条直线附近发现:图中各点,大致分布在某条直线附近.思考思考2:在这些点附近可画不止一条直线,在这些点附近可画不止一条直线,哪条直线最能代表哪条直线最能代表x与与y之间的关系呢?之间的关系呢?如果散点图中点的分布从整体上看大致在如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫做线性相关关系,这条直线叫做回归直线回归直线。回归直线方程回归直线方程对于一组具有线性相关的数据对于一组具有线性相关的数据其回归直线方程为其回归直线方程为最最小小二二乘乘估估计计回归直线过样本点的中心。回归直线过样本点的中心。称为称为样本点的中心样本点的中心.求回归直线方程的步骤:求回归直线方程的步骤:(3)代入公式)代入公式(4)写出直线方程为)写出直线方程为y=bx+a,即为所求的回归直线方程。即为所求的回归直线方程。试一试试一试:下表是下表是x和和y之间的一组数据,则之间的一组数据,则y关于关于x的线性回的线性回归方程必过归方程必过 ().x1234y1357A点点(2,3)B点点(1.5,4)C点点(2.5,4)D点点(2.5,5)练习、观察两相关量得如下数据练习、观察两相关量得如下数据:x-1-2-3-4-553421y-9-7-5-3-115379求两变量间的回归方程求两变量间的回归方程.解:列表:解:列表:i12345678910 xi-1-2-3-4-553421yi-9-7-5-3-115379xiyi9141512551512149所求回归直线方程为所求回归直线方程为3.1 3.1 回归分析的基本回归分析的基本思想及其初步应用思想及其初步应用第二课时第二课时例例1 从某大学中随机选出从某大学中随机选出8 8名女大学生,其身高名女大学生,其身高和体重数据如下表:和体重数据如下表:编号编号1 12 23 34 45 56 67 78 8身高身高 165165 165165157157 170170 175175165165 155155 170170体重体重48485757505054546464616143435959求根据女大学生的身高预报体重的回归方程,求根据女大学生的身高预报体重的回归方程,并预报一名身高为并预报一名身高为172172的女大学生的体重的女大学生的体重.例例1 从某大学中随机选出从某大学中随机选出8 8名女大学生名女大学生解:解:由于问题中要求根据身高预报体重,因此由于问题中要求根据身高预报体重,因此选取身高为自变量选取身高为自变量x,体重为因变量,体重为因变量y.作散点图作散点图由散点图可知,身高和体重有比较好的线性相由散点图可知,身高和体重有比较好的线性相关关系,设回归直线方程为关关系,设回归直线方程为由系数公式得由系数公式得所以回归方程为所以回归方程为对于身高对于身高172cm的女大学生,可以预报其体重为的女大学生,可以预报其体重为1.确定变量;确定变量;2.作散点图,判断相关关系;作散点图,判断相关关系;3.设回归方程;设回归方程;4.求回归方程;求回归方程;5.根据回归方程作出预报根据回归方程作出预报.解答步骤:解答步骤:探究探究 身高为身高为172cm的女大学生的体重一定的女大学生的体重一定是是60.316kg吗?吗?如果不是,如果不是,请请解析一下原因解析一下原因。实际上,实际上,60.316kg是身高为是身高为172cm的女大的女大学生的平均体重的估计值学生的平均体重的估计值,而不一定是这位,而不一定是这位身高身高172cm的女大学生的真实体重。也就是的女大学生的真实体重。也就是说,身高为说,身高为172cm的女大学生的平均体重的女大学生的平均体重大约是大约是60.316kg,并且大部分,并且大部分172cm的女大的女大学生的体重在学生的体重在60.316kg附近。附近。原因:由于所有的样本点不共线,而只是散布原因:由于所有的样本点不共线,而只是散布在某一条直线的附近,所以用身高和体重会产在某一条直线的附近,所以用身高和体重会产生误差。生误差。这样线性回归模型的完整表达式为这样线性回归模型的完整表达式为随机误差随机误差e的方差越小的方差越小,用,用bx+a预报真实值预报真实值y的的精度越高精度越高。由于随机误差由于随机误差e的均值为的均值为0.故采用方差来衡量故采用方差来衡量随机误差的大小。随机误差的大小。在线性回归模型在线性回归模型y=bx+a+e中,中,y的值由的值由x和随机误差和随机误差e共同确定,即共同确定,即x只能只能解释部分解释部分y的变化,因此,我们把的变化,因此,我们把x称为解释变量称为解释变量,把把y称为预报变量称为预报变量.当随机误差当随机误差e恒等于恒等于0时,线性回归模型就变时,线性回归模型就变成一次函数模型。即:成一次函数模型。即:一次函数模型是线性回归模型的特殊形式。一次函数模型是线性回归模型的特殊形式。例如:编号为6的女大学生,计算随机误差的 效应(残差)61(0.84916585.712)=6.627思考思考 如何发现数据中的错误?如何衡如何发现数据中的错误?如何衡量模型的拟合效果量模型的拟合效果.,.,;,.,61,31.1越高回归方程的预报精确度拟合精度越高说明模型区域的宽度越窄均匀地落在水平的带状残差点比较另外则需要寻找其他的原因没有错误如果数据采集合数据归模型拟性回利用线然后再重新予以纠正就果数据采集有错误如是否有人为的错误点的过程中两个样本需要确认在采集这大个样本点的残差比较个样本点和第第出中可以看从图-已知某种商品的价格已知某种商品的价格x(元元)与需求量与需求量y(件件)之之间间的关系的关系有如下一有如下一组组数据:数据:【变式变式2】x1416182022y1210753求求y对对x的回的回归归直直线线方程,并方程,并说说明回明回归归模型模型拟拟合效果的好坏合效果的好坏题型题型二二线性回归分析线性回归分析00.30.40.10.24.62.60.42.44.4练习:在一化学反应过程中,化学物质的反应速度练习:在一化学反应过程中,化学物质的反应速度y(g/min)与一种催化剂的量与一种催化剂的量x(g)有关,现收集了有关,现收集了8组观测数据列于表中:组观测数据列于表中:催化剂的量催化剂的量x(g)15182124 27303336化学物质的反化学物质的反应速度应速度y(g/min)683027 7020565350试建立试建立y与与x之间的回归方程之间的回归方程.作业:作业:P90习题习题3.1第第3题题 某班某班5名学生的数学和物理成名学生的数学和物理成绩绩如下表:如下表:【练习练习】学生学生 学科学科ABCDE数学成数学成绩绩(x)8876736663物理成物理成绩绩(y)7865716461(1)画出散点画出散点图图;(2)求物理成求物理成绩绩y对对数学成数学成绩绩x的回的回归归直直线线方程;方程;(3)一名学生的数学成一名学生的数学成绩绩是是96,试预测试预测他的物理成他的物理成绩绩思路探索思路探索 先利用散点图分析物理成绩与数学成绩是否线先利用散点图分析物理成绩与数学成绩是否线性相关,若相关再利用线性回归模型求解性相关,若相关再利用线性回归模型求解解解(1)散点散点图图如如图图所以所以y对对x的回的回归归直直线线方程是方程是 0.625x22.05.(3)x96,则则 0.6259622.0582,即可以即可以预测预测他的物理成他的物理成绩绩是是82.规律方法规律方法(1)散点图是定义在具有相关关系的两个变量基散点图是定义在具有相关关系的两个变量基础上的,对于性质不明确的两组数据,可先作散点图,在础上的,对于性质不明确的两组数据,可先作散点图,在图上看它们有无关系,关系的密切程度,然后再进行相关图上看它们有无关系,关系的密切程度,然后再进行相关回归分析回归分析(2)求回归直线方程,首先应注意到,只有在散点图大致呈求回归直线方程,首先应注意到,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则,求出线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义的回归直线方程毫无意义