选修回归分析基本思想及其初步应用精华.pptx
问题1:正方形的面积y与正方形的边长x之间 的函数关系函数关系是y=x2确定性关系问题2:某水田水稻产量y与施肥量x之间是否 有一个确定性的关系?例如:在 7 块并排、形状大小相同的试验田上 进行施肥量对水稻产量影响的试验,得 到如下所示的一组数据:施化肥量x 15 20 25 30 35 40 45水稻产量y 330 345 365 405 445 450 455复习复习 变量之间的两种关系变量之间的两种关系第1页/共25页10 20 30 40 50500450400350300施化肥量x 15 20 25 30 35 40 45水稻产量y 330 345 365 405 445 450 455xy施化肥量水稻产量第2页/共25页 自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系相关关系。1、定义、定义:1):相关关系是一种不确定性关系;注注对具有相关关系的两个变量进行统计分析的方法叫回归分析回归分析。2):第3页/共25页 现实生活中存在着大量的相关关系。如:人的身高与年龄;如:人的身高与年龄;产品的成本与生产数量;产品的成本与生产数量;商品的销售额与广告费;商品的销售额与广告费;家庭的支出与收入。等等家庭的支出与收入。等等探索:水稻产量y与施肥量x之间大致有何规律?第4页/共25页10 20 30 40 50500450400350300发现:图中各点,大致分布在某条直线附近。探索2:在这些点附近可画直线不止一条,哪条直线最能代表x与y之间的关系呢?施化肥量x 15 20 25 30 35 40 45水稻产量y 330 345 365 405 445 450 455xy散点图散点图施化肥量水稻产量第5页/共25页探究探究对于一组具有线性相关关系的数据我们知道其回归方程的截距和斜率的最小二乘估计公式分别为:称为样本点的中心。称为样本点的中心。第6页/共25页1、所求直线方程叫做回归直线方程回归直线方程;相应的直线叫做回归直线回归直线。2、对两个变量进行的线性分析叫做线性回归分析线性回归分析。1、回归直线方程、回归直线方程第7页/共25页2、求回归直线方程的步骤:、求回归直线方程的步骤:(3)代入公式(4)写出直线方程为y=bx+a,即为所求的回归直线方程。第8页/共25页例例1 1、观察两相关量得如下数据、观察两相关量得如下数据:x-1-2-3-4-553421y-9-7-5-3-115379求两变量间的回归方程求两变量间的回归方程.解:列表:解:列表:i12345678910 xi-1-2-3-4-553421yi-9-7-5-3-115379xiyi9141512551512149第9页/共25页所求回归直线方程为所求回归直线方程为第10页/共25页 假设随机误差对体重没有影响,也就是说,体重仅受身高的影响,那么散点图中所有的点将完全落在回归直线上。但是,在图中,数据点并没有完全落在回归直线上。这些点散布在回归直线附近。那么,数据点和它在回归直线上相应位置的差异 是随机误差的效应,称 为残差。第11页/共25页表3-2列出了女大学生身高和体重的原始数据以及相应的残差数据。编号编号12345678身高身高/cm165165157170175165155170体重体重/kg4857505464614359残差残差-6.3732.6272.419-4.6181.1376.627-2.8830.382 (一)我们可以利用图形来分析残差特性,作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图。3 3、残差分析:第12页/共25页残差图的制作及作用残差图的制作及作用1 1、坐标纵轴为残差变量,横轴可以有不同的选择;、坐标纵轴为残差变量,横轴可以有不同的选择;2 2、若模型选择的正确,残差图中的点应该分布在以横、若模型选择的正确,残差图中的点应该分布在以横轴为心的带形区域;轴为心的带形区域;3 3、对于远离横轴的点,要特别注意。、对于远离横轴的点,要特别注意。身高与体重残差图异常点 错误数据 模型问题第13页/共25页表3-2列出了女大学生身高和体重的原始数据以及相应的残差数据。编号编号12345678身高身高/cm165165157170175165155170体重体重/kg4857505464614359残差残差-6.3732.6272.419-4.6181.1376.627-2.8830.382 (一)我们可以利用图形来分析残差特性,作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图。3 3、残差分析:(二)第14页/共25页例例2 在一段时间内,某中商品的价格x元和需求量Y件之间的一组数据为:求出Y对的回归直线方程,并说明拟合效果的好坏。价格价格x1416182022需求量需求量Y1210753列出残差表为0.994因而,拟合效果较好。00.3-0.4-0.10.24.62.6-0.4-2.4-4.4第15页/共25页例例3 关于x与y有如下数据:有如下的两个线性模型:(1);(2)试比较哪一个拟合效果更好。x24568y3040605070第16页/共25页7、一般地,建立回归模型的基本步骤为:、一般地,建立回归模型的基本步骤为:(1)确定研究对象,明确哪个变量是解析变量,哪个变量是预报变量。(2)画出确定好的解析变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等)。(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程y=bx+a).(4)按一定规则估计回归方程中的参数(如最小二乘法)。(5)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差呈现不随机的规律性,等等),过存在异常,则检查数据是否有误,或模型是否合适等。第17页/共25页什么是回归分析?什么是回归分析?(内容)(内容)1.从一组样本数据出发,确定变量之间的数学关系式2.对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著3.利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度第18页/共25页回归分析与相关分析的区别回归分析与相关分析的区别1.相相关关分分析析中中,变变量量 x x 变变量量 y y 处处于于平平等等的的地地位位;回回归归分分析析中中,变变量量 y y 称称为为因因变变量量,处处在在被被解解释释的的地地位位,x x 称称为为自自变变量量,用用于于预预测测因因变变量量的的变化变化2.相相关关分分析析中中所所涉涉及及的的变变量量 x x 和和 y y 都都是是随随机机变变量量;回回归归分分析析中中,因因变变量量 y y 是是随随机机变变量量,自自变变量量 x x 可可以以是是随随机机变变量量,也也可可以以是是非非随随机机的的确定变量确定变量3.相相关关分分析析主主要要是是描描述述两两个个变变量量之之间间线线性性关关系系的的密密切切程程度度;回回归归分分析析不不仅仅可可以以揭揭示示变变量量 x x 对对变变量量 y y 的的影影响响大大小小,还还可可以以由由回回归归方方程程进进行行预测和控制预测和控制 第19页/共25页 例例3 3、炼钢是一个氧化降碳的过程,钢水含碳量的多少、炼钢是一个氧化降碳的过程,钢水含碳量的多少直接影响冶炼时间的长短,必须掌握直接影响冶炼时间的长短,必须掌握钢水含碳量和冶炼钢水含碳量和冶炼时间的关系。如果已测得炉料熔化完毕时,钢水的含碳时间的关系。如果已测得炉料熔化完毕时,钢水的含碳量量x与冶炼时间与冶炼时间y(从炉料熔化完毕到出刚的时间)的一(从炉料熔化完毕到出刚的时间)的一列数据,如下表所示:列数据,如下表所示:x(0.01%)104180190177147134150191204121y(min)100200210185155135170205235125(1 1)y y与与x x是否具有线性相关关系;是否具有线性相关关系;(2 2)如果具有线性相关关系,求回归直线方程;)如果具有线性相关关系,求回归直线方程;(3 3)预测当钢水含碳量为)预测当钢水含碳量为160160个个0.01%0.01%时,应冶炼多少分时,应冶炼多少分钟?钟?第20页/共25页如何描述两个变量之间线性相关关系的强弱如何描述两个变量之间线性相关关系的强弱?在数学3中,我们学习了用相关系数r来衡量两个变量之间线性相关关系的方法。相关系数r正相关;负相关。通常,r0.75或r-0.75认为两个变量有很强的相关性第21页/共25页相关关系的测度(相关系数取值及其意义)(相关系数取值及其意义)-1.0+1.00-0.5+0.5完全负相关完全负相关无线性相关无线性相关完全正相关完全正相关负相关程度增加负相关程度增加r正相关程度增加正相关程度增加第22页/共25页(1)(1)列出下表列出下表,并计算并计算i12345678910 xi104180190177147134150191204121yi100200210185155135170205235125xiyi10400360003990032745227851809025500391554794015125故,钢水含碳量与冶炼时间具有很强线性相关性第23页/共25页所以回归直线的方程为所以回归直线的方程为 =1.267x-30.51(3)(3)当当x=160 x=160时时,1.267.160-30.51=172,1.267.160-30.51=172(2)设所求的回归方程为第24页/共25页感谢您的观看!第25页/共25页