金学案高中数学北师大版选修12精品学案第一章统计案例第1课时回归分析.doc
第1课时回 归 分 析1.会对两个变量的相关关系进行分析、判断.2.了解回归分析的基本思想,会对两个变量的具体问题进行回归分析.3.掌握运用最小二乘法建立回归模型的基本步骤和方法.重点:熟练掌握回归分析,建立回归模型,求各相关指数的步骤.难点:如何求回归直线方程以及对相关系数r的理解和运用.我们每个人都有自己的身高和体重,那么如果把身高和体重分别作为变量,它们能够构成函数关系吗?问题1:散点图在考虑两个量的关系时,为了对变量之间的关系有一个大致的了解,人们通常将变量所对应的点描出来,这些点就组成了变量之间的一个图,通常称这种图为变量之间的散点图.问题2:相关关系与线性回归相关关系:对于两个变量,当自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系称为相关关系.相关关系分为线性相关和非线性相关. 函数关系中的两个变量间是一种确定性关系,相关关系是一种非确定性关系. 线性回归:对具有相关关系的两个变量进行统计分析的一种常用方法. 问题3:线性相关系数r=称为两个变量数据(xi,yi)(i=1,2,n)的线性相关系数.r用来刻画两个变量的线性回归效果:当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关;r的绝对值越接近于0时,表明两个变量之间越不存在线性相关关系. 问题4:线性回归分析的步骤对于一组具有线性相关关系的数据:(x1,y1),(x2,y2),(xn,yn).(1)画散点图:看散点图是否呈条状分布. (2)求回归直线方程(最小二乘法): b=, =xi,=yi,其中(,)为样本中心点,回归直线方程必经过样本中心点(,),得a= -b; (3)得出相关结论:回归直线方程为y=a+bx,利用回归直线方程进行预测. “一只蝴蝶在巴西扇动翅膀,有可能会在美国的德克萨斯州引起一场龙卷风.”这就是洛伦兹1979年12月在华盛顿的“美国科学促进会”上的一次演讲中提出的“蝴蝶效应”.这次演讲给人们留下了极其深刻的印象.从此以后,所谓“蝴蝶效应”之说就不胫而走,名声远扬.“蝴蝶效应”之所以令人着迷、令人激动、发人深省,不但在于其大胆的想象力和迷人的美学色彩,而且在于其深刻的科学内涵和内在的哲学魅力.1.下列关系不属于相关关系的是().A.父母的身高与子女的身高B.人的身高与体重C.居民的收入与消费D.正方体的表面积和体积【解析】相关关系是一种非确定性关系,而D项是确定的关系,为函数关系,故选D.【答案】D2.设两个变量x与y之间具有线性相关关系,相关系数是r,回归方程为y=a+bx,那么必有().A.b与r符号相同B.a与r符号相同C.b与r符号相反D.a与r符号相反【解析】因为b与r的分母均为正,且分子相同,所以b与r同号.【答案】A3.某医院用光电比色检验尿汞时,得到尿汞含量x(毫克/升)与消化系数y的一组数据如下表:尿汞含量x246810消化系数y64138205285260若x与y具有线性相关关系,则回归直线方程是. 【解析】利用公式b=26.95,a=-b=28.7,从而回归直线方程为y=26.95x+28.7.【答案】y=26.95x+28.74.某10名同学的数学、物理、语文成绩如下表:数学13612512287108113111709474物理107919276938582787873语文861141041091001061121049599试分别研究他们的数学成绩与物理成绩的关系、数学成绩与语文成绩的关系,你能发现什么规律?【解析】可求出物理成绩与数学成绩的相关系数r0.87,从而认为物理成绩与数学成绩之间具有很强的线性相关关系.而由语文成绩与数学成绩的相关系数|r|0.092很接近0,说明语文成绩与数学成绩不具有线性相关关系.因此,数学成绩好的同学,一般来说物理成绩也较好,它们之间的联系较紧密,而数学成绩好的同学,语文成绩可能好也可能差,它们之间的关系不大.相关关系的判断与分析有下列关系:人的年龄与他(她)拥有的财富之间的关系;曲线上的点与该点的坐标之间的关系;苹果的产量与气候之间的关系;森林中的同一种树木,其断面直径与高度之间的关系;学生与他(她)的学号之间的关系.其中有相关关系的是(填写你认为正确的序号). 【方法指导】根据相关关系的概念进行判断.【解析】序号关系理由相关关系人的年龄和他(她)的财富有一定的关系,一般中年人财富多,年轻人少,少儿基本没有函数关系曲线上的点与其坐标一一对应,是确定的相关关系气候能影响苹果的产量相关关系同一种树木,其断面直径和高度之间有一定的关系,但不确定对应关系确定的一一对应关系【答案】【小结】相关关系是一种非确定性关系,是指两个变量之间有关系,但是两者之间的关系还受其他因素的影响,只是影响大小的问题.回归直线过样本中心点(,)的性质的应用观察两个相关变量的如下数据:x-1-2-3-4-554321y-0.9-2-3.1-3.9-5.154.12.92.10.9则两个变量间的回归直线方程为().A.y=0.5x-1B.y=xC.y=2x+0.3D.y=x+1【方法指导】根据回归直线方程y=a+bx经过样本中心点(,)可计算出结果.【解析】=0,=0,回归直线方程经过样本中心点(,),代入所给选项中检验,可知,只有y=x符合条件.【答案】B先判定相关性,再求回归直线方程某种图书每册的成本费y(元)与印刷册数x(千册)有关,经统计得到数据如下:x123510203050100200y10.155.524.082.852.111.621.411.301.211.15检验每册书的成本费y与印刷册数的倒数之间是否有线性相关关系?如果有,求出y对x的回归方程.【方法指导】本题是非线性回归分析问题,不妨设变量u=,题意要求对u与y作相关性检验,如果它们具有线性相关关系,就可以进一步求出y对u的回归直线方程,这时,再回代u=,就得到了y对x的回归曲线方程.【解析】将上表数据列表分析如下:i12345678910xi123510203050100200421yi10.155.524.082.852.111.621.411.301.211.1531.4149251004009002500100004000053939103.0330.4716.658.124.452.621.991.691.461.32171.8xiyi10.1511.0412.2414.2521.132.442.365121230559.48=42.1,=1772.41,=3.14,n=10,10=1321.94,可以求得r=0.9998,由r=0.9998,因此变量y与之间具有较强的线性相关关系.b=-0.02,a=-b=3.14-(-0.02)×42.1=3.98.y与x的回归方程为y=3.98-0.02x.问题当x=1时,由回归方程得y=3.96,而实际上y=10.15,为什么有这么大的偏差?上述回归方程是y与x的回归方程吗?结论因为y与之间具有较强的线性相关关系,而y与x之间没有明显的线性相关关系,故应先通过变量变换(即换元),令u=,并通过对u与y作相关性检验,求出y对u的回归直线方程,最后再回代u=,得到y对x的回归方程.于是正确解如下:首先作变量变换,令u=,则题目所给数据变成如下表所示的数据:ui10.50.330.20.10.050.030.020.010.005yi10.155.524.082.852.111.621.411.301.211.15可以求得r0.9998,因此变量y与u之间具有较强的线性相关关系,并且b8.973,a=-b1.125,最后回代u=可得y=+1.125.因此y与x的回归方程为y=+1.125.【小结】本题中y与x之间不具有线性相关关系,因而是非线性回归分析问题,对此类回归分析问题,应先求线性相关系数r,利用r来判断两个变量之间是否具有线性相关关系.当|r|越接近1时,认为线性相关关系越强,可以求回归直线方程,并可用求得的回归直线方程来预测变量的取值;当|r|越接近0时,认为两个变量之间线性相关关系越不显著,这时求回归直线方程没有多大的实际价值,要采用变量变换(即换元法)转化为线性回归问题求解.由施肥量x与水稻产量y试验数据的关系,画出散点图,并指明相关性.施化肥量x15202530354045水稻产量y330345365405445450455【解析】散点图为:通过图像可知是正相关.已知x、y的取值如表所示,若从散点图分析,y与x线性相关,且y=0.95x+a,求a的值.x01234y2.24.34.84.86.7【解析】由表中数据得=2,=4.56,由于线性回归方程一定经过样本中心点(,),即(2,4.56),在回归直线方程y=bx+a中,代入点(2,4.56)得a=-b=4.56-0.95×2=2.66.10名同学在高一和高二的数学成绩如下表:x74717268767367706574y76757170767965776272其中x为高一数学成绩,y为高二数学成绩.(1)y与x是否具有相关关系;(2)如果y与x具有相关关系,求回归直线方程.【解析】(1)由已知表格中的数据,利用计算器进行计算得=71,=72.3,xiyi=51467,=50520,=52541.则r=0.78.即认为x与y之间具有线性相关关系.(2)y与x具有线性相关关系,设回归直线方程为y=a+bx,则b=1.22,a=-b=72.3-1.22×71=-14.32,所以y关于x的回归直线方程为y=1.22x-14.32.1.对相关系数r,下列说法正确的是().A.r越大,两变量的线性相关程度越大B.r越小,两变量的线性相关程度越大C.|r|越大,两变量的线性相关程度越大;|r|越小,两变量的线性相关程度越小D.|r|1,且|r|越接近1,两变量的线性相关程度越大;|r|越接近0,两变量的线性相关程度越小【解析】由两个变量的相关系数公式r=可知,相关程度的强弱与|r|和1的接近程度有关,|r|越接近1,两变量的线性相关程度越大,|r|越接近0,两变量的线性相关程度越小.【答案】D2.工人月工资y(元)关于劳动生产率x(千元)的回归方程为y=650+80x,下列说法正确的个数是().劳动生产率为1000元,工资约为730元;劳动生产率提高1000元,则工资约提高80元;劳动生产率提高1000元,则工资约提高730元;当月工资为810元,劳动生产率约为2000元.A.1B.2C.3D.4【解析】正确,注意单位的一致性,故选C.【答案】C3.若预报体重y(kg)和身高x(cm)之间的线性回归方程为y=0.849x-85.712,如果要找到体重为41.638 kg的人,(填“一定”或“不一定”)在身高为150 cm的人群中. 【解析】体重不仅受身高的影响,还受其他因素的影响.【答案】不一定4.某个体服装店经营某种服装,一周内获纯利润y(元)与该周每天销售这种服装的件数x之间的一组数据如下:x3456789y66697381899091已知=280,=45309,xiyi=3487.(1)求,;(2)一周内获纯利润y与该周每天销售件数x之间是否线性相关?如果线性相关,求出回归直线方程.【解析】(1)=(3+4+5+6+7+8+9)=6,=(66+69+73+81+89+90+91)79.86.(2)根据已知=280,=45309,xiyi=3487,得相关系数r=0.973.所以纯利润y与每天销售件数x之间具有显著的线性相关关系.利用已知数据可求得回归直线方程为y=4.746x+51.386.(2013年·湖南卷)四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论: y与x负相关且y=2.347x-6.423; y与x负相关且y=-3.476x+5.648; y与x正相关且y=5.437x+8.493; y与x正相关且y=-4.326x-4.578.其中一定不正确的结论的序号是().A.B.C.D.【解析】由正相关、负相关的性质可知在中,斜率为2.347>0,不可能负相关;在中,斜率为-4.326<0,不可能正相关,故一定不正确.选D.【答案】D 1.下列两个变量之间的关系是相关关系的是().A.圆的面积与半径B.球的体积与半径C.角度与它的正弦值D.一个考生的数学成绩与物理成绩【解析】由题意知A表示圆的面积与半径之间的关系S=r2;B表示球的体积与半径之间的关系V=r2;C表示角度与它的正弦值y=sin ,以上所说的都是确定的函数关系,相关关系不是确定性的关系,故选D.【答案】D2.在对两个变量x,y进行线性回归分析时有下列步骤:对所求出的回归方程作出解释;收集数据(xi,yi),其中i=1,2,n;求线性回归方程;求相关系数;根据所搜集的数据绘制散点图.如果根据可靠性要求能够作出变量x,y具有线性相关结论,那么在下列操作顺序中正确的是().A.B.C.D.【解析】根据线性回归分析思想可知,两个变量x,y进行线性回归分析时,应先收集数据(xi,yi),然后绘制散点图,再求相关系数和线性回归方程,最后对所求的回归方程作出解释,因此选D.【答案】D3.如图所示有5组数据,去掉后,剩下的4组数据的线性相关性更强. 【解析】根据散点图判定两变量的线性相关性,样本数据点越集中在某一直线附近,这两变量的线性相关性越强,显然去掉D(3,10)后,其余各点更能集中在某一直线附近,即线性相关性更强.【答案】D(3,10)4.一个工厂在某年里每月产品的总成本y(万元)与该月产量x(万件)之间由如下一组数据:x1.081.121.191.281.361.481.591.681.801.871.982.07y2.252.372.402.552.642.752.923.033.143.263.363.50(1)画出散点图;(2)检验相关系数r的显著性水平;(3)求月总成本y与月产量x之间的回归直线方程.【解析】i123456789101112xi1.081.121.191.281.361.481.591.681.801.871.982.07yi2.252.372.402.552.642.752.923.033.143.263.363.50xiyi2.432.6542.8563.2643.5904.074.6435.0905.6526.0966.6537.245=,=,=29.808,=99.2081,xiyi=54.243(1)画出散点图,如图所示.(2)r=0.99,这说明每月产品的总成本y(万元)与该月产量x(万件)之间存在显著的线性相关关系.(3)设回归直线方程y=bx+a,利用计算a,b,得b1.215, a=-b0.974,即回归直线方程为y=1.215x+0.974.5.设一个回归方程为y=3-5x,当变量x增加一个单位时().A.y平均增加3个单位B.y平均减小5个单位C.y平均增加5个单位D.y平均减小3个单位【解析】-5是斜率的估计值,说明x每增加一个单位,y平均减少5个单位.【答案】B6.对于一组具有线性相关关系的数据(x1,y1),(x2,y2),(xn,yn),其回归方程的截距为().A.a=y+bxB.a=+bC.a=y-bxD.a=-b【解析】回归直线方程中的截距即为a,由公式=b+a得a=-b,故选D.【答案】D7.许多因素都会影响贫穷,教育也许是其中之一,在研究这两个因素的关系时收集了美国50个州的成年人受过9年或更少教育的百分比(x)和收入低于官方规定的贫困线的人数占本州人数的百分比(y)的数据,建立的回归直线方程为y=0.8x+4.6,则成年人受过9年或更少教育的百分比(x)和收入低于官方的贫困线的人数占本州人数的百分比(y)之间的相关系数.(填“大于0”或“小于0”) 【解析】一个地区受过9年或更少教育的百分比每增加1%,收入低于官方规定的贫困线的人数占本州人数的百分比将增加0.8%左右.【答案】大于08.假设关于某设备的使用年限x和所支出的维修费用y(万元)有如下的统计资料:使用年限x23456维修费用y2.23.85.56.57.0若由资料知y对x呈线性相关关系.试求:(1)线性回归方程y=bx+a的回归系数a,b;(2)估计使用年限为10年时的维修费用.【解析】(1)制表如下:i12345合计xi2345620yi2.23.85.56.57.025xiyi4.411.422.032.542.0112.34916253690=4,=5,=90,xiyi=112.3于是b=1.23,a=-b=5-1.23×4=0.08.(2)由(1)知回归直线方程为y=1.23x+0.08,当x=10时,y=1.23×10+0.08=12.3+0.08=12.38,即估计使用10年时的维修费用是12.38万元.9.若y与x之间的一组数据如下:x01234y13556则拟合这5对数据的回归直线一定经过的点是. 【解析】根据回归直线y=bx+a一定过样本中心点(,),且=2,=4,知点(2,4)一定在回归直线上.【答案】(2,4)10.某工业部门进行一项研究,分析该部门的产量与生产费用之间的关系,从这个工业部门内随机抽选了10个企业作样本,有如下资料:产量x(千件)费用y(千元)4015042140481605517065150产量x(千件)费用y(千元)7916288185100165120190140185完成下列要求:(1)计算x与y的相关系数;(2)这两个变量之间是否线性相关?若线性相关,求回归直线方程y=bx+a.【解析】(1)制表如下:ixiyixiyi1401501600225006000242140176419600588034816023042560076804551703025289009350565150422522500975067916262412624412798788185774434225162808100165100002722516500912019014400361002280010140185196003422525900合计777165770903277119132938=77.7,=165.7,=70903,=277119,xiyi=132938r=0.808.即x与y的相关系数r0.808.(2)因为r较接近1,所以x与y之间具有很强的线性相关关系.则b=0.398,a=165.7-×77.7b134.8,所以回归直线方程为y=0.398x+134.8.