8.2 一元线性回归模型及其应用 -(人教A版2019选择性必修第二、三册) (学生版).docx
一元线性回归模型及其应用知识剖析1 一元线性回归模型 用工表示父亲身高,y表示儿子身高,U表示随机误差,假定随机误差e的均值为0,方差为与父亲身高无关的 定值。2,则它们之间的关系可以表示为Y = bx + a + eE(e) = 0 , £)(e) = a2我们称它为y关于的一元线性回归模型.2线性回归方程对于变量和变量丫,设经过随机抽样获得的成对样本数据为(/ J。,(亚J2),,(%n,%),其中 %1 ,x2 ,和丫1/2yn的均值分别为土和歹,其中"=£21(勺一元)(% 一 9)=2忆 1 /% nxy一 深18 £)2 218一元)2(d = y bx我们将? = B % +&称为y关于的经验回归方程,其图形称为经验回归直线,这种求经验回归方程的方法叫 做最小二乘法.PS线性回归直线经过定点Q , y).3残差分析通过观测得到的数据称为观测值,通过经验回归方程得到的?称为预测量,观测值减去预测值称为残差,残 差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判定原始数据是否存在可 疑数据,这方面的工作称为残差分析.通过观察残差图可以直观判断模型是否满足一元线性回归模型中对随机误差的假设,那残差应是均值为0, 方差为。2的随机变量的观测值.4比较模型的拟合效果(0残差平方和残差平方和Q = 221(% 一夕)2越小,拟合效果越好.(江)相关指数R2.一 5X1(% 7)2求=1(%-汾2R2越大,残差平方和2忆1(%-夕)2越小,模型拟合效果越好.5(*)科研人员在研制新冠肺炎疫苗过程中,利用小白鼠进行接种试验,现收集了小白鼠接种时的用药量%(单位:毫克)和有效度y的7组数据,得到如下散点图及其统计量的值:Xy£l=i Gt - %)227=1 (以一石)2(g 一可)(%一歹)2.713.410.51825486.4其中伤=%3 0) = -Li=i 处(I )根据散点图判断,y = Q +版与y = c + d%2哪一个更适合作为有效度y与用药量的回归方程类型?(给出判断即可,不必说明理由)(H)根据(I)的判断结果及表中数据建立y关于的回归方程.(IU)若要使有效度达到75,则用药量至少为多少毫克?6(*)网上购物就是通过互联网检索商品信息,并通过电子订购单发出购物请求,厂商通过邮购的方式 发货或通过快递公司送货上门,货到后通过银行转账、微信或支付宝支付等方式在线汇款.根据2019年 中国消费者信息研究,超过40%的消费者更加频繁地使用网上购物,使得网上购物和送货上门的需求量 激增,越来越多的消费者也首次通过第三方4PP、品牌官方网站和微信社群等平台进行购物.某天猫专 营店统计了 2020年8月5日至9日这5天到该专营店购物的人数y和时间第,天间的数据,列表如表:12345%75849398100由表中给出的数据是否可用线性回归模型拟合人数y与时间x之间的关系?若可用,估计8月10日 到该专营店购物的人数(人数用四舍五入法取整数;若|厂|>0.75,则线性相关程度很高,可用线性回归模 型拟合,计算一时精确到0.01).参考数据:V4340 65.88.附:相关系数r= 器】(/田出一夕),(阳一为2£上1为2回归直线方程的斜率:3=映丹乎铲,a = y-bx.%1 (勺-为2运用分层抽样的方法从第1天和第5天到该专营店购物的人中随机抽取7人,再从这7人中任取3人 进行奖励,求这3人取自不同天的概率;该专营店为了吸引顾客,推出两种促销方案:方案一,购物金额每满100元可减10元;方案二,一次性购物金额超过800元可抽奖三次,每次中奖的概率均为j且每次抽奖互不影响,中奖一 次打9折,中奖两次打8折,中奖三次打6折.某顾客计划在此专营店购买1000元的商品,请从实际付款金额的数学期望的角度分析选哪种方案更优 惠.7()中国茶文化博大精深,茶水的口感与茶叶类型以及水温有关.经验表明,若某种绿茶用85久的水泡制,等到茶水温度降至60T时饮用,则口感最佳.某研究小组通过测量(室温恒为20。0,到下面的表格及散点图:泡制时间/m讥01234水温y/8579747165小组成员根据散点图并考虑茶水温度降到室温(即20。0就不能再降的事实,决定选择函数模型y =kcx + 20(% > 0)来表示和y的关系.令z = "(y - 20),求出z关于汽的线性回归方程;利用的结论,求出y = kcx + 20(% > 0)中的k与c的值.你认为该品种绿茶用85T的水泡制多久后饮用,口感最佳?参考数据:仇65、4.2,仇59、4.1,伍54 X 4.0,仇51 p 3.9,"45 x 3.8, /ogO.90.6 x 4.8, e-0-1 合 0.9,e4,2 x 66.7, x 0.6.667参考公式:线性回归方程夕=+ &中,6 ="*:丝了), a = y - bx.2»i=i (阳 T)y9();80 70 -6()1.0 12 3 4%经典例题【题型一】一元线性回归模型典题1某服装品牌市场部门为了研究销售情况,统计了一段时间内该品牌不同服装的单价工(元)和销售额y(元)的数据,整理得到下面的散点图:已知销售额y =单价xx销量z,根据散点图,下面四个回归方程类型中最适宜作为服装销量z与单价汇的回归方程类型的是()A. z = a + bxA. z = a + bxC. z = a + bx2D. z = a + bex【典题2】已知由样本数据(刈,%)(£ = 1 ,2 ,3,8)组成的一个样本,得到回归直线方程为夕=2%-0.4且无=2,去除两个歧义点(-2 ,7)和(2 ,-7)后,得到新的回归直线的斜率为3.则下列说法正确的是()A.相关变量 ,丫具有正相关关系B.去除歧义点后的回归直线方程为夕=3% - 3.2C.去除歧义点后,随%值增加相关变量y值增加速度变小D.去除歧义点后,样本(4 ,8.9)的残差为0.1(附:4=州一珀【典题3 2020年的“金九银十”变成“铜九铁十% 全国各地房价“跳水”严重,但某地二手房交易却“逆市” 而行.下图是该地某小区2019年12月至2020年12月间,当月在售二手房均价(单位:万元/平方米)的散 点图.(图中月份代码113分别对应2019年12月2020年12月)(M0200989694o 1o o o当月在代二丁 ,用均价) *1 2 3 4 5 6 7 8 9 10 II 12 13 份代码、根据散点图选择y = a +和y = c + d仇'两个模型进行拟合,经过数据处理得到的两个回归方程分别为y=0.9369 + 0.0285a和夕=0.9554 + 0.0306"无,并得到以下一些统计量的值:y = 0.9369 + 0.0285V% y = 0.9554 + 0.0306仇%R20.9230.973注:元是样本数据中工的平均数,歹是样本数据中y的平均数,则下列说法正确的是()A.当月在售二手房均价y与月份代码工呈负相关关系B.由夕=0.9369 + 0.0285近预测2021年3月在售二手房均价约为1.0509万元/平方米C.曲线夕=0.9369+ 0.0285«与9=0.9554+ 0.0306都经过点(焉y)D.模型夕=0.9554 + 0.0306加回归曲线的拟合效果比模型夕=0.9369 + 0.0285正好巩固练习1(*)某校课外学习小组为研究某作物种子的发芽率y和温度%(单位:°C)的关系,由实验数据得到右面的散点图.由此散点图,最适宜作为发芽率y和温度工的回归方程类型的是()A. y = a + bx B. y = a + blnx C. y = a + bex D. y = a + bx22(g 2020年春季,新冠肺炎疫情在全球范围内相继爆发,因为政治制度、文化背景等因素的不同,各个国家疫情防控的效果具有明显差异.如图是西方某国在60天内感染新冠肺炎的累计病例人数y(万人)与时间t(天)的散点图,则下列最适宜作为此模型的回归方程的类型是() 6U 40*20?*0 10 2(1 30 40 50 (ij 7/人A. y = a + bx B. y = a + by/x C. y = a + bex D. y = a + blnx3(*)对于一组具有线性相关关系的数据%)(i = L 2, 3,,九),根据最小二乘法求得回归直线方程 为y=6% + a,则以下说法正确的是()A.预报变量y的值由解释变量唯一确定B.在回归分析中,A? = 0.80的模型比R2 = 0.98的模型拟合效果好C.所有的样本点均落在回归直线9 = 3% + &上D.残差图中,残差点分布水平带状区域的宽度越窄,则回归方程的预报精确度越高4()某生物实验小组设计实验,得到光照强度工与某种植物光合作用速率y的一组数据(符,),经过分析 提出了四种回归模型,、四种模型的残差平方和2匕(%-或)2的值分别为。.48, 0.99, 0.15, 1.23,则拟合效果最好的是()A.模型B.模型C.模型D.模型5(*) 4 8两个物理兴趣小组在实验室研究某粒子运动轨迹.共同记录到粒子的13个位置的坐标信息如表:x-0.93 -0.82 -0.77 -0.61 -0.55 -0.33 -0.27 0.100.420.580.640.670.76y-0.26 -0.41 -0.45 -0.45 -0.60 -0.67 -0.68 -0.710.640.550.550.530.46A小组根据表中数据,直接对y j作线性回归分析,得到:回归方程为y = 0.5993% + 0.005,相关指数腔=0.4472;B小组先将数据依变换a = / ,u = y2进行整理,再对"作线性回归分析,得到: 回归方程为。=-0.5006k + 0.4922,相关指数为=0.9375.根据统计学知识,下列方程中,最有可能是该粒子运动轨迹方程的是()A. 0.5993% y + 0.005 = 0A. 0.5993% y + 0.005 = 0B. 0.5006%+ y- 0.4922 = 0C.C.0.5006X20.4922+ 10.4922n %2, 0.5006y2.D1= 10.49220.4922“)【多选题】下列说法正确的是()A.在做回归分析时,残差图中残差点分布的带状区域的宽度越窄表示回归效果越差B.某地气象局预报:6月9日本地降水概率为90%,结果这天没下雨,这表明天气预报并不科学C.回归分析模型中,残差平方和越小,说明模型的拟合效果越好D.在回归直线方程)= 0.1%+ 10中,当解释变量每增加1个单位时,预报变量多增加0.1个单位火)【多选题】小明同学在做市场调查时得到如下样本数据X13610y8a42他由此得到回归直线的方程为y = -2.1% + 15.5,则下列说法正确的是()A.变量与y线性负相关B.当 = 2时可以估计y = ll.3C.a = 6D.变量与y之间是函数关系&()【多选题】已知由样本数据点集合(% %)|i = L 2/ . /九求得的线性回归方程为夕=1.5% + 0.5, 元=3.现发现两个数据点(1.8, 3.8)和(4.2, 6.2)的误差较大,去除这两个数据点后重新求得的回归直线 /的斜率为1.2,则下列说法中正确的有()A.去除这两个数据点前,当变量%每增加1个单位长度时,变量y减少1.5个单位长度B.去除这两个数据点后的回归直线过点(3, 5)C.去除这两个数据点后y的估计值的增长速度变慢D.去除这两个数据点后,当 = 4时,y的估计值为6.2%)已知样本点(工厂%)。= 1, 2, 3/ . /九)的回归直线方程为y = 2% + a,若样本点(丁,1)与(1, s)的残差相同,则s与r的关系式为.(附:对于样本点(即力)的残差ef -%)1()()下列说法:分类变量4与B的随机变量K2越大,说明Z与B有关系”的可信度越大,以模型丫 = ce-去拟合一组数据时,为了求出回归方程,设z ="y,将其变换后得到线性方程z = 0.3x + 4,则c, k的值分别是e,和。.3,在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高, 若变量和y满足关系y = -0.1%+ 1,且变量y与z正相关,则x与2也正相关,正确的个数是.【题型二】一元线性回归模型的应用【典题1】某产品的宣传费用工(单位:万元)与销售额y(单位:万元)的统计数据如表所示:%45678y608090100120根据上表可得回归方程夕= 14%+ &,则宣传费用为9万元时,销售额最接近()A. 123万元 B. 128万元C. 133万元 D. 138万元【典题2】一研学实践活动小组利用课余时间,对某公司1至5月份销售某种产品的销售量及销售单价进行 了调查,月销售单价%(单位:元)和月销售量y(单位:百件)之间的一组数据如表所示:月份i12345月销售单价为(元)1.61.822.22.4月销售量力(百件)108764(1)根据1至5月份的数据,求出y关于的回归直线方程;预计在今后的销售中,月销售量与月销售单价仍然服从中的关系,若该种产品的成本是1元/件,那么该产品的月销售单价应定为多少元,才能获得最大月利润?(注:利润=销售收入-成本)附:回归直线方程夕=+ 6,其中=ER阳?-匕9,a = y - bx.名 xf-nx参考数据:Ef=i 覆% = 67.2,辞 =i %? = 20.4.【典题3】某同学使用某品牌暖水瓶,其内胆规格如图所示.若水瓶内胆壁厚不计,且内胆如图分为 四个部分,它们分别为一个半球、一个大圆柱、一个圆台和一个小圆柱体,若其中圆台部分的体积为527rcm3,且水瓶灌满水后盖上瓶塞时水溢出詈cm?.记盖上瓶塞后,水瓶的最大盛水量为匕求心该同学发现:该品牌暖水瓶盛不同体积的热水时,保温效果不同.为了研究保温效果最好时暖水瓶的盛 水体积,做以下实验:把盛有最大盛水量y的水的暖水瓶倒出不同体积的水,并记录水瓶内不同体积水在不 同时刻的水温,发现水温y(单位:。与时刻t满足线性回归方程y = ct + d,通过计算得到如表:倒出体积xczn30306090120拟合结果y = c1t + dy = c2t + dy = c3t + dy = c4t + dy = cst + d倒出体积XC7713150180210 450拟合结果y = C6t + dy = c7t + dy = c8t + d y = c16t + d注:表中倒出体积%(单位:cm3)是指从最大盛水量中倒出的那部分水的体积.其中:aC2C3C4C5C6C7 1.4-1.3-1.2-1-1.1-0.9-0.8令w = c fwt = |cj ,xt = 30(i - 1) J = 1 ,2 ,16.对于数据(阳,明)(£ = 1 ,2 ,,7),可求得回归 直线为Li: w = /?% + a,对于数据(勺,Wj)(i = 8 ,9 ,. , 16),可求得回归直线为G: w = 0.0009% + 0.7. 指出|c|的实际意义,并求出回归直线人的方程(参考数据:高0.0032)2800(ii)若人与乙2的交点横坐标即为最佳倒出体积,请问保温瓶约盛多少体积水时(盛水体积保留整数,且兀取 3.14)保温效果最佳?附:对于一组数据,(u2 , v2) ,(un ,vn),其回归直线u = 6a +8中的斜率和截距的最小二乘估 计分别为6=生四浮沿,a = v-u.XILi (Ui-u)2l【典题4】近年来,随着汽车消费的普及,二手车流通行业得到迅猛发展.某汽车交易市场对2017年成交的 二手车的交易前的使用时间(以下简称“使用时间”)进行统计,得到如图1所示的频率分布直方图.在图1对使 用时间的分组中,将使用时间落入各组的频率视为概率.频率组距0.090.070.050.030.01乃2015105 平均交易价格/万元8121620使用时间/年* *x11111111 I 1.123456789 10使用时间/年图1图2若在该交易市场随机选取3辆2017年成交的二手车,求恰有2辆使用年限在(8 ,16的概率;根据该汽车交易市场往年的数据,得到图2所示的散点图,其中工(单位:年)表示二手车的使用时间,y(单 位:万元)表示相应的二手车的平均交易价格.由散点图判断,可采用' =。"以作为该交易市场二手车平均交易价格y关于其使用年限的回归方程,相 关数据如下表(表中匕=lnyi9 Y =2£当 匕):X y Y X?=1 左 S?=1 XiYi Sf=i Xi25.58.71.9301.479.75385试选用表中数据,求出y关于的回归方程;该汽车交易市场拟定两个收取佣金的方案供选择.甲:对每辆二手车统一收取成交价格的5%的佣金;乙:对使用8年以内(含8年)的二手车收取成交价格的4%的佣金,对使用时间8年以上(不含8年)的二手 车收取成交价格的10%的佣金.假设采用何种收取佣金的方案不影响该交易市场的成交量,根据回归方程和图表b并用各时间组的区间 中点值代表该组的各个值.判断该汽车交易市场应选择哪个方案能获得更多佣金.附注:对于一组数据(% ,巧),(比2/2),%),其回归直线u = a+仇1的斜率和截距的最小二乘估计分 别为6 =%与呸守fa = v-pu;参考数据:e2,95 « 19.1, e1,75 x 5.75, e0,55 « 1.73, e-0,65 « 0.52, e-1,85 « 0.16.巩固练习1(龙设一个线性回归方程夕= 3 + 1.2,当变量每增加一个单位时,则y的变化情况正确的是(A. y平均增加约1.2个单位B. y平均增加约3个单位C. y平均减少约12个单位D. y平均减少约3个单位2(*)某运动制衣品牌为了成衣尺寸更精准,现选择15名志愿者,对其身高和臂展进行测量(单位:厘米),左图为选取的15名志愿者身高与臂展的折线图,右图为身高与臂展所对应的散点图,并求得其回归方程为9=1.16% - 30.75,以下结论中不正确的为()臂展二瑟 7 8112 1314 13唯A. 15名志愿者身高的极差小于臂展的极差B. 15名志愿者身高和臂展成正相关关系C.可估计身高为190厘米的人臂展大约为189.65厘米D.身高相差10厘米的两人臂展都相差11.6厘米3(*)【多选题】5G技术的运营不仅提高了网络传输速度,更拓宽了网络资源的服务范围.目前,我国加速了5G技术的融合与创新,前景美好!某手机商城统计了5个月的5G手机销量,如表所示:月份2020年6月2020年7月2020年8月2020年9月2020年1。月月份编号12345销量 y/部5295a185227若y与线性相关,由上表数据求得线性回归方程为夕= 44%+ 10,则下列说法正确的是()A. 5G手机的销量逐月增加,平均每个月增加约10台B. a = 151C. y与正相关 D.预计12月份该手机商城的5G手机销量约为318部4()已知某品牌的新能源汽车的使用年限工(单位:年)与维护费用y(单位:千元)之间有如下数据:使用年限工单位:年)24568维护费用y(单位:千元)34.56.57.59与y之间具有线性相关关系,且y关于的线性回归方程为y=L05x+优据此估计,当使用年限为7年时,维护费用约为 千元.附:线性回归方程夕=方+ 6中的系数,6 =弋fa = y-bx.