8.2 一元线性回归模型及其应用 -(人教A版2019选择性必修第二、三册) (教师版).docx
元线性回归模型及其应用知识剖析1 一元线性回归模型用X表示父亲身高,y表示儿子身高,e表示随机误差,假定随机误差e的均值为0,方差为与父亲身高无关的 定值。2,则它们之间的关系可以表示为(Y = hx + a + e(.E(e) = 0 , D(e) = a2我们称它为y关于的一元线性回归模型.2线性回归方程对于变量和变量y,设经过随机抽样获得的成对样本数据为(右,%) ,(X2,%),(&,%),其中 ,%2,匕1和%,、2,%的均值分别为元和为 其中"二 一一( 一 一)(- 一 歹)=扉1 项 -阻"靠Gif-(a = y - bx我们将g=6 % +式称为y关于的经验回归方程,其图形称为经验回归直线,这种求经验回归方程的方法叫 做最小二乘法.备注线性回归直线经过定点。,y).3残差分析通过观测得到的数据称为观测值,通过经验回归方程得到的夕称为预测量,观测值减去预测值称为残差,残 差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判定原始数据是否存在可 疑数据,这方面的工作称为残差分析.通过观察残差图可以宜观判断模型是否满足一元线性回归模型中对随机误差的假设,那残差应是均值为0, 方差为。2的随机变量的观测值.4比较模型的拟合效果(0残差平方和残差平方和Q =,匕3 -9)2越小,拟合效果越好.()相关指数产2_1%Q -9尸"优4%一9/”越大,残差平方和22式 一刃2越小,模型拟合效果越好.该产品的月销售单价应定为2元才能获得最大月利润为7百元.【典题3】某同学使用某品牌暖水瓶,其内胆规格如图所示.若水瓶内胆壁厚不计,且内胆如图分为 四个部分,它们分别为一个半球、一个大圆柱、一个圆台和一个小圆柱体,若其中圆台部分的体积为52科加3,且水瓶灌满水后盖上瓶塞时水溢出记盖上瓶塞后,水瓶的最大盛水量为匕求V;(2)该同学发现:该品牌暖水瓶盛不同体积的热水时,保温效果不同.为了研究保温效果最好时暖水瓶的盛 水体积,做以下实验:把盛有最大盛水最V的水的暖水瓶倒出不同体积的水,并记录水瓶内不同体积水在不 同时刻的水温,发现水温y(单位:。口与时刻£满足线性回归方程y = ct + d,通过计算得到如表:倒出体积xcm,0306090120拟合结果y = cxt + dy = c2t + dy = c3t + dy = c4t + dy = c5t + d倒出体积xcm?150180210.450拟合结果y = c6t + dy = c7t + dy = c8t + d.y = g6t + d注:表中倒出体积%(单位:5?)是指从最大盛水量中倒出的那部分水的体积.其中:ClQc3c4Csc6c7-1.4-1.3-1.2-1-1.1-0.9-0.8令w = c ,Wi = |cj fXi = 30(i - 1) ,i = 1 ,2 , 16.对于数据(勺,“)« = 1 ,2 ,7),可求得回归 直线为Li: w = Px + a,对于数据(勺,Wj)(i = 8,9,., 16),可求得回归直线为G: w = 0.0009% + 0.7.指出|c|的实际意义,并求出回归直线G的方程(参考数据:急标0.0032) ZoOO(ii)若订与G的交点横坐标即为最佳倒出体积,请问保温瓶约盛多少体积水时(盛水体积保留整数,且兀取 3.14)保温效果最佳?附:对于一组数据(小 ,%),(2力2),(n,%),其回归直线口 = 6 +左中的斜率和截距的最小二乘估计分别为蚱笔富需2 a = v-pu.2-i-i 17一切【解析】 依题意得,半球的半径为r = 5czn,体积为匕=g x g x 125tt =等加病,大圆柱体积匕=257r x 20 = SOOttct?!3,小圆柱体积匕=4tt x 2 = Sncm3,.盖上瓶塞后,水瓶的最大盛水量为竽兀+ 5007T + 8兀+ 527r -芳万=640ncm3. JD(2)(i)|c|的实际意义为倒出女小3体积水时,暖水瓶内水的降温速率;©越小,降温速率越小,保温效果越好;|C|越大,降温速率越大,保温效果越差;Xj = 30(i 1) J = 1 ,2,7,对于回归直线A:o)= Px + a,.宣= X|+M+ +必=90,"=必+32+ +37= Ll, 77£:=i (芍为3-万)=-81, £7=1 (X-x) = 25200,.R =(占一5)(丝丁) = _= _-0.0032," Sill (Xj-x) 2 3 4 5 6 7 8 9 10 使用时间/年252002800a = aj-p-x=l.l + 0,0032 x 90 = 1.388. 回归直线Li的方程为3 = -0.0032X + 1.388.z.xnv-vfa)= -0.0032x 4- 1.388 犯 1Z.7 o联叱= 0.0009%+ 0.7,得一1678 保温瓶最佳倒出体积约为167.8sn3.保温瓶盛水体积约为6407r - 167.8 « 640 x 3.14 - 167.8 = 1841.8cm3,保温瓶盛水体积约为1841.8cm3时保温效果最佳.【点拨】 处理这些实际问题,理解题景与梳理每个变量之间的关系尤为重要.若题中没给到对应的数据,需要笔算,此时注意数据的对应关系避免用错数据出现运算失误,若在草稿 纸上能列个表格会清晰很多.【典题4】近年来,随着汽车消费的普及,二手车流通行业得到迅猛发展.某汽车交易市场对2017年成交的y252015105 平均交易价格/万元y252015105 平均交易价格/万元48121620使用时间/年图1二手车的交易前的使用时间(以下简称“使用时间'')进行统计,得到如图1所示的频率分布直方图.在图1对使 用时间的分组中,将使用时间落入各组的频率视为概率.(I)若在该交易市场随机选取3辆2017年成交的二手车,求恰有.2辆使用年限在(8 ,16的概率;(2)根据该汽车交易市场往年的数据,得到图2所示的散点图,其中(单位:年)表示二手车的使用时间,y(单 位:万元)表示相应的二手车的平均交易价格.由散点图判断,可采用y = e0+以作为该交易市场二手车平均交易价格y关于其使用年限高勺回归方程,相关数据如下表(表中匕=伍力,酿1匕):x y Y Z?=ix.Yi S?=i 阳25.58.71.9301.479.75385试选用表中数据,求出y关于工的回归方程;该汽车交易市场拟定两个收取佣金的方案供选择.甲:对每辆二手车统一收取成交价格的5%的佣金;乙:对使用8年以内(含8年)的二手车收取成交价格的4%的佣金,对使用时间8年以上(不含8年)的二手 车收取成交价格的10%的佣金.假设采用何种收取佣金的方案不影响该交易市场的成交量,根据回归方程和图表1,并用各时间组的区间 中点值代表该组的各个值.判断该汽车交易市场应选择哪个方案能获得更多佣金.附注:对于一组数据(% , 女) ,(2/2),Qn ,%),其回归直线u = a+6的斜率和截距的最小二乘估计分 别为"除矢常 ,a = v-p参考数据:e295 « 19.1, e1-75 « 5.75, e055 « 1.73, e-0-65 « 0.52, e-1-85 « 0.16.【解析】(1)由频率分布直方图知,该汽车交易市场2017年成交的二手车使用时间在(8 ,12的频率为0.07 x 4 = 0.28,使用时间在(12 ,16的频率为703 x4 = 0.12.所以在该汽车交易市场2017年成交的二手车随机选取1辆,其使用时间在(8, 16的概率为 0.28+ 0.12 = 0.4,所以所求的概率为P =废OH ,(1 _ 0 4) = 0.288:(2)由y =1+取得my = a + bx,则V关于x的线性回归方程为丫 = a + dx,(通过两边取对数,换元法,把非一元线性回归模型变换为一元线性回归模型)小毛£ _ (项一幻(。一亍)_ 鹉戈也-102干 _ 79.75-10X5.5XL9 _2 孤(阳刃-£?- 385-10x5.52 一 -"J,(题中给到的参考数据没,以(勺一元)(匕一 P), £当(一元)2,需要对公式畛霁铝=骷察震进行转化)a = 7-/?% = 1.9- (-0.3) x 5.5 = 3.55,则丫关于的线性回归方程为,=3.55 - 0.3%,所以y关于x的回归方程为?=e3-55°-3x;根据频率分布直方图和中的回归方程,对成交的二手汽车可预测:使用时间在(0 ,4的频率为0.05 x4 = 0.2,对应的成交价格的预测值为e355-O.3x2 = e2.95右19.1.(取组中值2作为代表该组的值算出预测值,以下类似)使用时间在(4 ,8的频率为0.09 x 4 = 0.36,对应的成交价格预测值为e3-55-0.3x6 = e1.75 « 5.75;使用时间在(8 ,12的频率为0.07 x4 = 0.28,对应的成交价格的预测值为。3.55-0.3'10 = e0.55、173;使用时间在(12 ,16的频率为0.03 x4 = 0.12,对应的成交价格的预测值为e3M-。3x14 =。-0.65 * 0.52;使用时间在(16 ,20的频率为0.01 X4 = 0.04,对应的成交价格的预测值为= e-L85 * 0<16,若采用甲方案,预计该汽车交易市场对于成交的每辆车可获得的平均佣金为(0.2 x 19.1 + 0.36 x 5.75 + 0.28 x 1.73 + 0.12 x 0.52 + 0.04 x 0.16) x 5%=0.32166 « 0.32万元;若采用乙方案,预计该汽车交易市场对于成交的每辆车可获得的平均佣金为(0.2 x 19.1 + 0.36 x 5.75) x 4% + (0.28 x 1.73 + 0.12 x 0.52 + 0.04 x 0.16) x 10%=0.29092 « 0.29(万元);因为0.32 >0.29,所以采用甲方案能获得更多佣金.【点拨】熟悉非一元线性回归模型变换为一元线性回归模型的基本套路;对题中给予的数据,要认真梳理清楚,明确每个变量的实际意义,有些数据是“搅乱视听''的,比如题中 的歹=8.7.巩固练习1(常设一个线性回归方程9=3 +1.2%,当变量%每增加一个单位时,则y的变化情况正确的是()A. y平均增加约1.2个单位B. y平均增加约3个单位C. y平均减少约1.2个单位D. y平均减少约3个单位【答案】A【解析】直线回归方程为夕=3+1.2x,变量x增加一个单位时,函数值要平均增加1.2个单位,故选:A.160 165 170 175 180 IS5 身;g9085SO7570658JJ50454)某运动制衣品牌为了成衣尺寸更精准,现选择15名志愿者,对其身高和臂展进行测量(单位:厘 米),左图为选取的15名志愿者身高与臂展的折线图,右图为身高与臂展所对应的散点图,并求得其回归 方程为夕=1.16% - 30.75,以下结论中不正确的为()2 3 4 5 6 7 8 9 10 11 12 B 14 15一身高A. 15名志愿者身高的极差小于臂展的极差B. 15名志愿者身高和臂展成正相关关系C.可估计身高为190厘米的人臂展大约为189.65厘米D.身高相差10厘米的两人臂展都相差11.6厘米【答案】D【解析】对于A,身高极差大约是25,臂展极差大于等于30,故A正确;对于8,很明显根据散点图以及回归方程得到,身高矮展臂就会短一些,身高高一些,展臂就会长一些,故B正确;对于C,身高为190厘米,代入回归方程可得展臂等于189.65厘米,但不是准确值,故C正确;对J'- D,身高相差10厘米的两人展臂的估计值相差11.6厘米,但不是准确值,回归方程上的点并不都是准确的样本点,故。错误;故选:3(*)【多选题】5G技术的运营不仅提高了网络传输速度,更拓宽了网络资源的服务范围.目前,我国加速了5G技术的融合与创新,前景美好!某手机商城统计了5个月的5G手机销量,如表所示:月份 2020年6月 2020年7月 2020年8月 2020年9月 2020年10月月份编号X12345销量y/部5295a185227若y与线性相关,由上表数据求得线性回归方程为9=44x + 10,则下列说法正确的是()A. 5G手机的销量逐月增加,平均每个月增加约10台B. a = 151C. y与正相关D.预计12月份该手机商城的5G手机销量约为318部【答案】BCD【解析】线性回归方程为夕=44x+IO, 5G手机的销量逐月增加,平均每个月增加约44台, 所以4不正确;根据表中数据,可得工=i+2+:+4+5=3, .-.y =44x3+10=142.于是,52+95+185+227= 142x5=710,即 a=151,故 8 正确;由回归方程中x的系数大于0,可知y与x正相关,且相关系数r>0,故C正确;12 月份时,x=7, y =44x7+5=318 部,故。正确.故选:BCD.4()已知某品牌的新能源汽车的使用年限(单位:年)与维护费用y(单位:千元)之间有如下数据:使用年限工单位:年)24568维护费用y(单位:千元)34.56.57.59x与y之间具有线性相关关系,且y关于的线性回归方程为夕=1.05x+G.据此估计,当使用年限为7年时, 维护费用约为 千元.附:线性回归方程夕= 6x +式中的系数,6 =飞吗:/,a = y-bx.【答案】8.2; Y rli 日方五 -2+4+5+6+8 - -3+4.5+6.5+7.5+930.5 , .【解析】由题思,x =5, y = =6.1,因为回归直线经过样本中心,所以6.1 = 1.05x5+6,解得a=0.85,1.05x4-0.85.当使用年限为7年时,维护费用约为1.05x7+0.85=8.2千元.5(*)科研人员在研制新冠肺炎疫苗过程中,利用小白鼠进行接种试验,现收集了小白鼠接种时的用药量(单位:亳克)和有效度y的7组数据,得到如下散点图及其统计量的值:XyajS?=i (Xf-X)2Xi=l (你-5兄Zi=i 3(力-刃2.713.410.51825486.4其中你=好,值= ;£;=1 3t.(I )根据散点图判断,y = a +以与y = c + d/哪一个更适合作为有效度y与用药量X的回归方程类型?(给出判断即可,不必说明理由)(11)根据(1 )的判断结果及表中数据建立y关于x的回归方程.(川)若要使有效度达到75,则用药量至少为多少亳克?【答案】(I ) juc+Zr2 (2) y = -3.4+1.6X2(3) 7【解析】(I ),=C+dF更适合作为有效度y与用药量x的回归方程类型.(H )令则产c+da),:,d = 一初= =1.6, c = y- diJ =13.4-L6x 10.5=3.4,U=1(Wi-W)254,Ay = -3.4+1.6(d,故y关于x的回归方程为y = -3.4+1.6%2.(HI)当y =75 时,有 75=34+1.6?,解得产7,故要使有效度达到75,则用药量至少为7亳克.4)网上购物就是通过互联网检索商品信息,并通过电子订购单发出购物请求,厂商通过邮购的方式 发货或通过快递公司送货上门,货到后通过银行转账、微信或支付宝支付等方式在线汇款.根据2019年 中国消费者信息研究,超过40%的消费者更加频繁地使用网上购物,使得网上购物和送货上门的需求量 激增,越来越多的消费者也首次通过第三方4PP、品牌官方网站和微信社群等平台进行购物.某天猫专 营店统计了 2020年8月5日至9日这5天到该专营店购物的人数y和时间第,天间的数据,列表如表:项 12345%75849398100(1)由表中给出的数据是否可用线性回归模型拟合人数1y与时间x之间的关系?若可用,估计8月1() 到该专营店购物的人数(人数用四舍五入法取整数;若|川>0.75,则线性相关程度很高,可用线性回归模 型拟合,计算/时精确到0.01).参考数据:V4340 «65.88.附:相关系数r=)£%(-幻5一力=届=1(勺与/E匕(y-y)2回归直线方程的斜率:5二鼻与/a=y-bx.Eh=i (Xi-x)2'(2)运用分层抽样的方法从第I天和第5天到该专营店购物的人中随机抽取7人,再从这7人中任取3人 进行奖励,求这3人取自不同天的概率;该专营店为了吸引顾客,推出两种促销方案:方案一,购物金额每满100元可减10元;方案二,一次性购物金额超过800元可抽奖三次,每次中奖的概率均为j且每次抽奖互不影响,中奖一 次打9折,中奖两次打8折,中奖三次打6折.某顾客计划在此专营店购买1000元的商品,请从实际付款金额的数学期望的角度分析选哪种方案更优 惠.【答案】(1)109 (2) , (3)选项方案二更划算【解析】(I)由表中的数据可得,x = 3, y = 90,S?=i (芍一句2 = 10, Sf=i (yi-y) = 434, SF=1 (一可(% - 9)=64,故 r= %之(阳一亍)(必一份=X 0.97 > 0.75,盛(8-幻2£乜(y一刃2 、旃所以变量y与x具有很强的线性相关性, 故可以用线性回归模型拟合人数),与天数x之间的关系,所以5 =琮岩铲号=6.4, 6 "-版=9°64x3=7°.8,所以y =64计70.8,令 x=6,则有y =109.2,故8月10 口到该专营店购物的人数为109人;(2)因为 75: 100=3: 4,所以第1天和第5天取的人数分别为3人和4人,3人取自不同天的种数为玛C# + CJC,故概率为P =反华算且=1 C77(3)若选方案一,则需付款1000-100=900元,若选方案二,设需付款X元,则X的可能取值为600, 800, 900, 1000,相应的概率为 P(X=600)= C耙尸=p(x=800)= Cj x (1)2 x |P(X=900)= Cix|x ($2 = . F(X=1000)= . x (|)3 =.所以 E(X)=600x - 4-800X - +900X +1 OOOx =< 900.2727272727故选项方案二更划算.7()中国茶文化博大精深,茶水的口感与茶叶类型以及水温有关.经验表明,若某种绿茶用85。(:的水 泡制,等到茶水温度降至60。(2时饮用,则口感最佳.某研究小组通过测量(室温恒为20。0,到下面的表格及散点图:泡制时间/mm01234水温y/°C8579747165小组成员根据散点图并考虑茶水温度降到室温(即20。就不能再降的事实,决定选择函数模型y = kcx + 20(x > 0)来表示和y的关系.令z =,n(y 20),求出z关于的线性回归方程;利用的结论,求出y = kcx + 20(x > 0)中的k与c的值.(2)你认为该品种绿茶用85。的水泡制多久后饮用,口感最佳?参考数据:仇65 « 4.2, Zn59 « 4.1, /n54 « 4.0, Zn51 « 3.9, Zn45 « 3.8, log0.90.6 « 4.8, e-01 « 0.9,e4,2 « 66.7, « 0.6.667参考公式:线性回归方程夕=3% + &中,6 =飞尸a = y-hx.【解析】(1)由已知得出X与Z的关系,如下表:泡制时间/min01234z4.24.14.03.93.8设线性I 口I归方程£ = 6x +a,由题意,得土 = 2, z = 4,® -幻(Z -乃=(-2)x0.2+(-1 )x0.1 +1 x(-0.1 )+2x(-0.2)=-1,sf=(%; %)2 = (-2)2 4- (I)2 + I2 4- 22 = 10,则片暗笔竽= £=一。3 乙1=1 Hi x)a = z - bx4 + 0.1 x 2 = 4.2,则z关于/的线性回归方程为£ = -0.1% + 4.2:由 广依+20(应0),得 y-20=kcx>0),两边取对数得,例>20)=秘+x/c,利用的结论得:Mc=-0.1, /成=4.2,.c=e-o£O.9,上,466.7;(2)由得,尸66.7乂0.'+20(忘0),令尸60,得 mlogo.90.6=l.8.该品种绿茶用85的水泡制4.8?加后饮用,口感最佳.经典例题【题型一】一元线性回归模型典题1某服装品牌市场部门为了研究销售情况,统计了一段时间内该品牌不同服装的单价(元)和俏售额y(元)的数据,整理得到下面的散点图:已知销售额y =单价xx销量z,根据散点图,下面四个回归方程类型中最适宜作为服装销量z与单价%的回 归方程类型的是()A. z = a + bx B. z = a + -C. z = a + bx2 D. z = a + bexX【解析】由散点图知,销售额),与单价X呈线性关系,不妨设产?+依,所以z=' = X = %+,与选项B中的回归方程类型一致. XXX故选:B.【典题2】已知由样本数据(项,%)(i = 1 ,2 ,3,8)组成的一个样本,得到回归直线方程为夕=2为一 0.4且5 = 2,去除两个歧义点(-2 ,7)和(2,-7)后,得到新的回归直线的斜率为3.则下列说法正确的是()A.相关变量X /具有正相关关系B.去除歧义点后的回归直线方程为夕=3% - 3.2C.去除歧义点后,随汇值增加相关变量y值增加速度变小D.去除歧义点后,样本(4 ,8.9)的残差为0.1(附:ej =V1-戈)【解析】对选项力、B:由M =2,代入夕=2x 0.4,得歹=2 X 2 0.4 = 3.6,(样本中心(土,歹)一定在线性回归方程夕=b x + &上).去除两个歧义点(一2 ,7)和(2,7)后,得到新的歹=至产=3'= 3*7+7 = 48 63o又得到新的回归直线的斜率为3, 新的线性回归方程的a = 4.8-3x1=-3.2,则去除两个歧义点后的线性回归方程为y = 3x-3.2,故B正确;(求出新的样本中心(后歹),再利用其一定在线性回归方程9 = 8无+a上求出编又由斜率3 >0,相关变量X ,y具有正相关关系,故4正确;对选项C:原本回归直线方程夕=2% 0.4中工增加1则y增加2,去除歧义点后,回归直线方程夕=3% 3.2中工增加1则y增加3,故去除歧义点后,随x值增加相关变量),值增加速度变大,故C错误;对选项D:当x = 4时,9= 3x4 3.2 = 8.8,则去除歧义点后,样本(4 ,8.9)的残差为8.9 - 8.8 = 0.1,故。正确.故选:ABD.【典题3 2020年的“金九银十”变成“铜九铁十”,全国各地房价“跳水”严重,但某地二手房交易却“逆市”而行.下图是该地某小区2019年12月至2020年12月间,当月在售二手房均价(单位:万元/平方米)的散 点图.(图中月份代码113分别对应2019年12月2020年12月)1.04 1.021.00 ().98 0.96 0.94O I 2 3 4 5 6 7 8 9 1() II 12 13 月份代用1根据散点图选择y = a + b百和y = c + d"工两个模型进行拟合,经过数据处理得到的两个回归方程分别 为夕=0.9369 + 0.0285正和夕=0.9554 + 0.0306Znx,并得到以下一些统计量的值:y = 0.9369 + 0.02854 y = 0.9554 4- 0.0306/nxR20.9230.973注:工是样本数据中工的平均数,歹是样本数据中y的平均数,则下列说法正确的是()A.当月在售二手房均价y与月份代码工呈负相关关系B.由夕=0.9369 + 0.02854预测2021年3月在售二手房均价约为1.0509万元/平方米C.曲线夕=0.9369+ 0.0285y与夕=0.9554 +0.0306/nx都经过点叵,y)D.模型夕=0.9554 + 0.0306仇x回归曲线的拟合效果比模型夕=0.9369 + 0.02854好【解析】由散点图可知,y随工的增加而增加,故4错误;2021年3月,相对2019年12月为 = 1,此时x = 16,代入夕=0.9369 + 0.0285正,求得1.0509,故8正 确; (在实际应用中要注意理解变量小y的实际意义) 曲线夕=0.9369 + 0.02854经过点(友 ,为,曲线歹=0.9554 + 0.0306仇%经过点(原,为,故C错误;(样本中心叵,回一定在线性回归方程了 = b x +。上,但题目中的模型y = a + by和y = c + dlnx不是线性模型,需要进行变换)因为0.973 > 0.923,所以模型夕=0.9554 + 0.0306仇无回归曲线的拟合效果比模型夕=0.9369 + 0.0285立 的好,故。正确.(R2越大,拟合效果越好)故选:BD.巩固练习1()某校课外学习小组为研究某作物种子的发芽率y和温度河单位:。的关系,由实验数据得到右面的散点图.由此散点图,最适宜作为发芽率y和温度的回归方程类型的是()A. y = a + bx B. y = a + blnx C. y = a + bex D. y = a + bx2【答案】B【解析】由图知,散点图分布在一个对数函数的图象附近,因此最适合作为发芽率),和温度大的回归方程类型的是产故选:B.、) 2020年春季,新冠肺炎疫情在全球范围内相继爆发,因为政治制度、文化背景等因素的不同,各个国家疫情防控的效果具有明显差异.如图是西方某国在60天内感染新冠肺炎的累计病例人数y(万人)与时间t(天)的散点图,则下列最适宜作为此模型的回归方程的类型是()A. y = a + bx B. y = a 4- bx C. y = a + bex D. y = a + blnx【答案】C【解析】函数图像随着自变量的变大,函数值增长速度越来越快,属于指数型函数的特征,只有选项C为指数型函数.故选:C.3(十)时于一组具有线性相关关系的数据(勺,=2, 3,几),根据最小二乘法求得回归直线方程为夕= 5x + 6,则以下说法正确的是()A.预报变量y的值由解释变量唯一确定B.在回归分析中,/?2 = o.8O的模型比腔=0 98的模型拟合效果好C.所有的样本点均落在回归直线夕=6%+ 4上D.残差图中,残差点分布水平带状区域的宽度越窄,则回归方程的预报精确度越高【答案】D【解析】选项A,预报变量由解释变量进行估计,即选项A错误;选项8,相关系数代越大,说明拟合效果越好,即选项8错误;选项C,可能所有的样本点都不在回归直线上,即选项C错误;选项在残差图中,残差点分布水平带状区域的宽度越窄,则回归方程的预报精确度越高,即选项。 正确.故选:4()某生物实验小组设计实验,得到光照强度”与某种植物光合作用速率y的一组数据(勺,%),经过分析 提出了四种回归模型,、四种模型的残差平方和2匕(%-斤)2的值分别为048, 0.99, 0.15, 1.23,则拟合效果最好的是()A.模型B.模型C.模型D.模型【答案】C【解析】残差平方和越小,表示该模型的拟合效果越好,比较四种模型的残差平方和,可知模型的最 小,所以其拟合效果最好.故选:C.5(*)小B两个物理兴趣小组在实验室研究某粒子运动轨迹.共同记录到粒子的13个位置的坐标信息如 表:x-0.93 -0.82 -0.77 -0.61 -0.55 -0.33 -0.27 0.10 0.420.580.640.670.76y-0.26 -0.41 -0.45 -0.45 -0.60 -0.67 -0.68 -0.71 0.640.550.550.530.46力小组根据表中数据,直接对y,工作线性回归分析,得到:回归方程为y = 0.5993X + 0.005,相关指数为=0.4472;8小组先将数据依变换 =/ , = y2进行整理,再对口,作线性回归分析,得到: 回归方程为畲=-0.5006m + 0.4922,相关指数产=0.9375.根据统计学知识,下列方程中,最有可能是该粒子运动轨迹方程的是()A. 0.5993x-y+ 0.005 = 0B. 0.5006% + y 0.4922 = 0" 0.5006X2 . y2_ x2 0.5006y2.C.1= 1D.1= 10.49220.49220.49220.4922【答案】C【解析】由统计学知识可知,R2越大,拟合效果越好,又人小组的相关指数/?2=0.4472, B小组的相关指数R2=().9375,组的拟合效果好,贝IJP1归方程为u = -0.5006+0.4922,又v=),2,.)2=-0.5006+0.4922,即竺让+上=1. 0.49220.4922故选:C.6(*)【多选题】下列说法正确的是()A.在做回归分析时,残差图中残差点分布的带状区域的宽度越窄表示回归效果越差B.某地气象局预报:6月9日本地降水概率为90%,结果这天没下雨,这表明天气预报并不科学C.回归分析模型中,残差平方和越小,说明模型的拟合效果越好D.在回归直线方程J = 0.1+ 10中,当解释变量每增加1个单位时,预报变量多增加0.1个单位【答案】CD【解析】对于A,可用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这 样的模型比较合适.带状区域的宽度越窄,说明模型的拟合精度越高.故A错误;对于B, 6月9日本地降水概率为90%,只是表明下雨的可能性是90%,有可能这天不下雨,不能说明 天气预报并不科学,故B错误;在回归分析模型中,残差平方和越小,说明模型的拟合效果越好,故C止确;在回归直线方程,= 0.1%+ 10中,当解释变量x每增加1个单位时,预报变量y增加0.1个单位,故。正 确.故选:CD.7()【多选题】小明同学在做市场调查时得到如下样本数据X13610y8a42他由此得到回归直线的方程为y = -2.1x + 15.5,则下列说法正确的是()A.变量与y线性负相关B.当 = 2时可以估计y= 11.3C. a = 6D.变量与y之间是函数关系【答案】ABC【解析】由回归直线的方程为y = -2.Lt+15.5,可知变量x与),线性负相关,故A正确;当 m2 时,y =-2.1x2 +15.5 = 11.3,故 8 正确: 一 1+3+6+10- - 8+Q+4+214+a X = 5, V =,4/44样本点的中心坐标为(5,4代入y =-2.11+15.5,得华=-2.1x5 +15.5,解得。=6,故 C 正确;变量x与),之间具有线性负相关关系,不是函数关系,故。错误.故选:ABC.8(*)【多选题】已知由样本数据点集合(,) = !_, 2,九求得的线性回归方程为9=1.5% + 0.5, x = 3.现发现两个数据点(1.8, 3.8)和(4.2, 6.2)的误差较大,去除这两个数据点后重新求得的回归直线 I的斜率为1.2,则下列说法中正确的有()A.去除这两个数据点前,当变量无每增加1个单位长度时,变量y减少1.5个单位长度B.去除这两个数据点后的I可归直线过点(3, 5)C.去除这两个数据点后y的估计值的增长速度变慢D.去除这两个数据点后,当x = 4时,y的估计值为6.2【答案】BCD【解析】去掉两个数据点(1.8, 3.8)和(4.2, 6.2)之前,1=1.5x+0.5,所以x每增加1个单位,y增加1.5个单位,故选项A错误;去掉两个数据点(1.8, 3.8)和(4.2, 6.2)之前,回归方程过叵,刃,则歹=1.5x3+ 0.5 = 5,而去掉的2个点5 ="岁=3,竺詈=5,所以去掉后的无歹没有变化,故去除这两个数据点后的回归直线过点(3, 5),故选项3正确:去掉两个数据点后,回归方程的斜率由1.5变为1.2,故去除这两个数据点后),的估计值的增长速度变慢,故选项C正确:去掉两个数据点后,得到样本的中心为(3, 5),则有5=L2x3+a,解得斫1.4,故回归方程变为广1.2X+1.4,当x=4时,产1.2x4+1.4=62 故选项D正确.故选:BCD.%)已知样本点(勺,yt)(i = 1, 2, 3, ri)的回归直线方程为y = 2x + a,若样本点(r, 1)与(1, s)的残差相同,则s与r的关系式为.(附:对于样本点(左,%)的残差酊=州-%)【答案】尸32【解析】回归直线方程为夕=2x+a,样本点(r, 1)与(1, s)的残差相同,; l-(2r+a尸s-(2+a),即 s=3-2r.故答案为:尸3-2人1()()下列说法:分类变量力与8的随机变晶炉越大,说明“力与3有关系”的可信度越大,以模型丫 = ce去拟合一组数据时,为了求出回归方程,设2 =例人将其变换后得到线性方程z = 0.3%+ 4,则c, R的值分别是和0.3,在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高, 若变量和y满足关系y = -0.1x + L且变量y与z正相关,则x与z也正相关,正确的个数是.【答案】3【解析】对于,根据独立性原理知,分类变量A与3的随机变量片越大,说明”与8有关系”的可信 度越大,正确;对于,根据回归模型和对数的运算性质知,以模型产c/去拟合一组数据时,为了求出回归方程,设年/町,将其变换后得到线性方程z=0.3x+4,则c, k的值分别是/和0.3,所以正确;对于,利用残差分析模型拟合效果时,在残差图中,残差点分布的带状区域