《第3节 成对数据的统计分析.doc》由会员分享,可在线阅读,更多相关《第3节 成对数据的统计分析.doc(24页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 第3节成对数据的统计分析考试要求1.了解样本相关系数的统计含义. 2.了解一元线性回归模型和22列联表,会运用这些方法解决简单的实际问题.知识诊断基础夯实【知识梳理】1.变量的相关关系(1)相关关系的分类:正相关和负相关.(2)线性相关:一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关.一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.2.样本相关系数(1)相关系数r的计算变量x和变量y的样本相关系数r的计算公式如下:r.(2)相关系数r的性质当r0时,称成对样本数据正相关;当r400空气质量好空气质
2、量不好附:2,0.0500.0100.001x3.8416.63510.828 解(1)由所给数据,得该市一天的空气质量等级为1,2,3,4的概率的估计值如下表:空气质量等级1234概率的估计值0.430.270.210.09(2)一天中到该公园锻炼的平均人次的估计值为(100203003550045)350.(3)根据所给数据,可得22列联表:人次400人次400空气质量好3337空气质量不好228零假设为H0:一天中到该公园锻炼的人次与该市当天的空气质量无关.根据列联表得25.8203.841x0.05.根据小概率值0.050的2独立性检验,可推断H0不成立,所以在犯错误的概率不超过0.0
3、5的前提下,可认为一天中到该公园锻炼的人次与该市当天的空气质量有关.分层精练巩固提升【A级基础巩固】1.(2023湘豫名校模拟)根据如表样本数据:x23456y42.50.523得到的经验回归方程为x,则()A.0,0 B.0,0C.0,0 D.0,0答案B解析由表中的数据可得,变量y随着x的增大而减小,则0,4,0.2,又经验回归方程x经过点(4,0.2),可得0.2.甲、乙、丙、丁四位同学各自对A,B两个变量的线性相关性做试验,并用回归分析方法分别求得样本相关系数r与残差平方和m,如下表:甲乙丙丁r0.820.780.690.85m106115124103则哪位同学的试验结果体现A,B两个
4、变量有更强的线性相关性?()A.甲 B.乙 C.丙 D.丁答案D解析r的绝对值越大,m越小,线性相关性越强.3.某种产品的广告费支出x与销售额y(单位:万元)之间的关系如下表:x24568y3040605070y与x的经验回归方程为6.5x17.5,当广告支出6万元时,随机误差的残差为()A.5 B.5.5 C.6 D.6.5答案D解析由题意结合经验回归方程的预测作用可得,当x6时,6.5617.556.5,则随机误差的残差为5056.56.5.4.(2023南昌模拟)某公司在20192023年的收入与支出情况如下表所示:收入x(亿元)2.22.64.05.35.9支出y(亿元)0.21.52
5、.02.53.8根据表中数据可得经验回归方程为0.8x,依此估计该公司收入为8亿元时的支出为()A.4.2亿元 B.4.4亿元 C.5.2亿元 D.5.4亿元答案C解析根据题表中的数据,得(2.22.64.05.35.9)4,(0.21.52.02.53.8)2,20.841.2,经验回归方程为0.8x1.2,当x8时,0.881.25.2(亿元),即该公司收入为8亿元时的支出为5.2亿元.5.(多选)(2023深圳模拟)某人工智能公司近5年的利润情况如下表所示:第x年12345利润y/亿元23457已知变量y与x之间具有线性相关关系,设用最小二乘法建立的经验回归方程为1.2x,则下列说法正确
6、的是()A. 0.6B.变量y与x之间的线性相关系数r0C.预测该人工智能公司第6年的利润约为7.8亿元D.该人工智能公司这5年的利润的方差小于2答案AC解析由题表可知,3,4.2,由经验回归直线恒过点(,),得4.21.23,即0.6,故A正确;由A可得经验回归方程为1.2x0.6,显然为正相关,其相关系数r0,故B错误;令x6,则1.260.67.8,故C正确;该人工智能公司这5年的利润的方差s2(24.2)2(34.2)2(44.2)2(54.2)2(74.2)22.962,故D错误.6.(多选)(2023大连模拟)变量x与变量y的20对数据记为(xi,yi),其中iN*,i20,xi,
7、yi,根据最小二乘法求得经验回归方程是x,变量间的相关系数为r,则下列说法中正确的是()A.利用经验回归方程计算所得的i与实际值yi必有误差B.经验回归直线x必过点(,)C.若所有的点(xi,yi)都在经验回归直线x上,则|r|1D.若变量x与y正相关,则r0答案BCD解析对于A,若所有样本点都在经验回归直线上,则i与yi相等,故A错误;对于B,经验回归直线x必过样本数据的中心点(,),故B正确;对于C,若所有样本点都在经验回归直线上,则变量间的相关系数为1,即|r|1,故C正确;对于D,变量x与y正相关,则r0,故D正确.7.(多选)下列说法正确的是()A.设有一个经验回归方程35x,变量x
8、增加一个单位时,y平均增加5个单位B.若两个具有线性相关关系的变量的相关性越强,则样本相关系数r的值越接近于1C.在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合精度越高D.在一元线性回归模型中,决定系数R2越接近于1,说明回归的效果越好答案CD解析A中,因为35x,所以变量x增加一个单位时,y平均减少5个单位,故A错误;B中,线性相关性具有正负,相关性越强,则样本相关系数r的绝对值越接近于1,故B错误;C中,在残差图中,残差点分布的水平带状区域越窄,说明波动越小,即模型的拟合精度越高,故C正确;D中,在一元线性回归模型中,决定系数R2越接近于1,说明模型拟合的精度越高,即回归的效果越
9、好,故D正确.8.已知x和y的散点图如图所示,在相关关系中,若用yc1ec2x拟合时的决定系数为R,用x拟合时的决定系数为R,则R,R中较大的是_.答案R解析由散点图知,用yc1ec2x拟合的效果比x拟合的效果要好,所以RR,故较大者为R.9.(2023青岛模拟)某驾驶员培训学校为对比了解“科目二”的培训过程采用大密度集中培训与周末分散培训两种方式的效果,调查了105名学员,统计结果为:接受大密度集中培训的55个学员中有45名学员一次考试通过,接受周末分散培训的学员一次考试通过的有30个.根据统计结果,认为“能否一次考试通过与是否集中培训有关”犯错误的概率不超过_.附:2,其中nabcd.0.
10、050.0250.0100.001x3.8415.0246.63510.828答案0.025解析由题意可得列联表如下,培训方式合计集中分散一次考过453075一次未考过102030合计555010526.1095.024x0.025.10.某市物价部门对本市的5家商场的某商品一天的销售量及其价格进行调查,5家商场的售价x(元/件)和销售量y(件)的数据如下表所示:售价x99.5m10.511销售量y11n865由散点图可知,销售量y与售价x之间有较强的线性相关关系,其经验回归方程是3.2x40,且mn20,则其中的n_.答案10解析8,6,回归直线一定经过点(,),即63.240,即3.2mn
11、42.又mn20,所以m10,n10.11.(2022全国乙卷)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m3),得到如下数据:样本号i12345678910总和根部横截面积xi0.040.060.040.080.080.050.050.070.070.060.6材积量yi0.250.400.220.540.510.340.360.460.420.403.9并计算得x0.038,y1.615 8,xiyi0.247 4.(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵
12、的材积量;(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186 m2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.附:相关系数r,1.377.解(1)样本中10棵这种树木的根部横截面积的平均值0.06(m2),样本中10棵这种树木的材积量的平均值0.39(m3),据此可估计该林区这种树木平均一棵的根部横截面积为0.06 m2,平均一棵的材积量为0.39 m3.0.97.(3)设该林区这种树木的总材积量的估计值为Y m3,又已知树
13、木的材积量与其根部横截面积近似成正比,可得,解得Y1 209.则该林区这种树木的总材积量估计为1 209 m3.12.(2023青岛模拟)为进一步保护环境,加强治理空气污染,某市环保监测部门对市区空气质量进行调研,随机抽查了市区100天的空气质量等级与当天空气中SO2的浓度(单位:g/m3),整理数据得到下表:SO2的浓度空气质量等级0,50(50,150(150,4751(优)28622(良)5783(轻度污染)3894(中度污染)11211若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”,根据上述数据,回答以下问题.(1)估计事件
14、“该市一天的空气质量好,且SO2的浓度不超过150”的概率;(2)完成下面的22列联表.SO2的浓度合计0,150(150,475空气质量好空气质量不好合计(3)根据(2)中的列联表,依据小概率值0.01的独立性检验,能否据此推断该市一天的空气质量与当天SO2的浓度有关?解(1)由表格可知,该市一天的空气质量好,且SO2的浓度不超过150天的天数为2865746,则“该市一天的空气质量好,且SO2的浓度不超过150”的概率P0.46.(2)由表格数据可得到列联表如下:SO2的浓度合计0,150(150,475空气质量好461056空气质量不好242044合计7030100(3)零假设为H0:该
15、市一天的空气质量与当天SO2的浓度无关.由(2)知28.9366.635x0.01,根据小概率值0.01的2独立性检验,没有充分证据推断H0成立,因此可以认为H0不成立,即认为该市一天的空气质量与当天SO2的浓度有关.【B级能力提升】13.已知变量y与x的一组数据如表所示,根据数据得到y关于x的经验回归方程为ebx1.x1234ye2e3e5e6若e13,则x等于()A.6 B.7 C.8 D.9答案B解析由ebx1,得ln bx1,令zln y,则bx1,由题意知,2.5,4,因为(,)满足bx1,所以4b2.51,解得b2,所以2x1,所以e2x1,令e2x1e13,解得x7.14.(多选
16、)(2023武汉调研)某班级学生开展课外数学探究活动,将一杯冷水从冰箱中取出后静置,在25 的室温下测量水温y(单位:)随时间x(单位:min)的变化关系,在测量了15个数据后,根据这些实验数据(xi,yi)(i1,2,15)得到如下的散点图:现需要选择合适的回归方程进行回归分析,则根据散点图,合适的回归方程类型有()A.y25c1ec2x B.y25C.y25 D.yc1(x25)c2答案AC解析题中散点图的特点是单调递增,增长速度越来越慢,且y25.对于A,当c1,c20时,yc1ec2x为增函数,且其增长速度逐渐减小且小于0,故可能符合,故A正确;对于B,该函数值大于25,故B错误;对于
17、C,当c1,c20时,y为增函数,其增长速度逐渐减小且小于0,故可能符合,故C正确;对于D,当c10时,yc1x为直线,与散点图不符合,故D错误.15.(多选)已知由样本数据(xi,yi),i1,2,3,4,5,6,求得的经验回归方程为2x1,且3.现发现一个样本数据(8,12)误差较大,去除该数据后重新求得的经验回归直线l的纵截距依然是1,则下列说法正确的是()A.去除前变量x每增加1个单位,变量y一定增加2个单位B.去除后剩余样本数据中x的平均数为2C.去除后的经验回归方程为2.5x1D.去除后样本相关系数r变大答案BCD解析当3时,2317,则xi618,yi642,去除样本数据(8,1
18、2)后的新数据,2,6,设去除样本数据(8,12)后重新求得的经验回归方程为x1,则216,解得2.5,故去除后的经验回归方程为2.5x1,C正确;对于A选项,去除前变量x每增加1个单位,变量y大约增加2个单位,A错误;对于B选项,去除后剩余样本数据中x的平均数为2,B正确;对于D选项,去除了误差较大的样本数据后,线性相关性变强,因为y关于x为正相关,则r0,所以,样本相关系数r变大,D正确.16.数据显示,某企业近年加大了科技研发资金的投入,其科技投入x(百万元)与收益y(百万元)的数据统计如下:科技投入x1234567收益y19202231405070根据数据特点,甲认为样本点分布在指数型
19、曲线y2bxa的周围,据此他对数据进行了一些初步处理.如下表:xxiyixizi (yi)2 (yi)251401 2391492 134130其中zilog2 yi,zi.(1)请根据表中数据,建立y关于x的回归方程(系数精确到0.1);(2)乙认为样本点分布在直线ymxn的周围,并计算得经验回归方程为8.25x3,以及该回归模型的决定系数R0.893,试比较甲、乙两人所建立的模型,谁的拟合效果更好?由所得的结论,计算该企业欲使收益达到1亿元,科技投入的费用至少要多少百万元?(精确到0.1)附:对于一组数据(u1,v1),(u2,v2),(un,vn),其经验回归直线u的斜率和截距的最小二乘法估计公式分别为,决定系数:R21.参考数据:log2 52.3.解(1)将y2bxa两边取对数得log2 ybxa,令zlog2 y,则x,4,根据最小二乘估计可知0.3,50.343.8,回归方程为0.3x3.8,即20.3x3.8.(2)甲建立的回归模型:R10.939R0.893.甲建立的回归模型拟合效果更好.由知,甲建立的回归模型拟合效果更好.令20.3x3.8100,即0.3x3.8log2 10022log2 5,解得x9.3.科技投入的费用至少要9.3百万元,下一年的收益才能达到1亿元.
限制150内