欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    2020版《微点教程》高考人教A版理科数学一轮复习文档:第九章 第四节 变量间的相关关系、统计案例 .docx

    • 资源ID:2696732       资源大小:638.38KB        全文页数:25页
    • 资源格式: DOCX        下载积分:5金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要5金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    2020版《微点教程》高考人教A版理科数学一轮复习文档:第九章 第四节 变量间的相关关系、统计案例 .docx

    第四节变量间的相关关系、统计案例2019考纲考题考情1两个变量的线性相关(1)正相关在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关。(2)负相关在散点图中,点散布在从左上角到右下角的区域,对于两个变量的这种相关关系,我们将它称为负相关。(3)线性相关关系、回归直线如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫做回归直线。2回归方程(1)最小二乘法使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法。(2)回归方程方程x是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),(xn,yn)的回归方程,其中 , 是待定参数。3回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法。(2)样本点的中心对于一组具有线性相关关系的数据(x1,y1),(x2,y2),(xn,yn)中(,)称为样本点的中心。(3)相关系数当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关。r的绝对值越接近于1,表明两个变量的线性相关性越强。r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系。通常|r|大于075时,认为两个变量有很强的线性相关性。4独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量。(2)列联表:列出两个分类变量的频数表,称为列联表。假设有两个分类变量X和Y,它们的可能取值分别为x1,x2和y1,y2,其样本频数列联表(称为22列联表)为22列联表y1y2总计x1ababx2cdcd总计acbdabcd构造一个随机变量K2,其中nabcd为样本容量。(3)独立性检验利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验。1求解回归方程的关键是确定回归系数,应充分利用回归直线过样本中心点(,)。2根据K2的值可以判断两个分类变量有关的可信程度,若K2越大,则两分类变量有关的把握越大。3根据回归方程计算的值,仅是一个预报值,不是真实发生的值。 一、走进教材1(必修3P90例题改编)某研究机构对高三学生的记忆力x和判断力y进行统计分析,所得数据如表:x681012y2356则y对x的线性回归直线方程为()A23x07 B23x07C07x23 D07x23解析因为iyi6283105126158,9,4。所以07,407923。故线性回归直线方程为07x23。故选C。答案C2(选修23P97练习T1改编)为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下22列联表:理科文科男1310女720已知P(K23841)005,P(K25024)0025。根据表中数据,得到K2的观测值k4844。则认为选修文科与性别有关系出错的可能性为_。解析K2的观测值k4844,这表明小概率事件发生。根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%。答案5%二、走近高考3(2017山东高考)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其回归直线方程为x。已知i225,i1 600,4。该班某学生的脚长为24,据此估计其身高为()A160 B163C166 D170解析易知225,160。因为4,所以1604225,解得70,所以回归直线方程为4x70,当x24时,9670166。故选C。答案C三、走出误区微提醒:混淆相关关系与函数关系;不知道回归直线必过样本点中心;对独立性检验K2值的意义不清楚。4两个变量的相关关系有正相关,负相关,不相关,则下列散点图从左到右分别反映的变量间的相关关系是()A BC D解析第一个散点图中,散点图中的点是从左下角区域分布到右上角区域,则是正相关;第三个散点图中,散点图中的点是从左上角区域分布到右下角区域,则是负相关;第二个散点图中,散点图中的点的分布没有什么规律,则是不相关,所以应该是。答案D5某医疗机构通过抽样调查(样本容量n1 000),利用22列联表和K2统计量研究患肺病是否与吸烟有关。计算得K24453,经查阅临界值表知P(K23841)005,现给出四个结论,其中正确的是()A在100个吸烟的人中约有95个人患肺病B若某人吸烟,那么他有95%的可能性患肺病C有95%的把握认为“患肺病与吸烟有关”D只有5%的把握认为“患肺病与吸烟有关”解析由已知数据可得,有100595%的把握认为“患肺病与吸烟有关”。故选C。答案C6某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验。根据收集到的数据(如下表),由最小二乘法求得回归方程为067x549。零件数x/个1020304050加工时间y/min62758189现发现表中有一个数据模糊看不清,则该数据为_。解析设表中那个模糊看不清的数据为m。由表中数据得30,所以样本点的中心为,因为样本点的中心在回归直线上,所以06730549,解得m68。答案68考点一 变量相关关系的判断【例1】(1)下列四个散点图中,变量x与y之间具有负的线性相关关系的是()A BC D(2)为研究语文成绩和英语成绩之间是否具有线性相关关系,统计某班学生的两科成绩得到如图所示的散点图(x轴、y轴的单位长度相同),用回归直线方程x近似地刻画其相关关系,根据图形,以下结论最有可能成立的是()A线性相关关系较强,的值为125B线性相关关系较强,的值为083C线性相关关系较强,的值为087D线性相关关系较弱,无研究价值解析(1)观察散点图可知,只有D选项的散点图表示的是变量x与y之间具有负的线性相关关系。故选D。(2)由散点图可以看出两个变量所构成的点在一条直线附近,所以线性相关关系较强,且应为正相关,所以回归直线方程的斜率应为正数,且从散点图观察,回归直线方程的斜率应该比yx的斜率要小一些,综上可知应选B。答案(1)D(2)B相关关系的直观判断方法就是作出散点图,若散点图呈带状且区域较窄,说明两个变量有一定的线性相关性,若呈曲线型也是有相关性,若呈图形区域且分布较乱则不具有相关性。 【变式训练】(1)在一组样本数据(x1,y1),(x2,y2),(xn,yn)(n2,x1,x2,xn不全相等)的散点图中,若所有样本点(xi,yi)(i1,2,n)都在直线yx1上,则这组样本数据的样本相关系数为()A1 B0 C D1(2)已知变量x和y满足关系y01x1,变量y与z正相关。下列结论中正确的是()Ax与y正相关,x与z负相关Bx与y正相关,x与z正相关Cx与y负相关,x与z负相关Dx与y负相关,x与z正相关解析(1)完全的线性关系,且为负相关,故其相关系数为1。故选A。(2)由y01x1,知x与y负相关,即y随x的增大而减小,又y与z正相关,所以z随y的增大而增大,减小而减小,所以z随x的增大而减小,x与z负相关,故选C。答案(1)A(2)C考点二 线性回归分析【例2】改革开放40年来,全国居民人均可支配收入由171元增加到26万元,中等收入群体持续扩大。我国贫困人口累计减少74亿人,贫困发生率下降944个百分点,谱写了人类反贫困史上的辉煌篇章。某地级市共有200 000名中学生,其中有7%的学生在2017年享受了“国家精准扶贫”政策,在享受“国家精准扶贫”政策的学生中困难程度分为三个等次:一般困难、很困难、特别困难,且人数之比为532,为进一步帮助这些学生,当地市政府设立“专项教育基金”,对这三个等次的困难学生每年每人分别补助1 000元、1 500元、2 000元。经济学家调查发现,当地人均可支配年收入较上一年每增加n%,一般困难的学生中有3n%会脱贫,脱贫后将不再享受“精准扶贫”政策,很困难的学生中有2n%转为一般困难学生,特别困难的学生中有n%转为很困难学生。现统计了该地级市2013年到2017年共5年的人均可支配年收入,对数据初步处理后得到了如图所示的散点图和表中统计量的值,其中年份x取13时代表2013年,x取14时代表2014年,依此类推,且x与y(单位:万元)近似满足关系式x,(2013年至2019年该市中学生人数大致保持不变)(yi)2(xi)(yi)08311(1)估计该市2018年人均可支配年收入为多少万元?(2)试问该市2018年的“专项教育基金”的财政预算大约为多少万元?附:对于一组具有线性相关关系的数据(u1,v1),(u2,v2),(un,vn),其回归直线方程u的斜率和截距的最小二乘估计分别为,。解(1)因为(1314151617)15,所以(xi)2(2)2(1)2122210,所以01,08011507,所以01x07。当x18时,2018年人均可支配年收入y01180711(万元)。(2)由题意知2017年时该市享受“国家精准扶贫”政策的学生共200 0007%14 000人。一般困难、很困难、特别困难的中学生依次有7 000人、4 200人、2 800人,2018年人均可支配年收入比2017年增长0110%。故2018年该市特别困难的中学生有2 800(110%)2 520人,很困难的学生有4 200(120%)2 80010%3 640人,一般困难的学生有7 000(130%)4 20020%5 740人。所以2018年的“专项教育基金”的财政预算大约为5 740013 6400152 520021 624(万元)。1对变量值的预测主要是由给出的变量的值预测与其有相关关系的变量的值,一般方法是:若已知回归直线方程,则直接将数值代入求得预测值。2回归模型的拟合效果主要有两种途径判断(1)利用数据的散点图,观察数据对应的点与回归直线的位置关系进行分析;(2)利用残差进行分析,最简单的作法是选择数据中的具有代表性的点进行预报,比较预报值与真实值的差距进行分析。 【变式训练】(2018全国卷)如图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图。为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型。根据2000年至2016年的数据(时间变量t的值依次为1,2,17)建立模型:304135t;根据2010年至2016年的数据(时间变量t的值依次为1,2,7)建立模型:99175t。(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由。解(1)利用模型,该地区2018年的环境基础设施投资额的预测值为304135192261(亿元)。利用模型,该地区2018年的环境基础设施投资额的预测值为9917592565(亿元)。(2)利用模型得到的预测值更可靠。理由如下:a从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线304135t上下,这说明利用2000年至2016年的数据建立的线性模型不能很好地描述环境基础设施投资额的变化趋势。2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型99175t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型得到的预测值更可靠。b从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型得到的预测值2261亿元的增幅明显偏低,而利用模型得到的预测值的增幅比较合理,说明利用模型得到的预测值更可靠。以上2种理由,答出其中一种或其他合理理由均可。考点三 独立性检验【例3】(2018全国卷)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式。为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人。第一组工人用第一种生产方式,第二组工人用第二种生产方式。根据工人完成生产任务的工作时间(单位:min)绘制了如图所示的茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:超过m不超过m第一种生产方式第二种生产方式(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?附:K2,解(1)第二种生产方式的效率更高。理由如下:由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80 min,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79 min。因此第二种生产方式的效率更高。由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为855 min,用第二种生产方式的工人完成生产任务所需时间的中位数为735 min。因此第二种生产方式的效率更高。由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80 min;用第二种生产方式的工人完成生产任务平均所需时间低于80 min,因此第二种生产方式的效率更高。由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布。又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方式的效率更高。以上4种理由,答出其中一种或其他合理理由均可。(2)由茎叶图知m80。列联表如下:超过m不超过m第一种生产方式155第二种生产方式515(3)由于K210>6635,所以有99%的把握认为两种生产方式的效率有差异。1在22列联表中,如果两个变量没有关系,则应满足adbc0。|adbc|越小,说明两个变量之间关系越弱;|adbc|越大,说明两个变量之间关系越强。2解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论。独立性检验的一般步骤:(1)根据样本数据制成22列联表;(2)根据公式K2计算K2的观测值k;(3)比较观测值k与临界值的大小关系,作统计推断。 【变式训练】某省会城市地铁将于2019年6月开始运营,为此召开了一个价格听证会,拟定价格后又进行了一次调查,随机抽查了50人,他们的收入与态度如下:月收入(单位:百元)15,25)25,35)35,45)45,55)55,65)65,75赞成定价者人数123534认为价格偏高者人数4812521(1)若以区间的中点值为该区间内的人均月收入,求参与调查的人员中“赞成定价者”与“认为价格偏高者”的月平均收入的差异是多少(结果保留2位小数);(2)由以上统计数据填下面22列联表,分析是否有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”。月收入不低于55百元的人数月收入低于55百元的人数总计认为价格偏高者赞成定价者总计附:K2。P(K2k0)005001k038416635解(1)“赞成定价者”的月平均收入为x15056。“认为价格偏高者”的月平均收入为x23875,所以“赞成定价者”与“认为价格偏高者”的月平均收入的差距是x1x2505638751181(百元)。(2)根据条件可得22列联表如下:月收入不低于55百元的人数月收入低于55百元的人数总计认为价格偏高者32932赞成定价者71118总计104050K26272<6635,所以没有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”。1(配合例2使用)如图是某企业2012年至2018年的污水净化量(单位:吨)的折线图。注:年份代码17分别对应年份20122018。(1)由折线图看出,可用线性回归模型拟合y和t的关系,请用相关系数加以说明;(2)建立y关于t的回归方程,预测2019年该企业的污水净化量;(3)请用数据说明回归方程预报的效果。参考数据:54,(ti)(yi)21,374,(yii)2。参考公式:相关系数r,线性回归方程t,。反映回归效果的公式为:R21,其中R2越接近于1,表示回归的效果越好。解(1)由折线图中的数据得,4,(ti)228,(yi)218,所以r0935。因为y与t的相关系数近似为0935,说明y与t的线性相关程度相当大,所以可以用线性回归模型拟合y与t的关系。(2)因为54,所以54451,所以y关于t的线性回归方程为tt51。将2019年对应的t8代入得85157,所以预测2019年该企业污水净化量约为57吨。(3)因为R21110875,所以“污水净化量的差异”有875%是由年份引起的,这说明回归方程预报的效果是良好的。2(配合例3使用)龙虎山花语世界位于龙虎山主景区排衙峰下,是一座独具现代园艺风格的花卉公园,园内汇集了3 000余种花卉苗木,一年四季姹紫嫣红花香四溢。花园景观融合法、英、意、美、日、中六大经典园林风格,景观设计唯美新颖,玫瑰花园、香草花溪、台地花海、植物迷宫、儿童乐园等景点错落有致,交相呼应又自成一体,是世界园艺景观的大展示该景区自2015年春建成,试运行以来,每天游人如织,郁金香、向日葵、虞美人等赏花旺季日入园人数最高达万人。某学校社团为了了解进园旅客的具体情形以及采集旅客对园区的建议,特别在2018年4月1日赏花旺季对进园游客进行抽样调查,从当日12 000名游客中抽取100人进行统计分析,结果如下:年龄(岁)频数频率男女0,10)10015510,20)20,30)25025121330,40)2002101040,50)10016450,60)10013760,70)50051470,80)30031280,90200202总计1001004555(1)填写表中的空位,补全如图所示的频率分布直方图,并估计2018年4月1日接待的游客中30岁以下的游客人数。(2)完成下面22列联表,并判断能否有975%的把握认为在赏花游客中“年龄是否达到50岁以上(含50岁)”与“性别”有关。50岁以上(含50岁)50岁以下总计男女总计P(K2k0)0150100050025001000050001k020722706384150246635787910828(3)按分层抽样(分50岁以上(含50岁)与50岁以下两层)抽取被调查的100位游客中的10人作为幸运游客免费领取龙虎山内部景区门票,再从这10人中选取2人接受电视台采访,设这2人中年龄在50岁以上(含50岁)的人数为,求的分布列。解(1)表中的空位分别为15,015,7,8。补全后的频率分布直方图如下:年龄在30岁以下的频率为0101502505,以频率作为概率,估计2018年4月1日接待的游客中30岁以下的游客人数为12 000056 000。(2)完成22列联表如下:50岁以上(含50岁)50岁以下总计男54045女154055总计2080100K2的观测值k4040<5024,所以没有975%的把握认为在赏花游客中“年龄是否达到50岁以上(含50岁)”与“性别”有关。(3)由分层抽样的特点知,这10人中年龄在50岁以上(含50岁)的人数为10022,年龄在50岁以下的人数为8,故的所有可能取值为0,1,2,则P(0),P(1),P(2),故的分布列为012P

    注意事项

    本文(2020版《微点教程》高考人教A版理科数学一轮复习文档:第九章 第四节 变量间的相关关系、统计案例 .docx)为本站会员(荣***)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开