2020高中数学第1章统计案例章末复习课学案1-.pdf
学必求其心得,业必贵于专精 -1-第 1 章 统计案例 回归分析问题 建立回归模型的步骤:(1)确定研究对象,明确变量x,y.(2)画出变量的散点图,观察它们之间的关系(如是否存在线性相关关系等)(3)由经验确定回归方程的类型(如我们观察到数据呈线性相关关系,则选用回归直线方程错误!bxa)(4)按一定规则估计回归方程中的参数(如最小二乘法)(5)得出回归方程 另外,回归直线方程只适用于我们所研究的样本的总体,而且一般都有时间性样本的取值范围一般不能超过回归直线方程的适用学必求其心得,业必贵于专精 -2-范围,否则没有实用价值【例 1】假设一个人从出生到死亡,在每个生日那天都测量身高,并作出这些数据散点图,则这些点将不会落在一条直线上,但在一段时间内的增长数据有时可以用线性回归来分析下表是一位母亲给儿子作的成长记录:年龄/周岁 3 4 5 6 7 8 9 身高/cm 90。8 97。6 104.2 110。9 115。7 122.0 128.5 年龄/周岁 10 11 12 13 14 15 16 身高/cm 134。2 140。8 147.6 154。2 160.9 167。6 173。0(1)作出这些数据的散点图;(2)求出这些数据的线性回归方程;(3)对于这个例子,你如何解释回归系数的含义?(4)解释一下回归系数与每年平均增长的身高之间的联系 思路探究(1)作出散点图,确定两个变量是否线性相关;(2)求出错误!,错误!,写出线性回归方程;(3)回归系数即错误!的值,是一个单位变化量;(4)根据线性回归方程可找出其规律 解(1)数据的散点图如下:学必求其心得,业必贵于专精 -3-(2)用y表示身高,x表示年龄,因为错误!错误!(34516)9.5,错误!错误!(90.897.6173.0)132,错误!错误!错误!6.316,错误!错误!b错误!71.998,所以数据的线性回归方程为y6。316x71。998.(3)在该例中,回归系数 6。316 表示该人在一年中增加的高度(4)回归系数与每年平均增长的身高之间近似相等 1假定小麦基本苗数x与成熟期有效穗y之间存在相关关系,今测得 5 组数据如下:x 15。0 25。8 30.0 36.6 44。4 y 39.4 42.9 42。9 43。1 49.2(1)以x为解释变量,y为预报变量,作出散点图;(2)求y与x之间的回归方程,对于基本苗数 56。7 预报有效穗 学必求其心得,业必贵于专精 -4-解(1)散点图如下 (2)由图看出,样本点呈条状分布,有比较好的线性相关关系,因此可以用回归方程刻画它们之间的关系 设回归方程为错误!bxa,错误!30。36,错误!43。5,错误!错误!5 101。56,错误!错误!9 511。43.错误!错误!1 320。66,错误!21 892.25,错误!2921。729 6,错误!iyi6 746.76。由错误!错误!0.29,错误!错误!错误!错误!43.50.2930.3634。70.故所求的线性回归方程为错误!34。700。29x.当x56.7 时,错误!34。700。2956。751。143.估计成熟期有效穗约为 51.143。独立性检验 独立性检验的基本思想类似于反证法,要确认两个分类变量有关系这一结论成立的可信程度,首先假设该结论不成立,即假设结论“两个分类变量没有关系”成立,在该假设下,我们构造的随机变量学必求其心得,业必贵于专精 -5-2应该很小,如果由观测数据计算得到的2的观测值很大,则在一定程度上说明假设不合理,根据随机变量2的含义,可以通过P(26.635)0。01 来评价假设不合理的程度,由实际计算出2 6。635 说明假设不合理的程度约为 99,即两个分类变量有关系这一结论成立的可信程度为 99%。独立性检验的一般步骤:(1)根据样本数据制成 22 列联表(2)根据公式2错误!计算2的值(3)比较2与临界值的大小关系并作统计推断【例 2】在某校高三年级一次全年级的大型考试中数学成绩优秀和非优秀的学生中,物理、化学、总分也为优秀的人数如下表所示,则数学成绩优秀与物理、化学、总分也优秀哪个关系较大?物理 化学 总分 数学优秀 228 225 267 数学非优秀 143 156 99 注:该年级此次考试中数学成绩优秀的有 360 人,非优秀的有 880人 思路探究 分别列出数学与物理,数学与化学,数学与总分学必求其心得,业必贵于专精 -6-优秀的 22 列联表,求k的值由观测值分析,得出结论 解(1)列出数学与物理优秀的 22 列联表如下:物理优秀 物理非优秀 合计 数学优秀 228 132 360 数学非优秀 143 737 880 合计 371 869 1 240 n11228,n12132,n21143,n22737,n1360,n2880,n1371,n2869,n1 240。代入公式2nn11n22n12n212n1n2n1n2 得21错误!270。114 3.(2)列出数学与化学优秀的 22 列联表如下:化学优秀 化学非优秀 合计 数学优秀 225 135 360 数学非优秀 156 724 880 合计 381 859 1 240 n11225,n12135,n21156,n22724,n1360,n2880,n1381,n2859,n1 240。学必求其心得,业必贵于专精 -7-代入公式,得22错误!240.611 2.(3)列出数学与总分优秀的 22 列联表如下:总分优秀 总分非优秀 合计 数学优秀 267 93 360 数学非优秀 99 781 880 合计 366 874 1 240 n11267,n1293,n2199,n22781,n1360,n2880,n1366,n2874,n1 240.代入公式,得23错误!486.122 5.由上面计算可知数学成绩优秀与物理、化学、总分优秀都有关系,由计算分别得到2的统计量都大于临界值6.635,由此说明有99的把握认为数学优秀与物理、化学、总分优秀都有关系,但与总分优秀关系最大,与物理次之 2某推销商为某保健药品做广告,在广告中宣传:“在服用该药品的 105 人中有 100 人未患A疾病 经调查发现,在不服用该药品的 418 人中仅有 18 人患A疾病 请用所学知识分析该药品对预防A疾病是否有效 学必求其心得,业必贵于专精 -8-解 将问题中的数据写成如下 22 列联表:患A疾病 不患A疾病 合计 服用该药品 5 100 105 不服用该药品 18 400 418 合计 23 500 523 将上述数据代入公式2错误!中,计算可得20.041 4,因为 0.041 43.841,故没有充分理由认为该保健药品对预防A疾病有效。转化与化归思想在回归分析中的应用 回归分析是对抽取的样本进行分析,确定两个变量的相关关系,并用一个变量的变化去推测另一个变量的变化如果两个变量非线性相关,我们可以通过对变量进行变换,转化为线性相关问题【例3】某商店各个时期的商品流通率y(%)的商品零售额x(万元)资料如下:x 9。5 11.5 13.5 15.5 17.5 y 6 4.6 4 3.2 2。8 x 19。5 21。5 23。5 25.5 27.5 y 2.5 2.4 2.3 2.2 2.1 学必求其心得,业必贵于专精 -9-散点图显示出x与y的变动关系为一条递减的曲线经济理论和实际经验都证明,流通率y决定于商品的零售额x,体现着经营规模效益,假定它们之间存在关系式:ya错误!。试根据上表数据,求出a与b的估计值,并估计商品零售额为 30 万元的商品流通率 解 设u错误!,则yabu,得下表数据:u 0。105 3 0。087 0 0.074 1 0。064 5 0.057 1 y 6 4。6 4 3。2 2.8 u 0。051 3 0.046 5 0。042 6 0.039 2 0。036 4 y 2.5 2.4 2.3 2。2 2.1 由表中数据可得y与u之间的回归直线方程为 错误!0。187 556.25 u。所以所求的回归方程为错误!0.187 5错误!。当x30 时,y1。687 5,即商品零售额为 30 万元时,商品流通率为 1。687 5%.3 在某化学实验中,测得如下表所示的 6 对数据,其中x(单位:min)表示化学反应进行的时间,y(单位:mg)表示未转化物质的质量 x/min 1 2 3 4 5 6 学必求其心得,业必贵于专精 -10-y/mg 39。8 32.2 25。4 20.3 16。2 13.3(1)设y与x之间具有关系ycdx,试根据测量数据估计c和d的值(精确到 0.001);(2)估计化学反应进行到 10 min 时未转化物质的质量(精确到0.1)解 (1)在ycdx两边取自然对数,令 ln yz,ln ca,ln 错误!b,则zabx.由已知数据,得 x 1 2 3 4 5 6 y 39.8 32.2 25.4 20.3 16。2 13.3 z 3.684 3.472 3。235 3。011 2.785 2.588 由公式得错误!3.905 5,错误!0。221 9,则线性回归方程为错误!3.905 50。221 9x.而 ln c3.905 5,ln d0.221 9,故c49。675,d0。801,所以c,d的估计值分别为 49.675,0。801。(2)当x10 时,由(1)所得公式可得y5.4(mg)所以化学反应进行到 10 min 时未转化物质的质量约为 5.4 mg。1为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区 5 户家庭,得到如下统计数据表:学必求其心得,业必贵于专精 -11-收入x(万元)8。2 8。6 10。0 11。3 11。9 支出y(万元)6.2 7.5 8.0 8。5 9。8 根据上表可得回归直线方程错误!bxa,其中错误!0。76,错误!错误!错误!错误!。据此估计,该社区一户年收入为 15 万元家庭的年支出为()A11.4 万元 B11。8 万元 C12。0 万元 D12.2 万元 解析 由题意知,x错误!10,错误!错误!8,错误!80.76100.4,当x15 时,错误!0.76150.411。8(万元)答案 B 2根据如下样本数据 x 3 4 5 6 7 8 y 4。0 2.5 0.5 0.5 2.0 3.0 得到的回归方程为错误!bxa,则()Aa0,b0 Ba0,b0 Ca0,b0 Da0,b0 学必求其心得,业必贵于专精 -12-解析 作出散点图如下:观察图象可知,回归直线y,bxa的斜率b0,当x0 时,错误!a0。故a0,b0.答案 B 3下图是某地区 2000 年至 2016 年环境基础设施投资额y(单位:亿元)的折线图 为了预测该地区 2018 年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型 根据 2000 年至 2016 年的数据(时间变量t的值依次为 1,2,17)建立模型:错误!30.413.5t;根据 2010 年至 2016 年的数据(时间变量t的值依次为 1,2,,7)建立模型:错误!9917。5t.(1)分别利用这两个模型,求该地区 2018 年的环境基础设施投学必求其心得,业必贵于专精 -13-资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由 解(1)利用模型,该地区 2018 年的环境基础设施投资额的预测值为错误!30.413.519226.1(亿元)利用模型,该地区 2018 年的环境基础设施投资额的预测值为 错误!9917.59256。5(亿元)(2)利用模型得到的预测值更可靠 理由如下:()从折线图可以看出,2000 年至 2016 年的数据对应的点没有随机散布在直线y30。413。5t上下,这说明利用 2000 年至 2016年的数据建立的线性模型不能很好地描述环境基础设施投资额的变化趋势.2010 年相对 2009 年的环境基础设施投资额有明显增加,2010年至 2016 年的数据对应的点位于一条直线的附近,这说明从2010 年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010 年至 2016 年的数据建立的线性模型错误!9917。5t可以较好地描述 2010 年以后的环境基础设施投资额的变化趋势,因此利用模型得到的预测值更可靠()从计算结果看,相对于 2016 年的环境基础设施投资额 220学必求其心得,业必贵于专精 -14-亿元,由模型得到的预测值 226.1 亿元的增幅明显偏低,而利用模型得到的预测值的增幅比较合理,说明利用模型得到的预测值更可靠(以上给出了2种理由,答出其中任意一种或其他合理理由均可)4某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式为比较两种生产方式的效率,选取40 名工人,将他们随机分成两组,每组 20 人第一组工人用第一种生产方式,第二组工人用第二种生产方式根据工人完成生产任务的工作时间(单位:min)绘制了如图所示的茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求 40 名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:超过m 不超过m 第一种生产方式 第二种生产方式 (3)根据(2)中的列联表,能否有 99的把握认为两种生产方式的效率有差异?学必求其心得,业必贵于专精 -15-附:2nn11n22n12n212n1n2n1n2。解(1)第二种生产方式的效率更高 理由如下:(i)由茎叶图可知:用第一种生产方式的工人中,有 75的工人完成生产任务所需时间至少 80 分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多 79 分钟因此第二种生产方式的效率更高()由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为 85。5 分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为 73.5 分钟因此第二种生产方式的效率更高()由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于 80 分钟;用第二种生产方式的工人完成生产任务平均所需时间低于 80 分钟因此第二种生产方式的效率更高()由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎 8 上的最多,关于茎 8 大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎 7 上的最多,关于学必求其心得,业必贵于专精 -16-茎 7 大致呈对称分布又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少因此第二种生产方式的效率更高(以上给出了 4 种理由,答出其中任意一种或其他合理理由均可)(2)由茎叶图知m错误!80.列联表如下:超过m 不超过m 第一种生产方式 15 5 第二种生产方式 5 15(3)由于2错误!106.635,所以有 99%的把握认为两种生产方式的效率有差异 5 如图是我国 2008 年至 2014 年生活垃圾无害化处理量(单位:亿吨)的折线图 (1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相学必求其心得,业必贵于专精 -17-关系数加以说明;(2)建立y关于t的回归方程(系数精确到 0。01),预测 2016年我国生活垃圾无害化处理量 附注:参考数据:错误!错误!yi9。32,错误!错误!tiyi40.17,错误!0。55,错误!2。646。参考公式:相关系数r错误!,回归方程错误!abt中斜率和截距的最小二乘法估计公式分别为错误!错误!,错误!错误!错误!错误!.解(1)由折线图中的数据和附注中的参考数据得 错误!4,错误!错误!(ti错误!)228,错误!0。55,错误!错误!(ti错误!)(yi错误!)错误!错误!tiyi错误!错误!错误!yi40。1749。322。89,r错误!0。99.因为y与t的相关系数近似为 0。99,说明y与t的线性相关程度相当大,从而可以用线性回归模型拟合y与t的关系(2)由错误!错误!1。331 及(1)得 b错误!错误!0。103.错误!错误!错误!错误!1.3310。10340.92。学必求其心得,业必贵于专精 -18-所以y关于t的回归方程为错误!0.920.10t。将 2016 年对应的t9 代入回归方程得错误!0.920.1091.82。所以预测 2016 年我国生活垃圾无害化处理量约为 1.82 亿吨