BQ第四十一讲 两变量间的相关关系与统计案例.doc
高考数学一轮第四十一讲 第 1 页共 9 页 第四十一讲 两变量间的相关关系与统计案例考点解读【基础性考点知识突破基础性考点知识突破】一、回归分析1从散点图判断两个变量的相关关系正相关:点散布在从左下方到右上方的区域负相关:点散布在从左上方到右下方的区域2回归直线如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有相关关系这条直线叫做回归直线3回归直线方程个观测值的个点大致分布在一条直线的附近,若所求的直线方程为,nnyabx其中1122211()() ()nniiii ii nnii iixxyyx ynx y b xxxnxaybx 我们将这个方程叫做回归直线方程,叫做回归系数,相应的直线叫做回归直b a线注:其中,称为样本点的中心11ni ixxn 11ni iyyn( , )x y二、独立性检验1独立性检验的有关概念分类变量:可以利用不同“值”表示个体所属的不同类别的变量称为分类变量列联表:假设有两个分类变量和,它们的可能取值分别为和2 2XY12 ,x x,其样本频数列联表称为列联表,如下表所示:12 ,y y2 21y2y总计高考数学一轮第四十一讲 第 2 页共 9 页 1xabab2xcdcd总计acbdabcd 2统计量:为了使不同样本容量的数据有统一的评判标准,我们构造一个随机变2K量,其中为样本容量2() ()()()()n adbcKab cd ac bdnabcd 3两个分类变量和是否有关系的判断方法AB当时,没有充分的证据判定变量,有关联,可以认为变量,22.706K ABA没有关联;B时,有 90%的把握判定变量,有关联;22.706K AB当时,有 95%的把握判定变量,有关联;23.841K AB当时,有 99%的把握判定变量,有关联;26.635K AB当时,有 99. 9%的把握判定变量,有关联210.828K AB【培优性方法技巧综合培优性方法技巧综合】一、相关系数的意义及其应用1线性相关关系紧密程度的判定方法线性相关系数是从数值上来判断变量间的线性相关程度,若的值越接近于 1,说r|r明变量之间的线性相关程度越高;的值越接近于 0,说明变量之间的线性相关程度越|r低2正负相关性的判定方法当两个变量的关系可用一次函数表示时,若斜率为正,否则1r 1r .为正时表示正相关,为负时表示负相关借助散点图的增减特征来判断1r rr借助统计图形的特点来判断3我们可以利用相关系数来定量地衡量两个变量之间的线性相关关系,计算公式为高考数学一轮第四十一讲 第 3 页共 9 页 ,当时,表明两个变量正相关;当时,12211()()()()nii innii iixxyy rxxyy |1r 0r 0r 表明两个变量负相关4画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关二、线性回归方程及其应用1求线性回归方程的步骤第一步,利用散点图或进行相关性检验判定两个变量具有线性相关关系;第二步,列表求出,(也可用计算器进行计算) ;xy21ni ix 1nii ix y第三步,利用相应公式计算,; ab第四步,写出线性回归方程【提示】线性回归直线一定经过样本点的中心,据此性质可以解决有关的计算( , )x y问题、判断结论的正确性2对变量值的预测方法主要是由给出的变量的值预测与其有相关关系的变量的值,一般方法如下:若已知回归直线方程(方程中无参数) ,则 a可以直接将数值代人求得特定要求下的预测值;b注意到值是自变量每增加一个单位时因变量的变化值,因此可以求出自变量变化情况b下对应的因变量的变化值,若回归直线方程中有参数,则根据回归直线一定经过点求出参数值,得到回归直线方程,进而完成预测( , )x y若数据中存在参数,但方程已知,可先求(含参数) ,代入方程后即可求出参( , )x y数值3利用回归方程可以进行预测和估计总体,回归方程将部分观测值所反映的规律进行延伸,是我们对有线性相关关系的两个变量进行分析和控制、依据自变量的取值估计和预报因变量值的基础和依据,解决此类问题的步骤为:将表中的各对数据在平面直角坐标系中描点,得到散点图;按求回归方程的步骤和公式,写出回归方程;利用回归方程进行分析高考数学一轮第四十一讲 第 4 页共 9 页 4用最小二乘法求回归方程,关键在于正确求出系数,由于,的计算量大, ab ab计算时应仔细小心,分层进行(最好列出表格) ,避免因计算而产生错误,另请注意回归直线方程中一次项系数为,常数项为,这与一次函数的表示习惯有所不同b a5利用回归直线方程进行预测是对总体的估计,此估计值不是准确值,利用回归直线方程进行预测时,把自变量代入回归直线方程即可对因变量进行估计考点考点 3 独立性检验的基本思想及其应用独立性检验的基本思想及其应用1独立性检验的一般步骤:(1)独立性检验原理只能解决两个对象,且每个对象有两类属性的问题,所以对于一个实际问题,我们首先要确定能否用独立性检验的思想加以解决;(2)如果确实属于这类问题,要科学地抽取样本,样本容量要适当,不可太小;(3)根据数据列出列联表;2 2(4)提出假设:所研究的两类对象无关;0H(, )X Y(5)根据公式计算的值;2() ()()()()n adbcKab cd ac bd(6)比较观测值与临界值表中相应的检验水平,根据小概率原理肯定或者否定假设,k即判断,是否相关XY2解决独立性检验的应用问题,首先要根据题目条件列出两个变量的列联表,2 2通过计算随机变量的观测值,依据临界值与犯错误的概率得出结论注意观测值的2Kk临界值与概率间的对应关系3若要推断的论述为:“与有关系” 还可以通过三维柱形图和二维条形图,1HXY可以粗略地判断两个分类变量是否有关系,但是这种判断无法精确地给出所得结论的可靠程度4对于两个分类变量:如果,就约有 99%的把握认为“与有关系” ;6.635k xy如果,就约有 95%的把握认为“与有关系” ;3.841k xy如果,就约有 90%的把握认为“与有关系” ;2.706k xy如果,就认为没有充分的证据显示“与有关系”2.706k xy高考数学一轮第四十一讲 第 5 页共 9 页 5对于以上几个临界数据能记则记,一般高考题中都会给出需要用到的数据考点分类精讲考点考点 1 相关关系相关关系1判定两个变量之间是否具有相关关系2函数关系与相关关系的辨析【例 1】已知x与y之间的几组数据如下表:x123456y021334假设根据上表数据所得线性回归直线方程为axby若某同学根据上表中前两组数据)0 , 1 (和)2 , 2(求得的直线方程为axby,则以下结论正确的是( )Aaabb,Baabb,Caabb,Daabb,【解析】由前两组数据)0 , 1 (和)2 , 2(可求得直线方程为,而22yx2b 2a 利用线性回归方程的公式与已知表格中的数据,可求得,122217136586526 7791 6 ( )62nii i ni ix yx y b xx 135716723aybx 所以aabb,【例 2】根据下面给出的 2004 年至 2013 年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论不正确的是2004 年2005 年2006 年2007 年2008 年2009 年2010 年2011 年2012 年2013 年190020002100220023002400250026002700A逐年比较,2008 年减少二氧化硫排放量的效果最显著高考数学一轮第四十一讲 第 6 页共 9 页 B2007 年我国治理二氧化硫排放显现成效C2006 年以来我国二氧化硫年排放量呈减少趋势D2006 年以来我国二氧化硫年排放量与年份正相关【解析】 根据柱形图易得选项 A,B,C 正确,2006 年以来我国二氧化碳年排放量与年份负相关,选项 D 错误【例 3】在一组样本数据,(,不11( ,)x y22(,)xy(,)nnxy2n1x2xnx全相等)的散点图中,若所有样本点( =1,2,)都在直线上,则( ,)iix yin112yx这组样本数据的样本相关系数为 A1 B0 C D11 2【解析】因为所有的点都在直线上,这组样本数据完全正相关,故其相关系数为 1,故选D.点拨:线性回归方程中:时,两个变量正相关时,两个变量负相关0b 0b 考点考点 2 线性回归方程线性回归方程1求线性回归方程2利用线性回归方程对总体进行估计3进行线性相关分析4进行非线性回归分析【例 4】为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区 5 户家庭,得到如下统计数据表:收入(万元)x8.28.610.011.311.9支出(万元)y6.27.58.08.59.8根据上表可得回归本线方程 ,其中 ,据此估计,该ybxa0.76,baybx社区一户收入为 15 万元家庭年支出为A114 万元 B118 万元 C120 万元 D122 万元【解析】,回归方程为10.0x =8.0y =0.76b =80.76 100.4a = -´=,把代入上式得,(万元),选 B0.760.4yx=+15x =0.76 15 0.411.8y =´+=高考数学一轮第四十一讲 第 7 页共 9 页 【例 5】随着我国经济的发展,居民的储蓄存款逐年增长设某地区城乡居民人民币储蓄存款(年底余额)如下表:年份20102011201220132014时间代号t12345储蓄存款(千亿元)y567810(1)求关于 的回归方程;ytybta(2)用所求回归方程预测该地区 2015 年()的人民币储蓄存款6t 附:回归方程中,ybta1221nii i ni it ynty b tnt aybt【解析】(1)列表计算如下iitiy2 itiit y11515226412337921448163255102552 å153655120这里 111151365,3,7.2.55nnii iinttyynn=åå又,2221555 310ntti iltnt 11205 3 7.212ntyii ilt ynty 从而121.2,7.2 1.2 33.610nyntlbaybtl=-=-´=故所求回归方程为1.23.6yt=+(2)将6t =代入回归方程可预测该地区 2015 年的人民币储蓄存款为1.2 6 3.610.8().y =´+=千亿元点拨:求线性回归方程的关键是求回归系数和,其中回归系数可借ybxa abb助于计算器完成,但高考题中的数据一般比较容易计算,因为,即, aybxybxa高考数学一轮第四十一讲 第 8 页共 9 页 所以点一定满足线性回归方程,即回归直线一定过点.( , )x y( , )x y考点考点 3 独立性检验独立性检验1借助图形分析两个分类变量间是否具有相关关系2利用公式进行独立性检验【例 6】某高校共有 15000 人,其中男生 10500 人,女生 4500 人,为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集 300 位学生每周平均体育运动时间的样本数据(单位:小时)(1)应收集多少位女生样本数据?(2)根据这 300 个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示) ,其中样本数据分组区间为:,0,2(2,4(4,6(6,8(8,10估计该校学生每周平均体育运动时间超过 4 小时的概率 (10,12小 小 (小 小 ) 1210864200.0250.0750.1000.1250.150小 小小 小(3)在样本数据中,有 60 位女生的每周平均体育运动时间超过 4 小时请完成每周平均体育运动时间与性别列联表,并判断是否有的把握认为“该校学生的每周平均体育运动时间与性别有关” 附:2 2() ()()()()n adbcKab cd ac bd2 0()P Kk 0.100.050.0100.0050k2.7063.8416.6357.879【解析】(1),所以应收集 90 位女生的样本数据45003009015000(2)由频率分布直方图得,所以该校学生每周平均体育运12 (0.1000.025)0.75 高考数学一轮第四十一讲 第 9 页共 9 页 动时间超过 4 小时的概率的估计值为0.75(3)由(2)知,300 为学生中有人的每周平均体育运动时间超过 4 小时,300 0.7522575 人的每周平均体育运动时间不超过 4 小时,又因为样本数据中有 210 份是关于男生的,90 份是关于女生的,所以每周平均运动时间与性别列联表如下:每周平均体育运动时间与性别列联表男生女生总计每周平均体育运动时间不超过 4 小时453075每周平均体育运动时间超过 4 小时16560225总计21090300结合列联表可算得2 2300 22501004.7623.84175 225 210 9021K所以,有的把握认为“该校学生的每周平均体育运动时间与性别有关”95%点拨:高考中常将统计知识与独立性检验整合在一起命题,可分别利用两个板块的知识方法求解,注意数据之间的关联关系,利用统计数据列出列联表,其他问题就迎刃2 2而解了本专题试题训练详见试题精练