第九章-计数原理、概率与统计-第六节-变量间的相关关系与统计案例课件-理.ppt
第第六六节节变量间的相关关系与统计案例变量间的相关关系与统计案例第一页,编辑于星期五:二十二点 十七分。第二页,编辑于星期五:二十二点 十七分。1.变量间的相关关系与回归分析(1)相关关系当自变量取值一定时,因变量的取值带有一定随机性的两个度量之间的关系叫做相关关系.与函数关系不同,相关关系是一种非确定性关系.(2)散点图、正相反与负相反表示具有相关关系的两个变量的一组数据的图形叫做散点图,它可以直观地判断两个变量的关系是否可以用线性关系表示.若这些点散布在从左下角到右上角的区域,则称两个变量正相关;若这些点散布在从左上角到右下角的区域,则称两个变量负相关.(3)回归直线与回归方程线性相关关系:如果散点图中点的分布从整体上看大致在一条直线附近,则称这两个变量之间具有线性相关关系.第三页,编辑于星期五:二十二点 十七分。第四页,编辑于星期五:二十二点 十七分。第五页,编辑于星期五:二十二点 十七分。(2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为x1,x2和y1,y2,其样本频数列联表(称为22列联表)为第六页,编辑于星期五:二十二点 十七分。第七页,编辑于星期五:二十二点 十七分。如果kk0,就推断“X与Y有关系”,这种推断犯错误的概率不超过P(K2k0);否则,就认为在犯错误的概率不超过P(K2k0)的前提下不能推断“X与Y有关系”.3.常用的数学方法与思想公式法、数形结合思想.第八页,编辑于星期五:二十二点 十七分。1.下列关于K2的说法,正确的是()A.K2在任何相互独立问题中都可以用来检验有关还是无关B.K2的值越大,两事件有关系的把握越小C.K2是用来判断两类变量是否有关系的随机变量1.C【解析】K2是一个统计量,随着样本数据的变化而变化,对于抽取的数据得到的推断有可能正确,也有可能错误,故A错误;K2的值越大,两事件有关系的把握越大,所以B错误,C正确,D公式错误.第九页,编辑于星期五:二十二点 十七分。2.(2015重庆巴蜀中学三诊)根据如下样本数据:x34567y4.02.5-0.50.5-2.0第十页,编辑于星期五:二十二点 十七分。3.某高校统计初步课程的教师随机调查了选该课的一些学生情况,具体数据如下表:3.5%【解析】查临界值表得P(K23.841)=0.05,即假设成立的可能性是5%,也即“主修统计专业与性别没有关系”的可能性是5%,所以这种判断出错的可能性约是5%.第十一页,编辑于星期五:二十二点 十七分。4.(2015成都三诊)某设备的使用年限x(单位:年)与所支付的维修费用y(单位:千元)的一组数据如下表:使用年限x2345维修费用y23.456.6第十二页,编辑于星期五:二十二点 十七分。典例1(2015新课标全国卷)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是()第十三页,编辑于星期五:二十二点 十七分。A.逐年比较,2008年减少二氧化硫排放量的效果最显著B.2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关【解题思路】2006年以来我国二氧化硫年排放量呈减少趋势,故年排放量与年份负相关,观察知应选D项.【参考答案】D第十四页,编辑于星期五:二十二点 十七分。典例2(2015哈尔滨三中二模)某产品的广告费用x(单位:万元)与销售额y(单位:万元)的统计数据如下表:第十五页,编辑于星期五:二十二点 十七分。第十六页,编辑于星期五:二十二点 十七分。(2015福建高考)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:【变式训练】第十七页,编辑于星期五:二十二点 十七分。典例3现如今每逢元旦、春节前夕,各个物流公司都出现了爆仓现象,其中直接原因就是网上购物的疯狂.事实上,现在网上购物已经成为人们购物的一种新方式,正所谓“不上街并不是不逛街”,利用网络,人们足不出户可以选购自己所需商品,方便快捷,但也有一些隐患,比如网络欺骗、所得商品与网上宣传的有差距等等.某商家针对人们对网上购物的态度在某城市进行了一次调查,共调查了124人,其中女性70人,男性54人.女性中有43人对网上购物持赞成态度,另外27人持反对态度;男性中有21人赞成网上购物,另外33人持反对态度.(1)估计该地区对网上购物持赞成态度的比例;(2)有多大的把握认为该地区对网上购物持赞成态度与性别有关?第十八页,编辑于星期五:二十二点 十七分。(3)根据以上结论,能否有更好的调查方式来估计该地区对网上购物持赞成态度的比例,说明理由.附:【解题思路】(1)用样本数据估计该地区对网上购物持赞成态度的比例;(2)根据题中数据建立22的列联表,再根据公式计算K2统计量的值,最后与临界值表比较得出结论;(3)为了使得此项调查更加接近实际,要从抽样方法上进行思考,考虑更加合理的抽样方法,使得抽取的样本更加具有代表性.第十九页,编辑于星期五:二十二点 十七分。 赞成反对合计女性432770男性213354合计6460124第二十页,编辑于星期五:二十二点 十七分。因为6.2013.841,所以有95%的把握认为该地区对网上购物持赞成态度与性别有关.(3)该项调查是在某城市进行的,具有一定的局限性,所以应该先确定该地区城市人口、农村人口的比例,在此基础上进一步确定城市人口、农村人口中的性别比例,再利用分层抽样的方法抽取样本,再进行统计,这样得到的结果会更加可靠.第二十一页,编辑于星期五:二十二点 十七分。【变式训练】某机构对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪研究,调查他们是否又发作过心脏病,其中接受心脏搭桥手术的病人有39人又发作过心脏病,接受血管清障手术的病人有29人又发作过心脏病,试根据上述数据说明有多大把握认为两种手术对病人又发作过心脏病的影响有差别.附:第二十二页,编辑于星期五:二十二点 十七分。【解析】先建立22列联表第二十三页,编辑于星期五:二十二点 十七分。易错易混考点:回归系数和回归常数混淆致误典例为了分析某个高三学生的学习状态,对其下一阶段的学习提供指导性建议,现对他前7次考试的数学成绩x、物理成绩y进行分析.下表是该生7次考试的成绩.第二十四页,编辑于星期五:二十二点 十七分。(1)他的数学成绩与物理成绩哪个更稳定?请给出你的证明;(2)已知该生的物理成绩y与数学成绩x是线性相关的,当该生的物理成绩达到115时,请你估计他的数学成绩大约是多少?并请你根据物理成绩与数学成绩的相关性,给出该生在学习数学、物理时的合理建议.第二十五页,编辑于星期五:二十二点 十七分。第二十六页,编辑于星期五:二十二点 十七分。第二十七页,编辑于星期五:二十二点 十七分。【针对训练】(2014湖北高考)根据如下样本数据第二十八页,编辑于星期五:二十二点 十七分。B【解析】作出散点图如下:第二十九页,编辑于星期五:二十二点 十七分。