2022-2023年艺术生新高考数学讲义 第27讲 统计案例和回归方程.pdf
《2022-2023年艺术生新高考数学讲义 第27讲 统计案例和回归方程.pdf》由会员分享,可在线阅读,更多相关《2022-2023年艺术生新高考数学讲义 第27讲 统计案例和回归方程.pdf(73页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第27讲统计案例和回归方程【知识点总结】一、线性回归线性回归是研究不具备确定的函数关系的两个变扯之间的关系(相关关系)的方法。对千一组具有线性相关关系的数据(x,y小(心,)2)I(X11,Y11),其回归方程y=bx+a的求法为2(x,玉)(y,IX;Y;-n:;y b=1=i=l II 汇(x,;)2i=1 2x,2-n;户2f=1 a=ybx 其中,x-y=-2y,,(x,y)称为样本点的中心。区x,n,=l n,=l 步骤:画散点图,如散点图中的点基本分布在一条直线附近,则这条直线叫这两个变址的回归直线,直线斜率kO,称两个变量正相关;k10.828,有99.9把握称“A取A1或A产对
2、“B取B1,B2“有关系;若10.828习令6.635,有99把握称“A取A1或A2对“B取B,B2“有关系;若6.635习杏3.841,有95把握称“A取A1或A2“对“B取Bl,B2“有关系;若K2:;3.84L没有把握称A与B相关。【典型例题】例l.(2022全国高三专题练习(文)在对两个变量X,y进行回归分析时有下列步骤:对所求出的回归方程作出解释;收集数据(xi,yi),i=1,2,.,n;求回归方程;根据所收栠的数据绘制散点图则下列操作顺序正确的是()A.0 B.冠)C.卿D.1(D 例2.(2022全国高三专题练习)对千数据组(x;,Y;)(i=1,2,3,.,n),如果由线性回
3、归方程得到的对应千自变批X,的估计值是y,,那么将Y;-y,称为相应于点(x11,Y,)的残差某工厂为研究某种产品产显X(吨)与所需某种原材料Y吨)的相关性,在生产过程中收集4组对应数据(x,y)如下表所示:x,.3-4 _ 5 _ 6 l-y,.I 25 3 l-4-m l l 根据表中数据,得出Y关千X的线性回归方程为y=0.7x+a,据此计算出样本点处的残差为0.15,则表中m的值为()A.3.3 B.4.5 C.5 D.5.5 例3.(2022全国高三专题练习)据贵州省气候中心报,2021年6月上旬,我省降水量在I5.2-l 70.3nm1之间,毕节市局地、遵义市北部、铜仁市局地和黔东
4、南州东南部不足50mm,其余均在501nmm以上,局地超过100mm若我省某地区2021年端午节前后3天,每一天下雨的概率均为50通l过模拟实验的方法来估计该地区这3天中恰好有2天下雨的概率,利用计算机或计算器可以产生0到9之间取整数值的随机数x(xeN,且Q:,;X:,;9)表示是否下雨:当xEO,k(kEZ)时表示该地区下雨,当xEk+l,9时,表示该地区不下雨因为是3天,所以每三个随机数作为一组,从随机数表中随机取得20组数如下332 714 740 945 593 468 491 272 073 445 992 772 951 431 169 332 435 027 898 719(1
5、)求出k的值,使得该地区每一天下雨的概率均为50%;并根据上述20组随机数估计该地区这3天中恰好有2天下雨的概率;(2)2016年到2020年该地区端午节当天降雨扯(单位:mm)如表:时间2016年2017年20)8年2019年2020年年份tl 2 3 4 5 降雨世Y28 27 25 23 22 经研究表明:从2016年到2020年,该地区端午节有降雨的年份的降雨谥Y与年份t具有线性相关关系,求回归直线方程y=bt+a并预测该地区2022年端午节有降雨的话,降雨朵约为多少?参考公式:归t)(y;习i忱n56=l=l=l=1,$=;1一粉凶i)22甘n?i=I i=I 例4.(2022全国高
6、三专题练习(理)某企业新研发了一种产品,产品的成本由原料成本及非原料成本组成每件产品的非原料成本Y(元)与生产该产品的数量X(千件)有关,经统计得到如下数据:X 1 2 3 4 5 6 7 8 y 112 61 44.5 35 30.5 28 25 24 根据以上数据,绘制了散点图观察散点图,两个变世不具有线性相关关系,现考虑用反比例函数模型b y=a+和指数函数模型y=ce小俨分别对两个变量的关系进行拟合已求得用指数函数模型拟合的 回归方程为S,=96.54e-02.,lny与X的相关系数lj=0.94)I I-r 9-8 7 6 5 4 一飞J2 2_,314,5_,.,7_s19IOO
7、09876654332 八”2I(l)用反比例函数模型求Y关千X的回归方程;(2)用相关系数判断上述两个模型哪一个拟合效果更好(精确到0.01),并用其估计产量为lO千件时每件产品的非原料成本参考数据:8 8 8 8 2儿)1u 一22 ll,2 区y,区y/2.J0.6lx6185.5 e 一2u=l i=1 i=1 i=l 183.4 0.34 0.115 1.53 360 22385.5 61.4 0.135 参考公式对于一组数据(ui,v1),(u2,v2),(u,-.,),其回归直线0=&加的斜率和截距的最小一乘估计分“2U,V,-nUV 别为:/3=l 江n矿i=1 X=V沙u,相
8、关系数r=2U,V,-n订Vi=1 I n I:u;-n矿i;I 江nv2i;I 例5.(2022全国高三专题练习)如图是某小区2020年1月至2021年1月当月在售二手房均价(单位:万元平方米)的散点图(图中月份代码113分别对应2020年1月2021年1月)根据散点图选择y=a+bx 和y=c+dlnx两个模型进行拟合,经过数据处理得到两个回归方程分别为y=0.9369+0.0285五:和y=0.9554+0.0306lnx,并得到以下一些统计械的值:距代份月13 12 u IO 9 8 7 们均房6手5二4售32 在月当l.L 妇应的邺94llIOOO .y=0.9369+0.0285五
9、y=0.9554+0.03()6Jn X 13 2 残差平方和L(Y;-Y;)0.000591 0.000164 i=I 13 2 总偏差平方和区(y1汀0.006050 i-1(1)请利用相关指数R2判断哪个模型的拟合效果更好;(2)估计该小区202年6月份的二手房均价(精确到0.001万元平方米)参考数据:ln2 0.69,ln 3 1.10,ln17 2.83,ln19 2.94,五寸41,石司73,17:,4.12,19:,4.36.2(y,-y,)2 参考公式:相关指数R2=1-.荨Y,今)2例6.(2022全国高三专题练习)近年来,明代著名医药学家李时珍故乡黄冈市朝春县大力发展大健
10、康产业,薪艾产业化种植已经成为该县脱贫攻坚的主要产业之一,已知勒艾的株高y(单位:cm)与一定范围内的温度x(单位:c)有关,现收集了薪艾的13组观测数据,得到如下的散点图:i 1 株高r(cm).鲁.112 111 ll0 109 108 l07 106 O 2 4 6 8 10 12 14 16 18 20 温度t(OC)现根据散点图利用y=a+bx或y=c+!_建立y关于x的回归方程,令s心三1 t=得到如下数据:X X 了了s t 10.15 109.94 3.04 0.16 区l3t,-Y;13了y区13s,213s2 区13 tf13尸区13yf13一y;汇s,y,l3了yi=1
11、i;I k I 1=1 j;I 13.94-2.1 I l.67 0.21 2.22 且(S;,y,)与(!;,Y;)(i=l,2,3,.,13)的相关系数分别为片,r2,且i=-0.9953.(l)用相关系数说明哪种模型建立y与x的回归方程更合适;(2)根据(I)的结果及表中数据,建立y关千x的回归方程;(3)已知薪艾的利润z与x、y的关系为z=20y-x,当x为何值时,z的预报值最大2 参考数据和公式:0.21x21.22=4.4562,l l.67x21.22=247.6374,247.6374=15.7365,对于一组数据(U;,V;)(i fu;v;-n言=1,2,3,.,n),其回
12、归直线方程v=a如的斜率和截距的最小二乘法估计分别为fJ=;.I 区叫n2=1 a=v-/Ju,相关系数r=I 区矿11;2 J江n,了扫1i I 2U,V,-n;i=1 例7.(2022河北张家口高三期末)已知某区A、B两所初级中学的初一年级在校学生人数之比为9:11,该区教育局为了解双减政策的落实悄况,用分层抽样的方法在A、B两校初一年级在校学生中共抽取了100名学生,调查了他们课下做作业的时间,并根据调查结果绘制了如下频率分布直方图:0.6皇-0.4,_ -0.3 I一一一一一一一一一0.1,_ _ 0.l 1.S 2 2.S 3 3.S 4 4.S 做作业时间小时(1)在抽取的100名
13、学生中,A、B两所学校各抽取的人数是多少?(2)该区教育局想了解学生做作业时间的平均时长(同一组中的数据用该组区间的中点值作代表)和做作业时长超过3小时的学生比例,请根据频率分布直方图,估计这两个数值;(3)另据调查,这100人中做作业时间超过3小时的人中的20人来自A中学,根据已知条件填写下面列联表,并根据列联表判断是否有99的把握认为“做作业时间超过3小时”与“学校”有关?做作业时间超过3小时做作业时间不超过3小时合计A校B校合计附表:p(K2 k)0.10 0.05 0.025 0.010 0.001 k 2.706 3.841 5.024 6.635 10.828 附:K2=n(ad-
14、bc-)2(a+b)(c+d)(a+c)(b+d)【技能提升训练】一、单选题1.(2022全国高三专题练习)某工厂的每月各项开支X与毛和1司 Y(单位:万元)之间有如下关系,Y与X的线性回归方程y=6.5x+a,则(I=()X 2 4 5 6 8 y 30 40 60 so 70 A.17.5 B.17 C.15 D.15.5 2.(2021重庆南开中学高三阶段练习)对两个变量y和x进行回归分析,得到一组样本数据:(xI,y1),(x2,Y2),.,(x,.,Y,),则下列说法中不正确的是()A.由样本数据得到的回归方程y=bx+a必过样本中心(x,y)B.残差平方和越小的模型,拟合的效果越好
15、C.用相关指数炉来刻画回归效果,炉越小,说明模型的拟合效果越好D.若变量y和x之间的相关系数为r=-0.9362,则变量y和x之间具有线性相关关系3.(2021黑龙江漠河市高级中学高三阶段练习(文)某单位为了了解办公楼用电量Y(度)与气温X(C)之间的关系,随机统计了四个工作炽与当天平均气温,并制作了对照表:气温(C)18 13 lO-1 用电堂(度)24 34 38 64 由表中数据得到线性回归方程y=-2x+a,当气温为-4C时,预测用电量均为A.68度B.52度C.12度4.(2022全国高三专题练习)关于线性回归的描述,有下列命题:O回归直线一定经过样本中心点;相关系数r的绝对值越大,
16、拟合效果越好;相关指数R2越接近1拟合效果越好:残差平方和越小,拟合效果越好其中正确的命题个数为()A.1 B.2 c.3 5.(2022全国高三专题练习)下列表述中,正确的个数是()O将一组数据中的每一个数据都加上同一个常数后,方差不变;D.28度D.4 设有一个回归方程y=3-Sx,变倡X增加1个单位时,Y平均增加5个单位;设具有相关关系的两个变扯x,y的相关系数为r那么H越接近千0,X,Y之间的线性相关程度越高;在一个2x 2列联表中,根据表中数据计算得到矿的观侧值k,若k的值越大,则认为两个变星间有关的把握就越大A.0 B.1 C.2 D.3 6.(2022全国高三专题练习(文)对两个
17、变扯y与x进行回归分析,分别选择不同的模型,它们的相关系数r如下,其中拟合效果最好的模型是()A.0.2 B.0.8 C.-0.98 D.-0.7 7.(2022全国高三专题练习)对四组数据进行统计,获得以下散点图,关千其相关系数的比较,正确的是()商三;:035X忒.二3035Xy y li.-.。5 10 15 20 25 30 35 X。5 10 15 20 25 30 35 X 相关系数为r3相关系数为r4A.片片 Otj斤B.r4r20片几C.几片0r3 i D.片 几 0片 乃8.(2022全国高三专题练习(理)如果发现散点图中所有的样本点都落在一条斜率为非0实数的直线上,则下列说
18、法错误的是()A.解释变量和预报变星是一次函数关系B.相关系数r=lC.相关指数R2=1 D.残差平方和为09.(2022全国高三专题练习(理)对匹组数据进行统计,获得如图所示的散点图,关千其相关系数的比较,正确的是()20r-r-i-1 厂厂相关系数为i。厂相关系数为片厂已相关系数为lj勹飞-令;二i,3 6 9 相关系数为I。A.C.lj 140131 2 14r20r3fj B.D.141j 01jr2 片r 40tj r2,则说明变隘X,y之间的线性相关性比变晕m,n之间的线性相关性强C.若0il,则说明变岱X,y之间的相关性为正相关D.若i=0,则说明变量X,y之间线性不相关11.(
19、2022全国高三专题练习(文)已知相关变量X和Y的散点图如图所示,若用y=b1 ln(k1x)与y虹2+b2 拟合时的相关系数分别为1i,r2则比较1jr2的大小结果为(、丿y 7654321.。234S678 A.片f.2 B.x i=r2 c.lj r2 D不确定12.(2022全国高三专题练习(文)在一组样本数据(x1,y心(X2,y2),.,(Xn,Yn)(吃2,X1,X2,.,Xn 不全相等)的散点图中,若所有样本点(x;,y;)(i=l,2,.,n)都在直线y=-I 2 x+I上,则这组样本数据的样本相关系数为()A.l B.0 C.I-2 D.l 13.(2022全国高三专题练习
20、)如图,5个(x,y)数据,去掉D(3,10)后,下列说法错误的是()y E(l0,12).D(3,10)C(4,5)B(2,4)A(l,3)。A.相关系数r变大C.R2变大X B.残差平方和变大D.解释变矗x与预报变伦y的相关性变强14.(2022全国高三专题练习)某公交公司推出扫码支付乘车优惠活动,活动为期两周,活动的前五天数据如下表:第X天l 2 3 4 5 使用人数(Y)15 173 457 842 1333 由表中数据可得y关于x的回归方程为5,=55x2+m,则据此回归模型相应千点(2,173)的残差为()A.-5 B.-6 C.3 D.2 15.(2022全国高三专题练习)随蓿国
21、家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表非一线一线总计愿生45 20 65 不愿生13 22 35 总计58 42 100 计算得,K29.616.参照下表,P(K2k0)0.050 0.010 0.001 k。3.841 6.635 10.828 下列结论正确的是()A.在犯错误的概率不超过0.1的前提下,认为“生育意愿与城市级别有关”B.在犯错误的概率不超过5的前提下,认为“生育意愿与城市级别无关”C.有99以上的把握认为“生育意愿与城市级别有关”D.有99以上的把握认为“生育意愿与城市级别无关”
22、16.(2022全国高三专题练习)2018世界特色魅力城市200强新鲜出炉,包括黄山市在内的28个中国城市入选,美丽的黄山风景和人文景观迎来众多宾客现在很多人喜欢“自助游”,某调查机构为了了解“自助游”是否与性别有关,在黄山旅游节期间,随机抽取了100人,得如下所示的列联表:赞成“自助游”不赞成“自助游”合计男性30 15 45 女性45 10 55 合计75 25 100,参考公式:K-=n(ad-bc)2,其中n=a+b+c+d.(a+b)(c+d)(a+c)(b+d)P(K2江)0.15 0.10 0.05 0.025 0.010 XO 2.072 2.706 3.841 5.024 6
23、.635 参照公式,得到的正确结论是()A.有99.5以上的把握认为“赞成自助游与性别无关”B.有99.5以上的把握认为赞成自助游与性别有关”0.005 7.879 0.001 10.828 C.在犯错误的概率不超过0.1的前提下,认为赞成自助游与性别无关”D.在犯错误的概率不超过0.1的前提下,认为赞成自助游与性别有关”17.(2022全国高三专题练习(文)为了了解某高中生对电视台某节目的态度,在某中学随机调查了110名同学,得到如下列联表:男女总计喜欢40 20 60 不喜欢20 30 50 三1102 由K2=n(ad-bc)2 ll0(40 x3O-20 x20)(a+b)(c+d)(
24、a+c)(b+d)算得 矿7.8 60 x50 x60 x50 P(K2 k)0.05 0.01 0.001 k 3.841 6.635 10.828 参照附表,得到的正确结论是()A.在犯错误的概率不超过0.1的前提下,认为喜欢该节目与性别有关”B在犯错误的概率不超过0.1的前提下,认为“喜欢该节目与性别无关”C.有99的把握认为“喜欢该节目与性别有关”D有99的把握认为“喜欢该节目与性别无关”18.(2022全国高三专题练习(文)为了解某高校学生使用手机支付和现金支付的情况,抽取了部分学生作为样本,统计其喜欢的支付方式,并制作出如等高条形图:1987654321 000000000 198
25、7654321 ooooooooo 男生女生亡二现金支付一手机支付根据图中的信息,下列结论中不正确的是()A.样本中多数男生喜欢手机支付B.样本中的女生数量少千男生数量C.样本中多数女生喜欢现金支付D.样本中喜欢现金支付的数儒少千喜欢手机支付的数矗19.(2021全国高三专题练习(文)现行普通高中学生在高一时面临眷选科的问题,学校抽取了部分男、女学生意愿的一份样本,制作出如下两个等高堆积条形图:等高堆积条形图1等高堆积条形图21 09 0.8 0.7 0.6 05 0.4 03 02 0.1。两文一理两理一文口男口女l9876543210 000000000 男女口两文一理口两理一文根据这两幅
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022-2023年艺术生新高考数学讲义 第27讲 统计案例和回归方程 2022 2023 艺术 新高 数学 讲义 27 统计 案例 回归 方程
限制150内