2023年新高考复习讲练必备第31讲统计与统计模型(讲义).docx
2023年新高考复习讲练必备第31班统计与统计模型一、知识梳理数据的收集与直观表示1 .总体、个体、样本与样本容量考察问题涉及的对象全体是总体,总体中每个对象是个体,抽取的局部对象组成总体的一 个样本,一个样本中包含的个体数目是样本容量.2 .普查与抽样调查(1)普查:一般地,对总体中每个个体都进行考察的方法称为普查(也称为全面调查).(2)抽样调查:只抽取样本进行考察的方法称为抽样调查.3 .简单随机抽样(1)定义:一般地,简单随机抽样(也称为纯随机抽样)就是从总体中不加任何分组、划类、排 队等,完全随机地抽取个体.(2)两种常用方法:抽签法,随机数表法.4 .分层抽样一般地,如果相对于要考察的问题来说,总体可以分成有明显差异的、互不重叠的几局部 时,每一局部可称为层,在各层中按层在总体中所占比例进行随机抽样的方法称为分层随 机抽样(简称为分层抽样).5 .数据的直观表示常见的统计图表有柱形图、折线图、扇形图、茎叶图、频数分布直方图、频率分布直方 图等.(2)频率分布直方图作频率分布直方图的步骤(i)找出最值,计算极差:即一组数据中最大值与最小值的差;(ii)合理分组,确定区间:根据数据的多少,一般分59组;(iii)整理数据:逐个检查原始数据,统计每个区间内数的个数(称为区间对应的频数),并求出频数与数据个 数的比值(称为区间对应的频率),各组均为左闭右开区间,最后一组是闭区间;(iv)作出有关图示:根据上述整理后的数据,可以作出频率分布直方图,如下图.频率分布直图的纵坐标是频率而帚,每一组数对应的矩形高度与频率成正比,而且每个矩形的面积等于这一组数对应的频率,从而可知频率分布直方图中,所有矩形的面积之和为1.频率频率分布折线图作图的方法都是:把每个矩形上面一边的中点用线段连接起来.为了方便看图,折线图都画 成与横轴相交,所以折线图与横轴的左右两个交点是没有实际意义的.不难看出,虽然作频率分布直方图过程中,原有数据被“压缩” 了,从这两种图中也得不 到所有原始数据.但是,由这两种图可以清楚地看出数据分布的总体态势,而且也可以得出 有关数字特征的大致情况.比方,估计出平均数、中位数、百分位数、方差.当然,利用直方 图估计出的这些数字特征与利用原始数据求出的数字特征一般会有差异.数据的数字特征、用样本估计总体.数据的数字特征最值一组数据的最值指的是其中的最大值与最小值,最值反映的是这组数最极端的情况.平均数定义:如果给定的一组数是%2,,Xn,那么这组数的平均数为F%”).I V这一公式在数学中常简记为1 =小,性质:一般地,利用平均数的计算公式可知,如果1, %2,, 的平均数为,且。,人为常数,那么ax2b,,公”+Z?的平均数为4才士也.(3)中位数有奇数个数,且按照从小到大排列后为m,2,,2+1,那么称加土l为这组数的中位数;如 果一组数有偶数个数,且按照从小到大排列后为XI, X2,,X2,那么称当苧单为这组数的 中位数.(4)百分位数定义:一组数的p%(pE(O, 100)分位数指的是满足以下条件的一个数值:至少有的 数据不大于该值,且至少有(10。一P)%的数据不小于该值.确定方法:设一组数按照从小到大排列后为用,X2,%,计算,=秋的值,如果,不是整数,设io为大于i的最小整数,取 也为分位数;如果i是整数,取皂为P%分 位数.(5)众数一组数据中,出现次数量多的数据称为这组数据的众数.极差、方差与标准差极差:一组数的极差指的是这组数的最大值减去最小值所得的差,描述了这组数的离散 程度.方差定义:如果XI, %2,,我的平均数为,那么方差可用求和符号表示为=(整=£)2=5g%7 X 2.性质:如果”,。为常数,那么6ZX1+,axi-b, ,的方差为昌S 标准差定义:方差的算术平方根称为标准差.一般用S表示,即样本数据1,尤2,,财的标准差为性质:如果a, b为常数,那么公i+/?, ax?.-b,,的?+/?的标准差为s.1 .用样本的数字特征估计总体的数字特征一般情况下,如果样本容量恰当,抽样方法合理,在估计总体的数字特征时,只需直接算 出样本对应的数字特征即可.统计模型.变量的相关关系相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程 度,这种关系称为相关关系.相关关系的分类:正相关和负相关.(3)线性相关:如果变量与变量y之间的关系可以近似地用一次函数来刻画,那么称尤与y线 性相关.1 .相关系数£ (x/ x ) (j/ y )£ (x/ x ) (j/ y )2% yn一(Lx?Al X 2)i=l(Lj?nj2) z=i当少。时丁 成对样本数据正相关;当厂<0时,成对样本数据负相关.(3)|r|<l;当|厂|越接近1时,成对样本数据的线性相关程度越强;当仍越接近0时,成对样本数据的线性相关程度越弱.3 .一元线性回归模型我们将於源+1称为y关于x的回归直线方程,其中 < n_nX (X/ x ) (j/ y )£孙一正,a £=ii=i“ yb= n -= nZZ-9<£ (X/ x ) 2Lx?n x21=1i=iA A A<a=y - b x .残差:观测值减去预测值,称为残差.4.2乂2歹1联表和/如果随机事件A与5的样本数据的2X2列联表如下.AA总计BababBcdcd总计acbda+Z?+c+d记 n=a+b+c+d,那么7272几(adbe) 2(q+Z?) (c+d) (q+c) (b+d)5 .独立性检验统计学中,常用的显著性水平。以及对应的分位数k如下表所示.a = P(/2k)0.10.050.010.0050.001K要推断“A与3有关系”可按下面的步骤(1)作2X2列联表.根据2X2列联表计算士的值.查对分位数上,作出判断.如果根据样本数据算出炉的值后,发现了力上成立,就称在犯 错误的概率不超过a的前提下,可以认为A与5不独立(也称为A与5有关);或说有1a 的把握认为A与8有关.假设/左成立,就称不能得到前述结论.这一过程通常称为独立性检验.二、考点和典型例题1、数据的收集与直观表示【典例北京2022年冬奥会期间,某大学派出了 1。0名志愿者,为了解志愿者的工作情况,该大学 学生会将这100名志愿者随机编号为1, 2,100,再从中利用系统抽样的方法抽取一个容量为20的样本进行问卷调查,假设所抽中的最小编号为3,那么所抽中的最大编号为()A. 96B. 97C. 98D. 99【典例1-21某社区卫生室为了 了解该社区居民的身体健康状况,对该社区1100名男性居民和900名女 性居民按性别采用等比例分层随机抽样的方法进行抽样调查,抽取了一个容量为100的样本,那么应从男 性居民中抽取的人数为()A. 45B. 50C. 55D. 60【典例1-3某地区中小学生人数比例和近视情况分别如图甲和图乙所示,2.7063.8416.6357.87910.828为了了解该地区中小学生的近视形成原因,用分层抽样的方法随机抽取1%的学生进行调查,其中被抽取的小学生有80人,那么样本容量和该地区的高中生近视人数分别为()A. 200, 25B. 200, 2500 C. 8000, 25D. 8000, 2500【典例1一4】将某市参加高中数学建模竞赛的学生成绩分成5组:50,60),60,70),70,80),80,90),90,100), 并整理得到频率分布直方图(如下图).现按成绩运用分层抽样的方法抽取100位同学进行学习方法的问卷调查,那么成绩在区间DO,80)内应抽取的人数为(I频率/组距0.035 0.030 0.0150.010 -y1/>>O 50 60 70 80 90 100 成绩/分A. 10B. 20C. 30D. 35【典例1 -5】某学校为调查学生参加课外体育锻炼的时间,将该校某班的40名学生进行编号,分别为00, 01, 02,,39,现从中抽取一个容量为10的样本进行调查,选取方法是从下面的随机数表的第1行第11列开始向右读取数据,直到取足样本,那么抽取样本的第6个号码为()9084 60 7980 24 36 5987 3882 07 53 89 3596 35 23 79 18 0598 90 07 3546 40 62 9846 40 62 988054 97 20 56 9515 74 80 08 3216 46 70 50 80 6772 16 42 75A. 07A. 07B. 40C. 35D. 232、数据的数字特征、用样本估计总体【典例2-11某学校举行诗歌朗诵比赛,10位评委对甲、乙两位同学的表现打分,总分值为10分,将两位 同学的得分制成如下茎叶图,其中茎叶图茎局部是得分的个位数,叶局部是得分的小数,那么以下说法错 误的是()甲8 8 5 54 3 2 0 09A.甲同学的平均分大于乙同学的平均分B.甲、乙两位同学得分的极差分别为2.4和1C.甲、乙两位同学得分的中位数相同D.甲同学得分的方差更小【典例2-2】数据天,Z的平均值为2,方差为1,假设数据g+1, "+1, %的平均值为,方差为4,那么方=().A. 5B. 4C. 3D. 2【典例2-31某校高一年级1000名学生在一次考试中的成绩的频率分布直方图如下图,现用分层抽样的方法从成绩4070分的同学中共抽取80名同学,那么抽取成绩5060分的人数是(C. 40D. 50【典例2-4】某高中为了了解本校学生考入大学一年后的学习情况,对本校上一年考入大学的同学进行了 调查,根据学生所属的专业类型,制成饼图,现从这些同学中抽出100人进行进一步调查,张三为理学专业,李四为工学专业,那么以下说法不正确的选项是(A.B.C.采用分层抽样比简单随机抽样更合理D.该问题中的样本容量为100假设按专业类型进行分层抽样,那么张三被抽到的可能性比李四大 假设按专业类型进行分层抽样,那么理学专业和工学专业应抽取30人和20人【典例2-5】如图是2021年青年歌手大奖赛中,七位评委为甲、乙两名选手打出的分数的茎叶图(其中以均为数字。9中的一个),在去掉一个最高分和一个是低分后,那么以下说法错误的选项是(A.甲选手得分的平均数一定大于乙选手得分的平均数B.甲选手得分的中位数一定大于乙选手得分的中位数C.甲选手得分的众数与加的值无关D.甲选手得分的方差与的值无关3、统计模型【典例3-1】以下命题:回归直线Q=队+*恒过样本点的中心卜,y);两个变量线性相关性越强,那么相关系数年|就越接近于1;两个模型中残差平方和越小的模型拟合的效果越好.那么正确命题的个数是().A. 0B. 1C. 2D. 3【典例3-2以下说法错误的选项是()A.相关系数的绝对值越大,两个变量的线性相关性越强B.在回归分析中,残差平方和越大,模型的拟合效果越好C.相关指数收=0.64 ,表示解释变量对于预报变量变化的贡献率为64%D.在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高【典例3-3】如图是一组实验数据构成的散点图,以下函数中适合作为y与X的回归方程的类型是( )A. y = ax + bB. y = ax1 +c C. y = hogax + cD. = bax + c【典例3-4】当下,大量的青少年沉迷于各种网络游戏,极大地毒害了青少年的身心健康.为了引导青少 年抵抗不良游戏,适度参与益脑游戏,某游戏公司开发了一款益脑游戏,在内测时收集了玩家对每一关的平均过关时间,如下表:关卡X123456平均过关时间 (单位:秒)5078124121137352计算得到一些统计量的值为:2,=28.5,、4=106.05,其中,%=ln% /=1i=i假设用模型y = e灰拟合),与x的关系,根据提供的数据,求出V与x的经验回归方程;参考公式:对于一组数据(i = l,2,3,其经验回归直线$ = % + &的斜率和截距的最小二乘估计分别为5 = V, a = y-bx.£片_而一2 z=l【典例3-5】 2022年北京冬奥会即第24届冬季奥林匹克运动会在2022年2月4日至2月20日在北京和张家口举行.某研究机构为了解大学生对冰壶运动是否有兴趣,从某大学随机抽取男生、女生各200人,对冰壶运动有兴趣的人数占总数的方女生中有80人对冰壶运动没有兴趣.有兴趣没有兴趣合计男女80合计完成上面2x2列联表,并判断是否有99%的把握认为对冰壶运动是否有兴趣与性别有关?按性别用分层抽样的方法从对冰壶运动有兴趣的学生中抽取9人,假设从这9人中随机选出2人作为冰 壶运动的宣传员,设X表示选出的2人中女生的人数,求X的分布列和数学期望.p,,“2n(ad-bc)2/ z 小附:K = ( = + Z? + c + d).(a + )(c + d)(a + c)(b + d):2"。)0.1000.0500.0250.0100.0014。2.7063.8415.0246.63510.828