2024新高考数学基础知识梳理与课本优秀题目巩固-模块18-成对数据分析.docx
2024新高考数学基础知识梳理与课本优秀题目巩固-模块18-成对数据分析模块十八:成对数据统计分析 1、变量的相关关系: (1) 函数关系 (确定性关系); (2) 相关关系 (线性相关和非线性相关)2、散点图: 成对数据都可以用直角坐标系中的点表示出来, 由这些点组成的统计图叫散点图. 3、正相关和负相关从整体上看, 当一个变量的值增加时, 另一个变量的相应值也呈现增加的趋势, 我们就称这两个变量正相关 (positive correlation); 当一个变量的值增加时, 另一个变量的相应值呈现减小的趋势, 则称这两个变量负相关 (negative correlation). 4、线性相关:一般地, 如果两个变量的取值呈现正相关或负相关, 而且散点落在一条直线附近, 我 们就称这两个变量线性相关. 5、样本相关系数:r=i=1nxixyiyi=1nxix2i=1nyiy2=i=1nxiyinxyi=1nxi2nx2i=1nyi2ny2注: (1) 样本相关系数 r 是一个描述成对样本数据的数字特征,它的正负性可以反映成对样本数据的变化特征: 当 r>0 时,称成对样本数据正相关. 这时,当其中一个数据的值变小时,另一个数据的值通常也变小; 当其中一个数据的值变大时, 另一个数据的值通常也变大.当 r<0 时,称成对样本数据负相关. 这时,当其中一个数据的值变小时,另一个数据的值通常会变大; 当其中一个数据的值变大时, 另一个数据的值通常会变小.(2) 样本相关系数 r 的取值范围为 1,1 ,样本相关系数 r 的绝对值大小可以反映成对样本数据之间线性相关的 程度:当 r 越接近 1 时,成对样本数据的线性相关程度越强;当 r 越接近 0 时,成对样本数据的线性相关程度越弱.6、一元线性回归模型Y=bx+a+e,Ee=0,De=2.(1)我们称 (1) 式为 Y 关于 x 的一元线性回归模型 (simple linear regression model). 其中,Y 称为因变量或响应变量, x 称为自变量或解释变量; a 和 b 为模型的未知参数, a 称为截距参数, b 称为斜率参数; e 是 Y 与 bx+a 之间的随机误差. 7、线性经验回归方程与最小二乘法我们将 y=bx+a 称为 Y 关于 x 的经验回归方程,也称经验回归函数或经验回归公式,其中b=i=1nxixyiyi=1nxix2,a=ybx其图形称为经验回归直线. 这种求经验回归方程的方法叫做最小二乘法 ® ,求得的 b,a叫做 b,a 的最小二乘估计 (least squares estimate).注意: (1) 经验回归直线一定过样本中心点 x,y(2) 残差分析:对于响应变量 Y ,通过观测得到的数据称为观测值,通过经验回归方程得到的 y 称为 预测值, 观测值减去预测值称为残差. 残差是随机误差的估计结果, 通过对残差的分析可 以判断模型刻画数据的效果, 以及判断原始数据中是否存在可疑数据等, 这方面工作称为 残差分析.8、刻画回归效果的方式 (1) 残差图法: 在残差图中 (纵坐标是残差), 残差点比较均匀落在以取值为 0 的横轴为对称轴的水平带状区 域内, 说明选用的模型比较合适, 这样的带状区域的宽度越窄, 说明拟合精度越高.(2) 残差平方和: 残差平方和为 yiyi2 ,残差平方好越小,模型拟合效果越好.(3) 利用决定系数 R2 刻画拟合效果:R2=1i=1nyiyi2i=1nyiy2.在 R2 表达式中, i=1nyiy2 与经验回归方程无关,残差平方和 i=1nyiyi2 与经验回归方程有关. 因此 R2 越大,表示残差平方和越小,即模型的拟合效果越好; R2 越小,表示残差平方和越大, 即模型的拟合效果越差.9、分类变量: 为了表述方便, 我们经常会使用一些特殊的随机变量, 以区别不同的现象或性质, 这类随机变量 称为分类变量. 分类变量的取值可以用实数表示.10、 2×2 列联表假设两个分类变量 X 和 Y ,它们的可能取值分别为 x1,x2和 y1,y2 ,其 2×2 列联表为XY合计yty2x1aba+bx2cdc+d合计a+cb+da+b+c+d2×2 列联表给出了成对分类变量数据的交叉分类频数.、等高堆积条形图: 展示列联表数据的频率特征, 能够直观反映出两个分类变量之间是否相互影响.(1) 等高堆积条形图中有两个高度相同的矩形, 每一个矩形中都有两种颜色,观察下方颜色区域的高度, 如果两个高度相差比较明显, 就判定两个分类变量之间有关 系.(2) 利用等高堆积条形图虽然可以比较各个部分之间的差异, 明确展现两个分类变量的关系, 但不能知道两个分类变量有关系的概率大小.12、独立性检验假设有两个分类变量 X 和 Y ,它们的值域分别为 x1,x2 和 y1,y2 ,其样本频数 2×2 列联表为:y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d若要推断的论述 H:aX 和 Y 有关系”,可以利用独立性检验来考察两个变量是否有 关系, 并且能较精确地给出这种判断的可靠程度.关系, 并且能比较精确地给出这种判断的可靠程度. 则:2=nadbc2a+bc+da+cb+d.当 2xa 时,我们就推断 H0 不成立,即认为 X 和 Y 不独立,该推断犯错误的概率 不超过 ;当 2<xa 时,我们没有充分证据推断 H0 不成立,可以认为 X 和 Y 独立.这种利用 2 的取值推断分类变量 X 和 Y 是否独立的方法称为 Z2 独立性检验,读作 “卡方独立性检验”, 简称独立性检验 (test of independence).注意: 独立性检验结论描述:(1) 如果 2x ,根据小概率值 的 2 独立性检验,推断 H0 不成立,即认为 X 与 Y 有关联,此推断犯错 误的概率不大于 ; (或者说: 有 1×100% 的把握认为 X 与 Y 有关联,或者说: 在犯错误率不超过 的前提 下认为 X 与 Y 有关联)(2) 如果 2<x ,根据小概率值 的 2 独立性检验,没有充分证据推断 H0 不成立,可以认为 H0 成立,即 认为 X 与 Y 没有关联; (或者说: 没有 1×100% 的把握认为 X 与 Y 有关联,或者说: 在犯错误率不超过 的 前提下不能认为 X 与 Y 有关联)【课本优质习题汇总】 人教 A 版选择性必修三 P104 4. 某地区的环境条件适合天鹅栖息繁衍. 有人发现了一个有趣的现象, 该地区有 5 个村庄, 其中 3 个村庄附近栖息的天鹅较多, 婴儿出生率也较高; 2 个村庄附近栖息的天鹅较少, 婴儿的出 生率也较低. 有人认为婴儿出生率和天鹅数之间存在相关关系, 并得出一个结论: 天鹅能够带 来孩子. 你同意这个结论吗? 为什么? 人教 A 版选择性必修三 P113 (看懂残差分析)例 经验表明,一般树的胸径 (树的主干在地面以上 1.3m 处的直径) 越大,树就 越高. 由于测量树高比测量胸径困难, 因此研究人员希望由胸径预测树高. 在研究树高与 胸径之间的关系时, 某林场收集了某种树的一些数据 (表 8.2-3), 试根据这些数据建立 树高关于胸径的经验回归方程.表 8.2-3编号123456胸径/cm18. 120.122.224. 426.028. 3树高 /m18.819.221.021.022.122.1编号789101112胸径/cm29.632.433.735.738. 340.2树高 /m22.422. 623.024. 323.924.7解: 以胸径为横坐标、树高为纵坐标作图 8.2-9散点图, 得到图 8.2-9.在图 8.2-9 中, 散点大致分布在一条从 左下角到右上角的直线附近, 表明两个变量 线性相关, 并且是正相关, 因此可以用一元 线性回归模型刻画树高与胸径之间的关系.用 d 表示胸径, h 表示树高,根据最小二乘法,计算可得经验回归方程为h=0.2493d+14.84,根据经验回归方程, 由表 8.2-3 中胸径的数据可以计算出树高的预测值 (精确到 0.1) 以及相应的残差, 如表 8.2-4 所示.表 8.2-4编号胸径/cm树高观测值/m树高预测值/m残差/m118. 118.819. 40.6220. 119.219.90.7322.221.020. 40.6424.421.020.90.1526.022. 121.30.8628. 322. 121.90.2729.622.422.20.2832. 422.622.90.3933.723.023.20.21035.724. 323.70.61138. 323.924. 40.51240.224.724.90.2以胸径为横坐标, 残差为纵坐标, 作残差图, 得到图 8.2-11.图 8.2-11观察残差表和残差图, 可以看到, 残差的绝对值最大是 0.8 , 所有残差分布在以横轴 为对称轴、宽度小于 2 的带状区域内. 可见经验回归方程较好地刻画了树高与胸径的关 系, 我们可以根据经验回归方程由胸径预测树高.人教 A 版选择性必修三 P120 1. 如果散点图中所有的散点都落在一条斜率为非 0 的直线上, 请回答下列问题:(1) 解释变量和响应变量的关系是什么?(2) R2 是多少? 人教 A 版选择性必修三 P136表 8. 3-2 单位: 人学校数学成绩合计不优秀 Y=0优秀 Y=1甲校 X=0331043乙校(X=1)38745合计7117889. 对例 1 列联表 8.3-2 中的数据,依据 =0.1 的独立性检验,我们已经知道独立性检验的结论 是学校和成绩无关. 如果表 8.3-2 中所有数据都扩大为原来的 10 倍, 在相同的检验标准下, 再 用独立性检验推断学校和数学成绩之间的关联性, 结论还一样吗? 请你试着解释其中的原因.人教 A 版选择性必修三 P138 2. 根据变量 Y 和 x 的成对样本数据,由一元线性回归模型 Y=bx+a+e,Ee=0,De=2 得到经验回归模 型 y=bx+a ,对应的残差如图所示. 模型误差 ( ).(第 2 题)(A) 满足一元线性回归模型的所有假设(B) 不满足一元线性回归模型的 Ee=0 的假设(C) 不满足一元线性回归模型的 De=2 的假设(D) 不满足一元线性回归模型的 Ee=0 和 De=2 的假设3. 根据分类变量 x 与 y 的成对样本数据,计算得到 2=2.974 . 依据 =0.05 的独立性检验,结 论为 ( ).(A) 变量 x 与 y 不独立(B) 变量 x 与 y 不独立,这个结论犯错误的概率不超过 0.05(C) 变量 x 与 y 独立(D) 变量 x 与 y 独立,这个结论犯错误的概率不超过 0.05人教 B 版选择性必修二 P114(4) 在一组样本数据 x1,y1,x2,y2,xn,ynn2,x1,x2,xn 不 全相等) 的散点图中,若所有样本点 xi,yii=1,2,n 都在直线 y= 12x+1 上,求这组样本数据的相关系数.人教 B 版选择性必修二 P120(3) 已知学生性别与考试是否及格无关, 在抽样调查中, 共调查了 52 人, 其中女生 有 32 人, 且 52 人中考试及格的有 39 人. 试估计有多少女生考试是及格的.(4) 为调查某地区老人是否需要志愿者提供帮助, 用简单随机抽样的方法从该地区 调查了 500 位老年人, 结果如下:男女需要志愿者4030不需要志愿者160270(1) 估计该地区老年人中, 需要志愿者提供帮助的老年人的比例;(2) 能否有 99% 的把握认为该地区的老年人是否需要志愿者提供帮助与性别 有关?(3) 根据 (2) 的结论, 能否提供更好的调查方法来估计该地区老年人中, 需要 志愿者帮助的老年人的比例? 说明理由.人教 B 版选择性必修二 P121(3) 已知变量 x 和 y 满足关系 y=0.1x+1 ,变量 y 与 z 正相关. 下列结论中正 确的是 ( ).(A) x 与 y 负相关, x 与 z 负相关 (B) x 与 y 正相关, x 与 z 正相关(C) x 与 y 正相关, x 与 z 负相关 (D) x 与 y 负相关, x 与 z 正相关 人教 B 版选择性必修二 P122(1) 某工厂有 25 周岁及以上的工人 300 名, 25 周岁以下的工人 200 名. 为研究工 人的日平均生产量是否与年龄有关, 现采用分层抽样的方法, 从中抽取了 100 名工人, 先统计了他们某月的日平均生产件数, 然后按工人年龄在 “25 周岁及以上” 和 “25 周岁以下” 分为两组, 再将两组工人的日平均生产件数 分成 5 组: 50, 60), 60, 70), 70, 80), 80, 90), 90, 100, 分别加 以统计,得到如图所示的频率分布直方图.(第 4 题)(1) 从样本中日平均生产件数不足 60 件的工人中随机抽取 2 人, 求至少抽到 一名 “25 周岁以下” 的工人的概率;(2) 规定日平均生产件数不少于 80 件者为 “生产能手”, 请你根据已知条件 列出 2×2 列联表,并判断是否有 90% 的把握认为生产能手与工人所在 的年龄组有关.人教 B 版选择性必修二 P126 4. 乒乓球单打决赛在甲、乙两名运动员间进行, 比赛采用 7 局 4 胜制, 假设两 人在每一局比赛中获胜的可能性相等.(1) 求甲以 “ 4:1 ” 获胜的概率;(2) 求乙获胜且比赛局数多于 5 局的概率.(第 10 题)10. 一家面包房根据以往某种面包的销售 记录, 绘制了日销售量的频率分布直方图, 如 图所示. 将日销售量落人各组的频率视为概率, 并假设每天的销售量相互独立.(1) 求在未来 3 天里, 有连续两天的日销 售量都不低于 100 个且另一天的日销售量低于 50 个的概率;(2) 用 X 表示在未来 3 天里日销售量不低于 100 个的天数,求随机变量 X 的分布 列,期望 EX 及方差 DX .人教 B 版选择性必修二 P1275. 已知 PAB=0.7,PA=0.3 ,判断 A 与 B 是否独立.6. 已知PA=12,PBA=23,PBA=14,求 PB,PAB .人教 B 版选择性必修二 P128 7. 一个布袋中共有 50 个完全相同的球, 其中标记为 0 号的有 5 个, 标记为 n 号的分别有 n 个 n=1,2,9 ,求从布袋中任取一球所得号数的分布列.8. 甲、乙两名选手进行比赛, 假设每局比赛中, 甲胜的概率为 0.6 , 乙胜的概 率为 0.4 . 那么, “三局两胜制” 与 “五局三胜制”, 哪个对甲来说更有利? 由此你能 得到怎样的一般结论?9. 某一部件由三个电子元件按如图方(第 9 题)式连接而成, 元件 1 或元件 2 正常工作, 且元件 3 正常工作时, 部件正常工作. 设 三个电子元件的使用寿命 (单位: h) 均服 从正态分布 N1000,502 ,且各个元件 能否正常工作相互独立, 求该部件的使用 寿命超过 1000h 的概率.10. 某高校共有 15000 人, 其中男生(第 10 题)10500 人, 女生 4500 人, 为调查该校学生 每周平均体育运动时间的情况, 采用分层抽 样的方法, 收集 300 位学生每周平均体育运 动时间的样本数据 (单位: h).(1) 应收集多少位女生样本数据?(2) 根据这 300 个样本数据, 得到学生 每周平均体育运动时间的频率分布直方图如 图所示, 其中样本数据分组区间为: 0, 2, (2, 4, (4, 6, (6, 8, (8, 10, (10,12. 估计该校学生每周平均体育运动时间超过 4h 的概率.(3) 在样本数据中,有 60 位女生的每周平均体育运动时间超过 4h . 请制作每 周平均体育运动时间与性别的 2×2 列联表,并判断是否有 95% 的把握认为该校学 生的每周平均体育运动时间与性别有关.人教 B 版选择性必修二 P128 1. 某公司为确定下一年度投人某种产品的宣传费,需了解年宣传费 x (单位: 万元) 对年销售量 y (单位: t) 和年利润 z (单位: 万元) 的影响. 对近 8 年的年 宣传费 xi 和年销售量 yii=1,2,8 数据进行了初步处理,得到下面的散点 图及一些统计量的值.(第 1 题)xywi=18xix2i=18wiw2i=18xixyiyi=18wiwyiy46. 65636. 8289.81.61469108.8表中 wi=xi,w=18i=18wi .(1) 根据散点图判断, y=a+bx 与 y=c+dx 哪一个适宜作为年销售量 y 关 于年宣传费 x 的回归方程类型?(2) 根据 (1) 的判断结果及表中数据,建立 y 关于 x 的回归方程;(3) 已知这种产品的年利润 z 与 x,y 的关系为 z=0.2yx . 根据 (2) 的结果 回答下列问题: 年宣传费 x=49 时,年销售量及年利润的预测值是多少? 年宣传费 x 为何值时,年利润的预测值最大?2. 已知 A,B 两个投资项目的利润率分别为随机变量 X1 和 X2 . 根据市场分析, X1 和 X2 的分布列如下.X15%10%P0.80.2X22%8%12%P0.20.50.3(1) 在 A,B 两个项目上各投资 100 万元, Y1 和 Y2 分别表示投资项目 A 和 B 所获得的利润,求 DY1 和 DY2 ;(2) 将 x0x100 万元投资 A 项目, 100x 万元投资 B 项目, fx 表示投 资 A 项目所得利润的方差与投资 B 项目所得利润的方差之和. 求 fx 的最小值,并 指出 x 为何值时, fx 取到最小值.模块十六:概率统计 1、随机事件的概率 (1) 随机试验: 我们把随机现象的实现和对它的观察成为随机试验,简称试验,常用字母 E 表示,我们感兴 趣的是具有以下特点的随机试验: (i) 试验可以在相同条件下重复进行; (ii) 试验的所有可能结果是明确可知的, 但事先不能确定出现哪一个结果; (iii) 每次实验总是恰好出现这些可能结果中的一个, 但事先不能确定出现哪一 个结果.(2) 有限样本空间: 我们把随机试验 E 的每个可能的基本结果称为样本点,全体样本点的集合称为实验 E 的 样本空间. 如果一个随机试验有 n 个可能结果 1,2,n ,则称样本空间 =1,2,n 为有限样本空间.2、事件及其分类: 随机事件; 必然事件; 不可能事件 3、事件的关系与运算1.事件的关系和运算A发生导致B发生.并(和)事件一般地,事件A与事件B至少有事件的关一个发生,这样的一个事件中的 样本点或者在事件 A 中,或者在 事件 B 中,我们称这个事件为事 件 A 与事件 B 的并事件(或和事 件),记作 AB或B系和运算定义图示包含关系一般地,若事件A发生,则事件B 一定发生,我们就称事件 B 包含 事件 A (或事件 A 包含于事件B) ,记作 BA ( 或 AB )一般地,事件A与事件B同时发 生,这样的一个事件中的样本点 既在事件 A 中,也在事件 B 中,我 们称这样的一个事件为事件 A 与 事件 B 的交事件(或积事件),记 作 AB或AB相等事件特别地,如果事件B包含事件A, 事件A也包含事件B,即B B,A 且 A B ,则称事件 A 与事件 B 相 等,记作 A=B 事件A是事件B发交(积)事件“A与B相互对立”是“A 与B互斥”的充分不必 要条件.互斥(互不 相容) 事件一般地,如果事件 A 与事件 B 不 能同时发生,也就是说ANB是一 个不可能事件,即 AB= ,则 称事件 A 与事件 B 互斥 ( 或互不 相容)对立事件一般地,如果事件 A 和事件 B 在 任何一次试验中有且仅有一个发 生,即 AB= ,且 AB= ,那 么称事件 A 与事件 B 互为对立事件.事件 A 的对立事件记为 A4、互斥事件与对立事件的判断方法 (1) 从概念看, 对立事件必是互斥事件, 两个对立或互斥的事件不可能同时发生, 但对立事件有且只有一个发生, 而互斥事件有可能都不发生, 即互斥事件至多有一个发生.(2) 从集合观点看, 表示互斥事件与对立事件的集合的交集都是空集, 表示两个对立事件的集合的并集为全集, 而 表示两个互斥事件的集合的并集不一定是全集.(3) 从概率之和看,事件 A 的对立事件 A ,则有 PA+PA=1 ; 事件 A 与事件 B 互斥,则 PA+PB1 .5、古典概型 (1) 古典概型的定义: 具有以下两个特征的试验成为古典概型试验, 其数学模型称为古典概率模型, 简称古典概 型.(i)(ii)(2) 古典概型的判断标准: 一个试验是不是古典概型, 在于这个试验是否具有古典概型的两个特 征:(如: 下列三个试验都不是古典概型: (1)样本点个数有限, 但非可能; (2)样本点个数无限, (2)样本点个 数无限, 但非等可能; )(3) 古典概型的概率计算公式:设试验 E 是古典概型,样本空间 包含 n 个样本点,事件 A 包含 mmn 个样本点,则PA=6、概率的基本性质性质 1对任意的事件 A ,都有 PA0性质 2必然事件的概率为 1 , 不可能事件的概率为 0, 即 P=1,P=0如果事件 A 与事件 B 互斥,那么 PAB=PA+ PB.性质 3推广: 如果事件 A1,A2,Am 两两互斥,那么事件 A1 A2Am 发生的概率等于这 m 个事件分别发生的概率之和,即 PA1A2Am=PA1+PA2+ +PAm性质 4如果事件 A 与事件 B 互为对立事件,那么 PB=1 PA,PA=1PB性质 5如果 AB ,那么 PAPB性质 6设 A,B 是一个随机试验中的两个事件,则 PAB= PA+PBPAB7、相互独立事件 (1) 相互独立事件的概念: 事件 A (或 B ) 是否发生对事件 B (或 A ) 发生的概率没有影响,这样的两个事 件叫做相互独立事件.判断依据: 任意两个事件 A 与 B ,事件 A 与事件 B 相互独立 PAB=PAPB8、相互独立事件的性质(1) 必然事件 、不可能事件 与任意事件相互独立;(2) 当事件 A 与事件 B 相互独立,则事件 A 与 B;A 与 B;A 与 B 也相互独立.(3) 事件 A 与事件 B 相互独立,则两个事件都发生的概率: PAB=PAPB9、相互独立事件的概率的求解与相互独立事件 A,B 有关的概率的计算公式如下表所示:事件 A,B 发生的情形概率计算公式A,B 同时发生PAB=PAPBA,B都不发生PAB=PAPB=1PA1PB= 1PAPB+PAPB 转化为对立事件.A,B 至少有 一个不发生PAB+AB+AB=1PAB=1PAPBA,B 至少有 一个发生PAB+AB+AB=1PAB=1PAPB =PA+PBPAPBA.B 恰有 一个发生PAB+AB=PAB+PAB=PAPB+ PAPB=PA+PB2PAPB10、n 个独立事件同时发生的概率: PA,A2An=PA1PA2PAn (注意理解 n 个独立事件的含义) 11、条件概率(1) 在已知事件 A 发生条件下事件 B 发生的概率: PBA=(2) 条件概率的性质:设 PA>0, 为样本空间,则1)PB|A0,1,P|A=1;2) 如果 B 和 C 是两个互斥事件,则 PBCA=PBA+PCA ;3) 设 B 和 B 互为对立事件,则 PBA=1PBA .(3) 概率乘法公式: 对于任意两个事件 A 与 B ,若 PA>0 ,则 PAB=PAPBA . 若 PB>0 ,则 PAB=PBPAB .12、全概率公式: 设 A1,A2,An 是一组两两互斥的事件, A1A2An= ,且 PAi>0,i=1,2,n , 则对任意事件 B ,有 PB=i=1nPAiPBAi .13、全概率公式的意义:全概率公式的意义在于,当直接计算事件 B 发生的概率 PB 较为困难时,可以先找到样本空间 的一个划分 =A1 A2An,A1,A2,An 两两互斥,将 A1,A2,An 看成是导致 B 发生的一组原因,这样事件 B 就被分解成了 n 个部分,分别计算 PBA1,PBA2,PBAn ,再利用全概率公式求解.14、贝叶斯公式设 A1,A2,An 是一组两两互斥的事件, A1A2An= ,且 PAi>0,i=1,2,n ,则对任意的事件 B,PB>0 ,有后验概率. PAiB=PAiPBAiPB=PAiPBAik=1nPAkPBAk,i=1,2,n.贝叶斯公式是在条件概率的基础上寻找事件发生的原因.贝叶斯公式的思想是 “执果溯因”. 它可以帮助人们确定某结果(事件B)发生的最可能的原因。15、随机变量与离散型随机变量(1) 随机变量: 对于随机试验样本空间 中的每个样本点 ,都有唯一的实数 X 与之对应,则称 X 为随 机变量. 通常用大写英文字母表示随机变量,如 X,Y,Z ; 用小写英文字母表示随机变量的取值,如: x,y , z .(2) 离散型随机变量: 可能取值为有限个或者可以一一列举的随机变量, 称为离散型随机变量.16、离散型随机变量的分布列(1) 定义:一般地,设离散型随机变量 X 的可能取值为 x1,x2,xn ,我们称 X 取每一个值 xi 的概率PX=xi=pi,i=1,2,n为 X 的概率分布列,简称分布列. (2) 分布列表格表示Xx1x2xnPp1p2pn说明: 分布列也可以用等式形式表示: PX=xi=pi,i=1,2,n ; 也可以用图形表示17、离散型随机变量分布列的性质 (两条):(i) (ii)18、离散型随机变量的数字特征(1) 均值 (期望): EX=x1p1+x2p2+xnpn=i=1nxipi(2) 方差: DX=x1EX2p1+x2EX2p2+xnEX2pn=i=1nxiEX2pi并记: DX 为随机变量 X 的标准差.注: DX=i=1nxi2piEx2 (重要公式)19、均值(期望)与方差的性质(1) EaX+b=aEX+b;DaX+b=a2DX(2) 均值是随机变量可能取值关于取值概率的加权平均数, 它综合了随机变量的取值和取值的概率, 反映了随 机变量取值的平均水平; 随机变量的方程刻画了随机变量的取值与其均值的偏离程度, 或者说反映了随机变量取值 的离散程度.20、伯努利实验(独立重复实验)(1) 定义: 把只包含两个可能结果的试验叫做伯努利实验;(2) n 重伯努利实验的两个特征: (i) 同一个伯努利试验重复做 n 次; (ii) 各次试验的结果相互独立. 21、几个重要的分布(1) 两点分布:X01P1pp则称 X 服从两点分布或 01 分布.期望 (均值): EX=p;DX=p1p(2) 二项分布在 n 重伯努利试验中,设每次实验中事件 A 发生的概率为 p0<p<1 ,用 X 表示事件 A 发生的次数,则 X 的 分布列为:PX=k=随机变量 X 具有上式的形式,则 XBn,p .如果 XBn,p ,那么 EX=_,DX=(3) 超几何分布一般地,假设一批产品共有 N 件,其中有 M 件次品. 从 N 件产品中随机抽取 n 件 (不放回),用 X 表示抽取的 n 件产品中的次品数,则 X 的分布列为其中 n,N,MN*,MN,nN,m=max0,nN+M,r=minn,M . 如果随 机变量 X 的分布列具有上式的形式,那么称随机变量 X 服从超几何分布 (hypergeometric distribution).如果 X 服从超几何分布,则 EX=nMN (记忆); DX=nMN1MNNnN1 (了解) (4) 超几何分布和二项分布的联系与区别1.超几何分布与二项分布都是随机变量取非负整数值的离散分 布, 表面上看, 两种分布的概率求解有截然不同的表达式, 但 看它们的概率分布列,会发现其相似点. 例如: 若有 N 件产品, 其中 M 件是次品,无放回地任意抽取 n 件,其中恰有 X 件次 品,则 X 是服从超几何分布的. 若改成: 有 N 件产品,其中 M 件 是次品,有放回地任意抽取 n 件,其中恰有 X 件次品,则 X 是 服从二项分布的. 两种分布的差别就在于 “有放回地抽取” 与 “无放回地抽取”, 只要将概率模型中的 “无” 改为 “有”, 或将 “有”改为“无”,就可以实现两种分布之间的转化.2. 在次品件数为确定数 M 的足够多的产品中,任意抽取 n 件 (由 于产品件数 N 无限多,无放回与有放回无区别,故可看作 n 重伯努利试验), 其中含有次品的件数服从二项分布.21、二项分布中的最大值问题(见课本选择性必修三 P81 探究与发现)22、正态分布(1) 正态密度曲线函数 fx=12ex222,xR . 其中 R,>0 为参数.为正态密度函数, 称它的图象为正态密度曲线, 简称正态曲线,若随机变量 X 的概率分布密度函数为 fx ,则称随机变量 X 服从正态分布 (normal dis-tribution),记为 XN,2 .特别地,当 =0,=1 时,称随机变量 X 服从标准正态分布.(2) 正态分布的均值和方差若 XN,2 ,则 EX=_,DX=(3) 正态曲线的特点:1) 曲线位于 x 轴上方,与 x 轴不相交; x 轴是渐近线.2) 曲线是单峰的,它关于直线 x= 对称;3) 曲线在 x= 处达到峰值 12 ;4) 当 x 无限增大时,曲线无限接近 x 轴;5) 对任意的 >0 ,曲线与 x 轴围成的面积总为 1 ;6) 在参数 取固定值时,正态曲线的位置由 确定,且随着 变化沿 x 轴平移,如图甲所示;7) 当 取定值时,正态曲线的形状由 确定,当 较小时,峰 高,曲线 “瘦高”,表示随机变量 X 的分布比较集中; 当 较 时,峰值低,曲线 “矮胖”,表示随机变量 X 的分布比较分散, 图乙所示.图甲图乙(4) 3 原则(1)正态总体在三个特殊区间内取值的概率(记忆)PX+P2X+2P3X+3(2) 3 原则 (能解释描述,课本选择性必修三 P86)在实际应用中,通常认为服从于正态分布 N,2 的随机变量 X 只取 3,+3 中的值,这在统计学中称为 3 原则.【课本优质习题汇总】 人教 A 版必修二 P246 7. 一个盒子中装有标号为 1,2,3,4,5 的 5 张标签,随机地选取两张标签,根据下列条件求两 张标签上的数字为相等整数的概率:(1) 标签的选取是不放回的;(2) 标签的选取是有放回的.8. 从长度为 1,3,5,7,9 的 5 条线段中任取 3 条,求这三条线段能构成一个三角形的概率.人教 A 版必修二 P247 11. 某人有 4 把钥匙, 其中 2 把能打开门. 如果随机地取一把钥匙试着开门, 把不能开门的钥匙 扔掉, 那么第二次才能打开门的概率有多大? 如果试过的钥匙又混进去, 第二次才能打开门 的概率又有多大?14. 将一枚质地均匀的骰子连续抛掷 3 次, 求下列事件的概率:(1) 没有出现 6 点;(2) 至少出现一次 6 点;(3) 三个点数之和为 9 .人教 A 版必修二 P253 (第 5 题)5. 如图, 一个正八面体, 八个面分别标以数字 1 到 8 , 任意抛掷一次这个 正八面体,观察它与地面接触的面上的数字,得到样本空间为 =1 , 2,3,4,5,6,7,8 . 构造适当的事件 A,B,C ,使 PABC= PAPBPC 成立,但不满足 A,B,C 两两独立.人教 A 版必修二 P262 6. 在一个袋子中放 6 个白球, 4 个红球, 摇匀后随机模球 3 次, 采用放回和不放回两种方式摸球. 设事件 Ai= “第 i 次摸到红球”, i=1,2,3 .(1) 在两种摸球方式下分别猜想事件 A1,A2,A3 发生的概率的大小关系;(2) 重复做 10 次试验,求事件 A1,A2,A3 发生的频率,并填人下表.放回摸球不放回摸球f10A1f10A2f10A3(3) 在两种摸球方式下,第 3 次摸到红球的频率 f10A3 差别大吗? 在不放回摸球方式下,事 件 A1,A2,A3 的频率差别大吗? 请说明原因.人教 A 版必修二 P262 5. 一个袋子中有 4 个红球, 6 个绿球, 采用不放回方式从中依次随机地取出 2 个球.(1) 求第二次