2024新高考数学基础知识梳理与课本优秀题目巩固-模块18-成对数据分析.docx
《2024新高考数学基础知识梳理与课本优秀题目巩固-模块18-成对数据分析.docx》由会员分享,可在线阅读,更多相关《2024新高考数学基础知识梳理与课本优秀题目巩固-模块18-成对数据分析.docx(37页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、2024新高考数学基础知识梳理与课本优秀题目巩固-模块18-成对数据分析模块十八:成对数据统计分析 1、变量的相关关系: (1) 函数关系 (确定性关系); (2) 相关关系 (线性相关和非线性相关)2、散点图: 成对数据都可以用直角坐标系中的点表示出来, 由这些点组成的统计图叫散点图. 3、正相关和负相关从整体上看, 当一个变量的值增加时, 另一个变量的相应值也呈现增加的趋势, 我们就称这两个变量正相关 (positive correlation); 当一个变量的值增加时, 另一个变量的相应值呈现减小的趋势, 则称这两个变量负相关 (negative correlation). 4、线性相关
2、:一般地, 如果两个变量的取值呈现正相关或负相关, 而且散点落在一条直线附近, 我 们就称这两个变量线性相关. 5、样本相关系数:r=i=1nxixyiyi=1nxix2i=1nyiy2=i=1nxiyinxyi=1nxi2nx2i=1nyi2ny2注: (1) 样本相关系数 r 是一个描述成对样本数据的数字特征,它的正负性可以反映成对样本数据的变化特征: 当 r0 时,称成对样本数据正相关. 这时,当其中一个数据的值变小时,另一个数据的值通常也变小; 当其中一个数据的值变大时, 另一个数据的值通常也变大.当 r0 时,称成对样本数据负相关. 这时,当其中一个数据的值变小时,另一个数据的值通常
3、会变大; 当其中一个数据的值变大时, 另一个数据的值通常会变小.(2) 样本相关系数 r 的取值范围为 1,1 ,样本相关系数 r 的绝对值大小可以反映成对样本数据之间线性相关的 程度:当 r 越接近 1 时,成对样本数据的线性相关程度越强;当 r 越接近 0 时,成对样本数据的线性相关程度越弱.6、一元线性回归模型Y=bx+a+e,Ee=0,De=2.(1)我们称 (1) 式为 Y 关于 x 的一元线性回归模型 (simple linear regression model). 其中,Y 称为因变量或响应变量, x 称为自变量或解释变量; a 和 b 为模型的未知参数, a 称为截距参数,
4、b 称为斜率参数; e 是 Y 与 bx+a 之间的随机误差. 7、线性经验回归方程与最小二乘法我们将 y=bx+a 称为 Y 关于 x 的经验回归方程,也称经验回归函数或经验回归公式,其中b=i=1nxixyiyi=1nxix2,a=ybx其图形称为经验回归直线. 这种求经验回归方程的方法叫做最小二乘法 ,求得的 b,a叫做 b,a 的最小二乘估计 (least squares estimate).注意: (1) 经验回归直线一定过样本中心点 x,y(2) 残差分析:对于响应变量 Y ,通过观测得到的数据称为观测值,通过经验回归方程得到的 y 称为 预测值, 观测值减去预测值称为残差. 残差
5、是随机误差的估计结果, 通过对残差的分析可 以判断模型刻画数据的效果, 以及判断原始数据中是否存在可疑数据等, 这方面工作称为 残差分析.8、刻画回归效果的方式 (1) 残差图法: 在残差图中 (纵坐标是残差), 残差点比较均匀落在以取值为 0 的横轴为对称轴的水平带状区 域内, 说明选用的模型比较合适, 这样的带状区域的宽度越窄, 说明拟合精度越高.(2) 残差平方和: 残差平方和为 yiyi2 ,残差平方好越小,模型拟合效果越好.(3) 利用决定系数 R2 刻画拟合效果:R2=1i=1nyiyi2i=1nyiy2.在 R2 表达式中, i=1nyiy2 与经验回归方程无关,残差平方和 i=
6、1nyiyi2 与经验回归方程有关. 因此 R2 越大,表示残差平方和越小,即模型的拟合效果越好; R2 越小,表示残差平方和越大, 即模型的拟合效果越差.9、分类变量: 为了表述方便, 我们经常会使用一些特殊的随机变量, 以区别不同的现象或性质, 这类随机变量 称为分类变量. 分类变量的取值可以用实数表示.10、 22 列联表假设两个分类变量 X 和 Y ,它们的可能取值分别为 x1,x2和 y1,y2 ,其 22 列联表为XY合计yty2x1aba+bx2cdc+d合计a+cb+da+b+c+d22 列联表给出了成对分类变量数据的交叉分类频数.、等高堆积条形图: 展示列联表数据的频率特征,
7、 能够直观反映出两个分类变量之间是否相互影响.(1) 等高堆积条形图中有两个高度相同的矩形, 每一个矩形中都有两种颜色,观察下方颜色区域的高度, 如果两个高度相差比较明显, 就判定两个分类变量之间有关 系.(2) 利用等高堆积条形图虽然可以比较各个部分之间的差异, 明确展现两个分类变量的关系, 但不能知道两个分类变量有关系的概率大小.12、独立性检验假设有两个分类变量 X 和 Y ,它们的值域分别为 x1,x2 和 y1,y2 ,其样本频数 22 列联表为:y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d若要推断的论述 H:aX 和 Y 有关系”,可以利用独立性检验来考察
8、两个变量是否有 关系, 并且能较精确地给出这种判断的可靠程度.关系, 并且能比较精确地给出这种判断的可靠程度. 则:2=nadbc2a+bc+da+cb+d.当 2xa 时,我们就推断 H0 不成立,即认为 X 和 Y 不独立,该推断犯错误的概率 不超过 ;当 2xa 时,我们没有充分证据推断 H0 不成立,可以认为 X 和 Y 独立.这种利用 2 的取值推断分类变量 X 和 Y 是否独立的方法称为 Z2 独立性检验,读作 “卡方独立性检验”, 简称独立性检验 (test of independence).注意: 独立性检验结论描述:(1) 如果 2x ,根据小概率值 的 2 独立性检验,推断
9、 H0 不成立,即认为 X 与 Y 有关联,此推断犯错 误的概率不大于 ; (或者说: 有 1100% 的把握认为 X 与 Y 有关联,或者说: 在犯错误率不超过 的前提 下认为 X 与 Y 有关联)(2) 如果 20, 为样本空间,则1)PB|A0,1,P|A=1;2) 如果 B 和 C 是两个互斥事件,则 PBCA=PBA+PCA ;3) 设 B 和 B 互为对立事件,则 PBA=1PBA .(3) 概率乘法公式: 对于任意两个事件 A 与 B ,若 PA0 ,则 PAB=PAPBA . 若 PB0 ,则 PAB=PBPAB .12、全概率公式: 设 A1,A2,An 是一组两两互斥的事件
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2024 新高 数学 基础知识 梳理 课本 优秀 题目 巩固 模块 18 成对 数据 分析
限制150内