高考数学概率及统计知识点.pdf
高考数学第高考数学第 1818 题(概率与统计)题(概率与统计)1 1、求等可能性事件、互斥事件和相互独立事件的概率、求等可能性事件、互斥事件和相互独立事件的概率解此类题目常应用以下知识:card(A)m(1)等可能性事件(古典概型)的概率:P(A)card(I)n;等可能事件概率的计算步骤:计算一次试验的基本事件总数n;设所求事件 A,并计算事件 A 包含的基本事件的个数m;依公式P(A)mn求值;答,即给问题一个明确的答复.(2)互斥事件有一个发生的概率:P(AB)P(A)P(B);特例:对立事件的概率:P(A)P(A)P(AA)1.(3)相互独立事件同时发生的概率:P(AB)P(A)P(B);特例:独立重复试验的概率:Pn(k)kCnpk(1 p)nk.其中 P 为事件 A 在一次试验中发生的概率,此式为二项式(1-P)+Pn 展开的第 k+1 项.(4)解决概率问题要注意“四个步骤,一个结合”:求概率的步骤是:等可能事件互斥事件独立事件n次独立重复试验第一步,确定事件性质即所给的问题归结为四类事件中的某一种.和事件积事件第二步,判断事件的运算即是至少有一个发生,还是同时发生,分别运用相加或相乘事件.m等可能事件:P(A)n互斥事件:P(A B)P(A)P(B)独立事件:P(A B)P(A)P(B)kknkn次独立重复试验:Pn(k)Cnp(1 p)第三步,运用公式求解第四步,答,即给提出的问题有一个明确的答复.2.2.离散型随机变量的分布列离散型随机变量的分布列1.随机变量及相关概念.随机试验的结果可以用一个变量来表示,这样的变量叫做随机变量,常用希腊字母、等表示.随机变量可能取的值,可以按一定次序一一列出,这样的随机变量叫做离散型随机变量.随机变量可以取某区间的一切值,这样的随机变量叫做连续型随机变量.2.离散型随机变量的分布列离散型随机变量的分布列的概念和性质x取每一个值xi(i 1,一般地,设离散型随机变量可能取的值为x1,x2,i,2,)的概率 P(xi)=Pi,则称下表.x1P1x2P2xiPiP为随机变量的概率分布,简称的分布列.由概率的性质可知,任一离散型随机变量的分布列都具有下述两个性质:(1)Pi 0,i 1,2,;(2)P1 P2=1.常见的离散型随机变量的分布列:(1)二项分布n次独立重复试验中,事件 A 发生的次数是一个随机变量,其所有可能的取值为 0,1,2,kknkn,并且Pk P(k)Cnp q,其中0 k n,q 1 p,随机变量的分布列如下:P000nCnp q111n1Cnp qkkCnpkqnknnn0Cnp q称这样随机变量服从二项分布,记作 B(n,p),其中n、p为参数,并记:kknkCnp q b(k;n,p).(2)几何分布在独立重复试验中,某事件第一次发生时所作的试验的次数是一个取值为正整数的离散型随机变量,“k”表示在第 k 次独立重复试验时事件第一次发生.随机变量的概率分布为:1p2qp3q2pkqk1pP3.3.离散型随机变量的期望与方差离散型随机变量的期望与方差随机变量的数学期望和方差(1)离散型随机变量的数学期望:E x1p1 x2p2;期望反映随机变量取值的平均水平.22(xn E)2pnD(x E)p (x E)p 1122离散型随机变量的方差:;方差反映随机变量取值的稳定与波动,集中与离散的程度.2基本性质:E(ab)aEb;D(ab)a D.(4)若B(n,p),则E np;D=npq(这里 q=1-p);如果随机变量服从几何分布,P(k)g(k,p),则Eq12p,D=p其中 q=1-p.4.4.抽样方法与总体分布的估计抽样方法与总体分布的估计抽样方法1简单随机抽样:设一个总体的个数为 N,如果通过逐个抽取的方法从中抽取一个样本,且每次抽取时各个个体被抽到的概率相等,就称这样的抽样为简单随机抽样.常用抽签法和随机数表法.2系统抽样:当总体中的个数较多时,可将总体分成均衡的几个部分,然后按照预先定出的规则,从每一部分抽取1 个个体,得到所需要的样本,这种抽样叫做系统抽样(也称为机械抽样).3分层抽样:当已知总体由差异明显的几部分组成时,常将总体分成几部分,然后按照各部分所占的比进行抽样,这种抽样叫做分层抽样.总体分布的估计由于总体分布通常不易知道,我们往往用样本的频率分布去估计总体的分布,一般地,样本容量越大,这种估计就越精确.总体分布:总体取值的概率分布规律通常称为总体分布.当总体中的个体取不同数值很少时,其频率分布表由所取样本的不同数值及相应的频率表示,几何表示就是相应的条形图.当总体中的个体取值在某个区间上时用频率分布直方图来表示相应样本的频率分布.总体密度曲线:当样本容量无限增大,分组的组距无限缩小,那么频率分布直方图就会无限接近于一条光滑曲线,即总体密度曲线.5.5.正态分布与线性回归正态分布与线性回归1.正态分布的概念及主要性质(1)正态分布的概念f(x)12e(x)222如果连续型随机变量的概率密度函数为,xR其中、为常2数,并且0,则称服从正态分布,记为 N(,).2(2)期望 E=,方差D.(3)正态分布的性质正态曲线具有下列性质:.曲线在 x 轴上方,并且关于直线x对称.曲线在 x=时处于最高点,由这一点向左右两边延伸时,曲线逐渐降低.曲线的对称轴位置由确定;曲线的形状由确定,越大,曲线越“矮胖”;反之越“高瘦”.三 原则即为数值分布在(,+)中的概率为 0.6526数值分布在(2,+2)中的概率为 0.9544数值分布在(3,+3)中的概率为 0.9974(4)标准正态分布当=0,=1 时服从标准的正态分布,记作 N(0,1)(5)两个重要的公式(x)1(x),P(a b)(b)(a).2(6)N(,)与N(0,1)二者联系.若 N(,),则22 N(0,1);b若 N(,),则P(a b)()(a).6.6.线性回归线性回归1.简单的说,线性回归就是处理变量与变量之间的线性关系的一种数学方法.变量和变量之间的关系大致可分为两种类型:确定性的函数关系和不确定的函数关系.不确定性的两个变量之间往往仍有规律可循.回归分析就是处理变量之间的相关关系的一种数量统计方法.它可以提供变量之间相关关系的经验公式.x a b,具体说来,对 n 个样本数据(x1,y1),(x2,y2),(xn,yn),其回归直线方程:y其中bxi1nni xyi yx yii1n2i1ninxy2x xii1xinx2x,x,y称为样本中心点,因而回归直线过样本中心点.y ba2.2.相关系数相关系数 r r:假设两个随机变量的取值分别是(:假设两个随机变量的取值分别是(x x1 1,y,y1 1),(x x2 2,y,y2 2),(x xn n,y,yn n),则变量间线性相关系数,则变量间线性相关系数 r r 的计算公式如下:的计算公式如下:.r r=(x(xi=1i=1n ni i-x)(yx)(yi i-y)y)2 2(x(xi=1i=1n ni i-x)x)(y(yi=1i=1_ _ _n ni i-y)y)2 2x x y yi ii i1 1n ni i n n x x y yn n_ _n n2 22 22 22 2x xi i n(n(x x)y yi i n(n(y y)i i1 1i i1 1当r 0时,表明两变量正相关;当r 0,表明两变量负相关.r越接近 1,表明两变量的线性相关性越强;r越接近 0,表明两变量的线性相关关系几乎不存在,通常当r 0.75时,认为两个变量有很强的线性相关关系.7.7.独立性检验的概念独立性检验的概念一般地,假设有两个分类变量X和Y,它们的值域分别为x1,x2和y1,y2,其样本频数列联表(称为22列联表)为:x1x2y1acy2总计bda bc da bc d总计acb d.nad bc我们利用随机变量K来确定在多大程度上可以a bc da cb d22认为“两个分类变量有关系”,这种方法称为两个分类变量的独立性检验.(二)独立性检验的基本思想独立性检验的基本思想类似于反证法.要确认“两个分类变量有关系”这一结论成立的可信程度,首先假设该结论不成立,即假设结论“两个分类变量没有关系”成立.在该假设下我们构造的随机变量K2应该很小,如果由观测数据计算得到的K2的观测值k很大,则在一定程度上说明假设不合理.具体比较如下表:反证法原理与独立性检验原理的比较反证法原理独立性检验原理在假设H0下,如果推出一个矛盾,就证明了H0不成立.在假设H0下,如果出现一个与H0矛盾的小概率事件,就推断H0不成立,且该推断犯错误的概率不超过这个小概率.(三)独立性检验的方法假设H1:“X与Y有关系”,可按如下步骤判断结论H1成立的可能性:1.通过等高条形图,可以粗略地判断两个分类变量是否有关系,但是这种判断无法精确地给出所得结论的可靠程度.2.利用独立性检验来考查两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度,具体做法是:(1)根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界a,然后通过下表确定临界值k0.P K2 k00.500.400.250.150.100.050.0250.0100.0050.001k00.455 0.708 1.323 2.072 2.706 3.8415.0246.6357.87910.82822nad bc(2)由公式K,计算K2的观测值k.a bc da cb d(3)如果k k0,就推断“X与Y有关系”.这种推断犯错误的概率不超过a;否则,就认为在犯错误的概率不超过a的前提下不能推断“X与Y有关系”,或者在样本数据中没有足够证据支持结论“X与Y有关系”.理解总结理解总结根据独立性检验的基本思想,可知对于K2的观测值k,存在一个正数k0为判断规则的临界值,当k k0,就认为“两个分类变量之间有关系”;否则就认为“两个分类变量没有关系”.在实际应用中,我们把k k0解释为有1 PK2 k0100%的把握认为“两个分类变量之间有关系”;把k k0解释为不能以1 PK2 k0100%的把握认为“两个分类变量之间有关系”,或者样本观测数据没有提供“两个分类变量之间有关系”的充分证据.