big【强烈推荐】高中数学知识点总结_选修2-3.docx
-
资源ID:52754570
资源大小:31.74KB
全文页数:25页
- 资源格式: DOCX
下载积分:20金币
快捷下载
会员登录下载
微信登录下载
三方登录下载:
微信扫一扫登录
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
big【强烈推荐】高中数学知识点总结_选修2-3.docx
第一章 计数原理1.1 分类加法计数与分步乘法计数分类加法计数原理: 完成一件事有两类不同方案,在第1类方案中有m种不同的方法,在第2类方案中有n种不同的方法,那么完成这件事共有 N=m+n种不同的方法。分类要做到“不重不漏”。分步乘法计数原理:完成一件事需要两个步骤。做第1步有m种不同的方法,做第2步有n种不同的方法,那么完成这件事共有N=m×n种不同的方法。分步要做到“步骤完整”。n元集合A=a1,a2,an的不同子集有2n个。1.2 排列与组合1.2.1 排列一般地,从n个不同元素中取出m(mn)个元素,按照一定的顺序排成一列,叫做从n个不同元素中取出m个元素的一个排列(arrangement)。从n个不同元素中取出m(mn)个元素的所有不同排列的个数叫做从n个不同元素中取出m个元素的排列数,用符号Anm表示。排列数公式:Anm=n!n-m!=nn-1n-2(n-m+1)n个元素的全排列数Ann=n!规定:0!=11.2.2 组合一般地,从n个不同元素中取出m(mn)个元素合成一组,叫做从n个不同元素中取出m个元素的一个组合(combination)。从n个不同元素中取出m(mn)个元素的所有不同组合的个数,叫做从n个不同元素中取出m个元素的组合数,用符号Cnm或nm表示。组合数公式: Anm=CnmAmmCnm=AnmAmm=n!m!n-m!=nn-1n-2(n-m+1)m! 规定:Cn0=1组合数的性质:Cnm=Cnn-m (“构建组合意义”“殊途同归”)Cn+1m=Cnm+Cnm-1 (杨辉三角)kCnk=nCn-1k-1*Cnk×Cn-km-k=Cnm×Cmk1.3 二项式定理1.3.1 二项式定理(binomial theorem)(a+b)n=Cn0an+Cn1an-1b+Cnkan-kbk+Cnnbn (nN*)其中各项的系数Cnk (k0,1,2,n)叫做二项式系数(binomial coefficient);式中的Cnkan-kbk叫做二项展开式的通项,用Tk+1表示通项展开式的第k+1项:Tk+1=Cnkan-kbk*注意二项展开式某一项的系数与这一项的二项式系数是两个不同的概念。1.3.2 “杨辉三角”与二项式系数的性质*表现形式的变化有时能帮助我们发现某些规律!(1) 对称性(2) 当n是偶数时,共有奇数项,中间的一项Cnn2+1取得最大值;当n是奇数时,共有偶数项,中间的两项Cnn-12,Cnn+12同时取得最大值。(3) 各二项式系数的和为 2n=Cn0+Cn1+Cn2+Cnk+Cnn(4) 二项式展开式中,奇数项二项式系数之和等于偶数项二项式系数之和:Cn0+Cn2+Cn4+=Cn1+Cn3+Cn5+(5) 一般地,Crr+Cr+1r+Cr+2r+Cn-1r=Cnr+1 (n>r)第二章 随机变量及其分布2.1 离散型随机变量及其分布2.1.1 离散型随机变量随着试验结果变化而变化的变量称为随机变量(random variable)。随机变量和函数都是一种映射,随机变量把随机试验的结果映为实数,函数把实数映为实数。试验结果的范围相当于函数的定义域,随机变量的取值范围相当于函数的值域。所有取值可以一一列出的随机变量,称为离散型随机变量(discrete random variable)。概率分布列(probability distribution series),简称为分布列(distribution series)。Xx1x2xixnPp1p2pipn也可用等式表示:PX=xi=pi ,i=1,2,n根据概率的性质,离散型随机变量的分布列具有如下性质:(1) pi0,i=1,2,n;(2) i=1npi=1随机变量X的均值(mean)或数学期望(mathematical expectation):EX=x1p1+x2p2+xipi+xnpn它反映了离散型随机变量取值的平均水平。随机变量X的方差(variance)刻画了随机变量X与其均值E(X)的平均偏离程度DX=i=1n(xi-E(X)2pi其算术平方根D(X)为随机变量X的标准差(standard deviation)。EaX+b=aEX+bDaX+b=a2DX若随机变量X的分布具有下表的形式,则称X服从两点分布(two-point distribution),并称p=P(X=1)为成功概率。(两点分布又称0-1分布。由于只有两个可能结果的随机试验叫伯努利试验,所以两点分布又叫伯努利分布)X01P1-pp若X服从两点分布,则E(X)=p ,D(X)=p(1-p)一般地,在含有M件次品的N件产品中,任取n件,其中恰有X件次品,则PX=k=CMkCN-Mn-kCNn ,k=0,1,2,mX01mPCM0CN-Mn-0CNnCM1CN-Mn-1CNnCMmCN-Mn-mCNn其中m=minM,n,且nN,MN,n,M,NN*如果随机变量X的分布列具有上表的形式,则称随机变量X服从超几何分布(hypergeometric distribution)。2.2 二项分布及其应用2.2.1 条件概率一般地,设A,B为两个事件,且P(A)>0,称PBA=P(AB)P(A)为在事件A发生的条件下,事件B发生的条件概率(conditional probability)。如果B和C是两个互斥事件,则PBCA=PBA+P(C|A)2.2.2 事件的相互独立性设A,B为两个事件,若P(AB)=P(A)P(B)则称事件A与事件B相互独立(mutually independent)。可以证明,如果事件A与B相互独立,那么A与B,A与B,A与B也都相互独立。2.2.3 独立重复试验与二项分布一般地,在相同条件下重复做的n次试验称为n次独立重复试验(independent and repeated trials)。PA1A2An=PA1P(A2)P(An)其中Ai (i=1,2,n)是第i次试验的结果。一般地,在n次独立重复试验中,用X表示事件A发生的次数,设每次试验中事件A发生的概率为p,则PX=k=Cnkpk(1-p)n-k , k=0,1,2,n此时称随机变量X服从二项分布(binomial distribution),记作XB(n,p),并称p为成功概率。若XB(n,p) ,则EX=k=0nkCnkpkqn-k=k=1nnpCn-1k-1pk-1qn-1-(k-1)=npk=0n-1Cn-1kpkqn-1-k=np(p+q)n-1=npD(X)=np(1-p)*随机变量的均值是常数,而样本的平均值是随着样本的不同而变化的,因此样本的平均值是随机变量。随机变量的方差是常数,而样本的方差是随着样本的不同而变化的,因此样本的方差是随机变量。2.4 正态分布一般地,如果对于任何实数a,b (a<b),随机变量X满足,x=12e-(x-)222 ,x(-,+)Pa<Xb=ab,(x)dx则称随机变量X服从正态分布(normal distribution)。正态分布完全由参数和确定,记作N(,2)。如果随机变量X服从正态分布,则记为X N(,2). ,(x)的图像称为正态分布密度曲线,简称正态曲线。(参数是反映随机变量取值的平均水平的特征数,可用样本的均值去估计;是衡量随机变量总体波动大小的特征数,可用样本的标准差去估计。)标准正态分布:XN(0,1)经验表明,一个随机变量如果是众多的、互不相干的、不分主次的偶然因素作用结果之和,它就服从或近似服从正态分布。正态曲线的特点:(1) 曲线位于x轴上方,与x轴不相交;(2) 曲线是单峰的,它关于直线x= 对称;(3) 曲线在x=处达到峰值12 ;(4) 曲线与x轴之间的面积为1。*越小,曲线越“高瘦”,表示总体分布越集中;越大,曲线越“矮胖”,表示总体分布越分散;若X N(,2),则对于任何实数a>0,P-a<X+a=-a+a,(x)dx该面积随着的减少而变大。这说明越小,X落在区间(-a,+a的概率越大,即X集中在周围概率越大。特别有P-<X+=0.6826P-2<X+2=0.9544P-3<X+3=0.9974在实际应用中,通常认为服从于正态分布N(,2)的随机变量X只取-3<X+3之间的值,并简称之为3原则。第三章 统计案例3.1 回归分析的基本思想回归分析(regression analysis)是对具有相关关系的两个变量进行统计分析的一种常用方法。对于一组具有线性相关关系的数据 x1,y1,x2,y2,(xn,yn)b=i=1n(xi-x)(yi-y)i=1n(xi-x)2=i=1nxiyi-nxyi=1nxi2-nx2a=y-bx其中x=1ni=1nxi ,y=1ni=1nyi ,(x,y)称为样本点的中心,回归直线过样本点的中心。回归方程:y=bx+a线性回归模型:y=bx+a+eEe=0,De=2其中a和b为模型的未知参数,e是y与bx+a之间的误差。通常e为随机变量,称为随机误差(random error)。与函数关系不同,在回归模型中,y的值由x和随机因素e共同确定,即x只能解释部分y的变化,因此我们把x称为解释变量,把y称为预报变量。随机误差e的方差2越小,用bx+a预报真实值y的精度越高。随机误差是引起预报值y与真实值y之间存在误差的原因之一,其大小取决于随机误差的方差。另一方面,b和a为斜率和截距的估计值,它们与真实值a和b之间也存在误差,这种误差是引起预报值y与真实值y之间存在误差的另一个原因。由于随机误差 e=y-(bx+a),所以e=y-y是e的估计量。对于样本点x1,y1,x2,y2,(xn,yn)它们的随机误差为ei=yi-bxi-a,i=1,2,n其估计值为ei=yi-yi=yi-bxi-a,i=1,2,nei称为相应于点xi,yi的残差(residual)。可以通过残差发现原始数据中的可疑数据,判断所建立模型的拟合效果。以样本编号为横坐标,残差为纵坐标,可作出残差图。检查残差较大的样本点,确认采集该样本点过程中是否有人为错误,如有,应予以纠正,再重新利用线性回归模型拟合数据;如没有,则需寻找其它原因。另外,对于已经获取的样本数据,R2=1-i=1n(yi-yi)2i=1n(yi-y)2中的i=1n(yi-y)2为确定的数。因此R2越大,意味着残差平方和i=1n(yi-yi)2越小,即模型拟合效果越好;R2越小,残差平方和越大,即模型拟合效果越差。R2表示解释变量对于预报变量变化的贡献率,R2越接近于1,表示回归的效果越好。一般地,建立回归模型的基本步骤:(1) 确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;(2) 画出解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等)(3) 有经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程)(4) 按一定规则(如最小二乘法)估计回归方程中的参数;(5) 得出结果后分析残差图是否有异常(如个别数据对应残差过大,残差呈现不随机的规律性等)。若存在异常,则检查数据是否有误,或模型是否合适等。回归模型的适用范围:(1) 回归方程只适用于我们所研究的样本的总体;(2) 我们所建立的回归方程一般都有时间性;(3) 样本取值的范围会影响回归方程的适用范围;(4) 不能期望回归方程得到的预报值就是预报变量的精确值。一般地,比较两个函数模型的拟合程度的步骤如下:(1) 分别建立对应于两个模型的回归方程y1=f(x,a)与y2=g(x,b) ,其中a和b分别是参数a和b的估计值(2) 分别计算两个模型的R2值(3) 若R12>R22 ,则模型1比模型2拟合效果更好;若R12<R22 ,则模型2比模型1拟合效果更好。3.2 独立性检验的基本思想不同的“值”表示不同类别的变量叫做分类变量。列出两个分类变量的频数表称为列联表(contingency table)。常用等高条形图展示列联表数据的频率特征。利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验(test of independence)。反证法原理与独立性检验原理的比较反证法原理在假设H0下,如果推出一个矛盾,就证明了H0不成立独立性检验原理在假设H0下,如果出现一个与H0相矛盾的小概率事件,就推断H0不成立,且该推断犯错误的概率不超过这个小概率一般地,假设有两个分类变量X和Y,它们的取值分别为x1,x2和y1,y2,其样本频数列联表(称为2×2列联表)为:y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d假设H0: X与Y没有关系,即X与Y独立。则有P(XY)=P(X)P(Y) ;根据频率近似于概率,故有aa+b+c+da+ba+b+c+d×a+ca+b+c+d化简得 adbc因此,|ad-bc|越小,两者关系越弱;|ad-bc|越大,两者关系越强;基于以上分析,构造随机变量K2=n(ad-bc)2a+bc+da+c(b+d) ,其中n=a+b+c+d为样本容量K2的值越小则关系越小,K2的值越大则关系越大。(实际应用中通常要求a,b,c,d都不小于5)计算K2的观测值k并与K2作比较。统计学研究发现,在H0成立的情况下,PK26.635=0.01即在H0成立的情况下,K2的观测值超过6.635的概率非常小,近似为0.01,是一个小概率事件。若观测值k大于6.635,则有理由判定H0不成立,即“X与Y有关系”。但这种判断会犯错误,犯错误的概率不会超过0.01 .*(这里概率计算的前提是H0成立,即H0:两个分类变量没有关系)若要推断的论述为H1:“X与Y有关系”。可以通过频率直观地判断两个条件概率P(Y=y1|X=x1)和P(Y=y1|X=x2)是否相等。如果判断它们相等,就意味着X和Y没有关系;否则就认为它们有关系。由上表可知,在X=x1的情况下,Y=y1的频率为aa+b ;在X=x2的情况下,Y=y1的频率为cc+d 。因此,如果通过直接计算或等高条形图发现aa+b和cc+d相差很大,就判断两个分类变量之间有关系。利用独立性检验原理可以进一步给出推断“两个分类变量有关系”犯错误的概率。具体做法是:(1) 根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界 ,然后查下表确定临界值k0.P(K2k0)0.500.400.250.150.100.050.0250.0100.0050.001k00.4550.7081.3232.0722.7063.8415.0246.6357.87910.828(2) 利用公式计算随机变量K2的观测值k.(3) 如果K2的观测值k大于判断规则的临界值k0,即kk0,就推断“X与Y有关系”,这种推断犯错误的概率不超过 ;否则,就认为在犯错误的概率不超过的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”。按照上述规则,把“两个分类变量之间没有关系”错误地判断为“两个分类变量之间有关系”的概率不超过PK2k0.定义:W=aa+b-cc+d则K2=W2×na+b(c+d)a+c(b+d)若“X和Y没有关系”则有PK2k0=0.01有K2k0可推出Wk0×a+c(b+d)na+b(c+d)即可取w0=k0×a+c(b+d)na+b(c+d)于是有以下判断规则:当W的观测值w>w0时,就判断“X和Y有关系” ;否则,判断“X和Y没有关系”。这里w0为正实数,且满足在“X和Y没有关系”的前提下PW2w0=0.01