概率与数理统计基础精选PPT.ppt
概率与数理统计基础第1页,此课件共54页哦 概率论与数理统计是研究和概率论与数理统计是研究和揭示随机现象统计规律性的数学揭示随机现象统计规律性的数学分支。主要包括:随机事件和概分支。主要包括:随机事件和概率、随机变量的分布和数字特征、率、随机变量的分布和数字特征、中心极限定理和大数定理、抽样中心极限定理和大数定理、抽样分布、统计估计、假设检验、回分布、统计估计、假设检验、回归分析等。归分析等。第2页,此课件共54页哦主要内容主要内容1.基本概念基本概念2.对总体的描述对总体的描述随机变量的数字特征随机变量的数字特征3.对样本的描述对样本的描述样本分布的数字特征样本分布的数字特征4.随机变量的分布随机变量的分布5.通过样本,估计总体通过样本,估计总体估计量的特征估计量的特征6.通过样本,估计总体通过样本,估计总体估计方法估计方法7.通过样本,估计总体通过样本,估计总体假设检验假设检验第3页,此课件共54页哦第一节第一节 基本概念基本概念总体和个体总体和个体样本和样本容量样本和样本容量随机变量随机变量统计量统计量第4页,此课件共54页哦1.1总体、个体、样本和样本容量研究对象的全体称为总体或母体,研究对象的全体称为总体或母体,通常指研究对象的某通常指研究对象的某项数量指标;项数量指标;组成总体的每个基本单位称为个体。组成总体的每个基本单位称为个体。从总体从总体X中抽出若干个个体称为中抽出若干个个体称为样本样本,一般记为,一般记为(X1,X2,Xn)。n称为称为样本容量样本容量。而对这。而对这n个个体的一次个个体的一次具体的观察结果具体的观察结果(x1,x2,xn)是完全确定的一组数是完全确定的一组数值,但它又随着每次抽样观察而改变。值,但它又随着每次抽样观察而改变。(x1,x2,xn)称称为为样本观察值样本观察值。注意:抽样是按注意:抽样是按随机原则随机原则选取的,即总体中每个选取的,即总体中每个 个体有同样的机会被选入样本。个体有同样的机会被选入样本。第5页,此课件共54页哦 当人们在一定条件下对某一现象加以观察时,观察到的当人们在一定条件下对某一现象加以观察时,观察到的结果是多个可能结果中的某一个,且在每次观察前都无法结果是多个可能结果中的某一个,且在每次观察前都无法预知观测结果到底是哪一个,即结果的出现呈现出偶然性,预知观测结果到底是哪一个,即结果的出现呈现出偶然性,但是所有可能出现的结果是知道的。但是所有可能出现的结果是知道的。随机现象具有偶然性一面,也有必然性一面。偶随机现象具有偶然性一面,也有必然性一面。偶然性一面表然性一面表现在现在“对随机现象做一次观测时,观测结果具有偶然性对随机现象做一次观测时,观测结果具有偶然性(不不可预知性可预知性)”;必然性一面表现在必然性一面表现在“对随机现象进行大量重复对随机现象进行大量重复观测,观测结果有一定的规律性,亦即统计规律性观测,观测结果有一定的规律性,亦即统计规律性”。具有不确定性具有不确定性(或随机性、偶然性或随机性、偶然性)的现象称为随机现象。的现象称为随机现象。特点特点:随机现象随机现象定义:定义:第6页,此课件共54页哦随机试验举例:随机试验举例:E E1 1:掷一颗骰子,观察所掷的点数是几;掷一颗骰子,观察所掷的点数是几;E E2 2:观察某城市某个月内交通事故发生的次数;观察某城市某个月内交通事故发生的次数;E E3 3:对某只灯泡做试验对某只灯泡做试验,观察其使用寿命;观察其使用寿命;E E4 4:对某只灯泡做试验对某只灯泡做试验,观察其使用寿命是否小观察其使用寿命是否小 于于200200小时。小时。在实际问题中,随机试验的结果可以用数在实际问题中,随机试验的结果可以用数量来表示,由此就产生了随机变量的概念量来表示,由此就产生了随机变量的概念第7页,此课件共54页哦 有些试验结果本身与数值有关(本身就是一个数)有些试验结果本身与数值有关(本身就是一个数).例如,掷一颗骰子面上出现的点数;例如,掷一颗骰子面上出现的点数;七月份济南的最高温度;七月份济南的最高温度;每天从济南下火车的人数;每天从济南下火车的人数;昆虫的产卵数;昆虫的产卵数;它随试验结果的不同而取不同的值,因而在试验之前只知道它可能它随试验结果的不同而取不同的值,因而在试验之前只知道它可能取值的范围,而不能预先肯定它将取哪个值。由于试验结果的出现取值的范围,而不能预先肯定它将取哪个值。由于试验结果的出现具有一定的概率,于是这种实值函数取每个值和每个确定范围内的具有一定的概率,于是这种实值函数取每个值和每个确定范围内的值也有一定的概率。值也有一定的概率。第8页,此课件共54页哦1.2 随机变量根据概率不同而取不同数值的变量称为根据概率不同而取不同数值的变量称为随机随机变量变量。一个一个随机变量具有这样的特性:可以取许多随机变量具有这样的特性:可以取许多不同的数值,取每一个数值都有相应的概率不同的数值,取每一个数值都有相应的概率p,0 p1。第9页,此课件共54页哦总体、随机变量、样本间的联系样本就是一个随机变量,所谓样本就是一个随机变量,所谓“样本容量为样本容量为n的样本的样本”就是就是n个相互独立且与总体有相个相互独立且与总体有相同分布的随机变量同分布的随机变量X1,X2,Xn每一次具体抽样所得的数据,就是每一次具体抽样所得的数据,就是n元随机变量的元随机变量的一个观察值,记为一个观察值,记为X1,X2,Xn样本是总体的一部分。总体一般是未知的。样本是总体的一部分。总体一般是未知的。一般要通过样本才能部分地推知总体的情况。一般要通过样本才能部分地推知总体的情况。第10页,此课件共54页哦1.3 统计量统计量由样本值去推断总体情况,需要对样本值进行由样本值去推断总体情况,需要对样本值进行“加加工工”,这就要构造一些样本的函数,它把样本中所,这就要构造一些样本的函数,它把样本中所含的(某一方面)的信息集中起来。设含的(某一方面)的信息集中起来。设(x1,x2,xn)为一组为一组样本观察值,函数样本观察值,函数y=f(x1,x2,xn)若不含有未知参数,若不含有未知参数,这这种种不含任何未知参数的样本的函数称为不含任何未知参数的样本的函数称为统计量统计量。它。它是完全由样本决定的量。是完全由样本决定的量。统计量既然是依赖于样本的,而后者又是随机变量,统计量既然是依赖于样本的,而后者又是随机变量,故统计量也是随机变量。故统计量也是随机变量。几个常见统计量几个常见统计量样本均值:样本均值:样本方差:样本方差:第11页,此课件共54页哦第二节第二节 对总体的描述对总体的描述随机变量的数字特征随机变量的数字特征2.1 数学期望数学期望2.2 方差方差2.3协方差协方差第12页,此课件共54页哦2.1.1 数学期望:实际上就是一个加权平数学期望:实际上就是一个加权平均值,描述随机变量的集中程度。均值,描述随机变量的集中程度。数学期望描述随机变量(总体)的一般水平。数学期望描述随机变量(总体)的一般水平。定义定义1离散型随机变量数学期望的定义离散型随机变量数学期望的定义 假定有一个离散型随机变量假定有一个离散型随机变量X有有n个不同的可能取个不同的可能取值值x1,x2,xn,而,而p1,p2,pn是是X取这些值取这些值相应的概率,则这个随机变量相应的概率,则这个随机变量X的数学期望定的数学期望定义如下:义如下:第13页,此课件共54页哦定义定义2连续型随机变量数学期望的定义连续型随机变量数学期望的定义第14页,此课件共54页哦2.1.2数学期望的性质:数学期望的性质:(1)如果a、b为常数,则 E(aX+b)=aE(X)+b(2)如果X、Y为两个随机变量,则 E(X+Y)=E(X)+E(Y)(3)如果g(x)和f(x)分别为X的两个函数,则 Eg(X)+f(X)=Eg(X)+Ef(X)(4)如果X、Y是两个独立的随机变量,则 E(X.Y)=E(X).E(Y)第15页,此课件共54页哦2.2.1方差的定义方差的定义离均差的定义离均差的定义若随机变量若随机变量X的数学期望的数学期望E(X)存在,称存在,称X-E(X)为随机变量为随机变量X的的离均差。离均差。方差的定义方差的定义 离均差的平方的数学期望。离均差的平方的数学期望。设设X是随机变量,若是随机变量,若EX-EX2存在,存在,则称则称EX-EX2为随机变量为随机变量X的方差,记为的方差,记为D(X)或或Var(X),即,即 D(X)=EX-EX2 方差的算术平方根称为随机变量方差的算术平方根称为随机变量X的均方差或标准差。的均方差或标准差。第16页,此课件共54页哦2.2.2方差的意义方差的意义离均差和方差都是用来描述随机变量离散程度离均差和方差都是用来描述随机变量离散程度的,即描述的,即描述x对于它的数学期望的偏离程度,对于它的数学期望的偏离程度,这种偏差越大,表明变量的取值越分散。这种偏差越大,表明变量的取值越分散。一般情况下,常用方差来描述离散程度。因为一般情况下,常用方差来描述离散程度。因为离均差的和为零,无法体现随机变量的总离散离均差的和为零,无法体现随机变量的总离散程度。事实上正偏差大或负偏差大,同样是离程度。事实上正偏差大或负偏差大,同样是离散程度大。方差中由于有了平方,从而消除了散程度大。方差中由于有了平方,从而消除了正负号的影响,并易于加总,也易于强调大的正负号的影响,并易于加总,也易于强调大的偏离程度的突出作用。偏离程度的突出作用。第17页,此课件共54页哦2.2.3方差的性质:方差的性质:(1)Var(c)=0(2)Var(c+x)=Var(x)(3)Var(cx)=c2Var(x)(4)Var(x-y)=Var(x)+Var(y)-2cov(x,y)Var(x+y)=Var(x)+Var(y)+2cov(x,y)(5)Var(a+bx)=b2Var(x)(6)a,b为常数,x,y为两个相互独立的随机变量,则Var(ax+by)=a2Var(x)+b2Var(y)(7)Var(x)=E(x2)-(E(x)2第18页,此课件共54页哦 2.3协方差协方差Cov(X,Y)=E(X-EX)(Y-EY)Cov(X,Y)=E(XY)-E(X)E(Y)(积的期望减期望的积)(积的期望减期望的积)第19页,此课件共54页哦第三节第三节 对样本的描述对样本的描述样本分布的数字特征样本分布的数字特征样本均值样本均值 反映样本集中程度反映样本集中程度 样本方差样本方差样本标准差样本标准差描描述述样样本本离离散散程程度度第20页,此课件共54页哦第四节第四节 随机变量的分布随机变量的分布4.1 正态分布正态分布4.2 t分布分布4.3 卡方分布卡方分布4.4 F分布分布第21页,此课件共54页哦4.1 正态分布正态分布第22页,此课件共54页哦正态分布图形正态分布图形第23页,此课件共54页哦标准正态分布标准正态分布 根据以上定理,可以将任何一个正态分根据以上定理,可以将任何一个正态分布化为标准正态分布,即将其标准化。布化为标准正态分布,即将其标准化。第24页,此课件共54页哦标准正态分布图形标准正态分布图形第25页,此课件共54页哦标准正态分布的分位数标准正态分布的分位数(临界值临界值)在实际问题中,在实际问题中,常取常取0.1、0.05、0.01.z0.05=1.645 z0.01=2.326 z0.01/2=2.575 z0.05/2=1.96第26页,此课件共54页哦4.2t分布分布定理定理1:若若XN(0,1),Y 2(n),X与与Y独立,则独立,则定理定理2:设:设(X1,X2,Xn)是正态总体是正态总体N(,2)的简单随机样本,的简单随机样本,则则第27页,此课件共54页哦性质性质:(1)f(x)(1)f(x)关于x=0 x=0(纵轴)对称。(2)f(x)(2)f(x)的极限为N(0N(0,1)1)的密度函数,即 当当n较较大时,大时,t分布近分布近似于标似于标准正态准正态分布分布.第28页,此课件共54页哦第29页,此课件共54页哦来定义来定义.其中伽玛函数其中伽玛函数 通过积分通过积分若随机变量若随机变量X的概率密度为的概率密度为那么称那么称X服从自由度为服从自由度为n的的 分布分布记作:记作:4.3 4.3 分布分布第30页,此课件共54页哦 2 2分布的密分布的密度函数的图形度函数的图形如右图如右图.应用中心极限定理可得,应用中心极限定理可得,则当,则当n充分大时充分大时若若的分布近似正态分布的分布近似正态分布N(0,1).则则可以求得,可以求得,E(X)=n,Var(X)=2n若若若若X1,X2,Xn相互独立,且相互独立,且XiN(0,1),则,则性质性质1:性质性质2:第31页,此课件共54页哦第32页,此课件共54页哦则称X服从自由度为自由度为n1和和n2的的F分布。分布。n1称第一自由度,n2称第二自由度。定义定义:若随机变量 X的密度函数为4.4 F分布分布第33页,此课件共54页哦定理定理1 若若X 2(n1),Y 2(n2),X,Y独立,则独立,则第34页,此课件共54页哦*定理定理2:设:设(X1,X2,Xn1)是是N(1,12)的样本,的样本,(Y1,Y2,Yn2)是是N(2,22)的样本,且相互独立,的样本,且相互独立,S12,S22是样本方差,则是样本方差,则第35页,此课件共54页哦分位数问题:分位数问题:第36页,此课件共54页哦第37页,此课件共54页哦第五节第五节 通过样本,估计总体(一)通过样本,估计总体(一)估计量的特征估计量的特征5.1 无偏性无偏性5.2 有效性有效性5.3 一致性一致性所谓估计量的特性指的是衡量一个统计量所谓估计量的特性指的是衡量一个统计量用以估计总体参数的好坏标准。用以估计总体参数的好坏标准。第38页,此课件共54页哦5.1 无偏性无偏性估计量估计量的观察或试验的结果,估计值可能较真实的参数值偏大或偏小,的观察或试验的结果,估计值可能较真实的参数值偏大或偏小,而一个好的估计量不应总是偏大或偏小,在多次试验中所得的而一个好的估计量不应总是偏大或偏小,在多次试验中所得的估计量的平均值应与真实参数吻合,这就是无偏性所要求的。估计量的平均值应与真实参数吻合,这就是无偏性所要求的。是一个随机变量,对一次具体是一个随机变量,对一次具体定义定义是是 的一个估计量,如果的一个估计量,如果 则称则称是是 的一个无偏估计。的一个无偏估计。如果如果不是无偏的,不是无偏的,就称该估计是有偏的。,就称该估计是有偏的。称称为为的偏差。的偏差。第39页,此课件共54页哦5.2 有效性(最小方差性、最优性)有效性(最小方差性、最优性)总体某个参数总体某个参数 的无偏估计量往往不只的无偏估计量往往不只 一个,而且无偏性仅仅表明一个,而且无偏性仅仅表明 的所有可能的的所有可能的取值按概率平均(均值)等于,取值按概率平均(均值)等于,它的可能取值可能大部分与相差很大。为它的可能取值可能大部分与相差很大。为保证的取值能集中于附近,必须保证的取值能集中于附近,必须要求的方差越小越好。所以,提出有效要求的方差越小越好。所以,提出有效性标准。性标准。第40页,此课件共54页哦有效性(最小方差性、最优性)定义有效性(最小方差性、最优性)定义对于参数对于参数 的无偏估计量,其取值应在真值附近波动,我的无偏估计量,其取值应在真值附近波动,我们希望它与真值之间的偏差越小越好。们希望它与真值之间的偏差越小越好。定义定义 设设均为未知参数均为未知参数 的无偏估计量,若的无偏估计量,若则称则称比比有效。有效。在在 的所有无偏估计量中,若的所有无偏估计量中,若估计量,则称估计量,则称是具有最小方差的无偏是具有最小方差的无偏显然也是最有效的无偏估计量,简称显然也是最有效的无偏估计量,简称有效估计量有效估计量。为为最小方差无偏估计量最小方差无偏估计量。第41页,此课件共54页哦无偏有效估计量的意义无偏有效估计量的意义一个无偏有效估计量的取值在可能范围一个无偏有效估计量的取值在可能范围内最密集于真值附近。换言之,它以最内最密集于真值附近。换言之,它以最大的概率保证估计量的取值在真值附近大的概率保证估计量的取值在真值附近摆动。摆动。第42页,此课件共54页哦第六节第六节 通过样本,估计总体(二)通过样本,估计总体(二)估计方法估计方法点估计点估计普通最小二乘法普通最小二乘法 所谓点估计就是给出被估计参数的一个所谓点估计就是给出被估计参数的一个特定的估计值。特定的估计值。区间估计区间估计第43页,此课件共54页哦区间估计的概念区间估计的概念所谓区间估计就是所谓区间估计就是以一定的可靠性以一定的可靠性给出被给出被估计参数的估计参数的一个可能的取值范围一个可能的取值范围。具体做法是找出两个统计量具体做法是找出两个统计量 与与 ,使,使 称为置信区间,称为置信区间,称为置信系数称为置信系数(置信度),(置信度),称为冒险率(测不准的称为冒险率(测不准的概率),一般取概率),一般取5%或或1%。第44页,此课件共54页哦对区间估计的形象比喻对区间估计的形象比喻我们经常说某甲的成绩我们经常说某甲的成绩“大概大概80分左右分左右”,可以看成一个区间估计问题。(某甲的成绩可以看成一个区间估计问题。(某甲的成绩 为被估计的参数)为被估计的参数)下限下限上限上限大概80分左右置信系数(大概准确的程度)置信系数(大概准确的程度)冒险率(显著性水平)冒险率(显著性水平)()()第45页,此课件共54页哦区间估计的步骤区间估计的步骤找一个含有该参数的统计量;找一个含有该参数的统计量;构造一个概率为的事件;构造一个概率为的事件;通过该事件的概率解出该参数的区间通过该事件的概率解出该参数的区间估计估计第46页,此课件共54页哦关于区间估计的说明关于区间估计的说明在进行区间估计时,应针对不同的情况,在进行区间估计时,应针对不同的情况,采用不同的方法。例如分清分布的形式是采用不同的方法。例如分清分布的形式是已知还是未知;是大样本还是小样本;小已知还是未知;是大样本还是小样本;小样本又得分清是已知方差还是未知方差。样本又得分清是已知方差还是未知方差。充分利用分布信息可以得到较精确的估计。充分利用分布信息可以得到较精确的估计。一般地,越大置信度越低,反之则反。一般地,越大置信度越低,反之则反。第47页,此课件共54页哦第六节第六节 通过样本,估计总体(三)通过样本,估计总体(三)假设检验假设检验第48页,此课件共54页哦1.假设检验的定义假设检验的定义设总体设总体X的分布函数的分布函数F(x,)的形式已知,但是其中的的形式已知,但是其中的参数参数 未知。现在对参数提出假设:未知。现在对参数提出假设:,然后利,然后利用样本值对这个假设作出检验,判断其真伪,这就是用样本值对这个假设作出检验,判断其真伪,这就是参数的假设检验。参数的假设检验。设总体设总体X的分布函数形式未知,现在假设它的分布函数的分布函数形式未知,现在假设它的分布函数为某个指定函数为某个指定函数 ,然后利用样本信息进行检验,然后利用样本信息进行检验,判断其真伪,这就是非参数的假设检验。判断其真伪,这就是非参数的假设检验。一般研究参数的假设检验问题。一般研究参数的假设检验问题。第49页,此课件共54页哦2.2.原假设与备择假设原假设与备择假设原假设:是我们进行统计假设检验欲确定其是否原假设:是我们进行统计假设检验欲确定其是否成立的假设成立的假设体现进行假设检验的目的,而体现进行假设检验的目的,而且往往是希望否定这个假设,一般用且往往是希望否定这个假设,一般用H0表示。表示。备择假设:是原假设的对立面,统计假设检验是备择假设:是原假设的对立面,统计假设检验是二择一的判断,当原假设不成立时,不得不接二择一的判断,当原假设不成立时,不得不接受它,一般用受它,一般用H1 表示。表示。第50页,此课件共54页哦3.显著性水平显著性水平:显著性水平:显著性水平可以理解为事件显著不可能发生的水平;可以理解为事件显著不可能发生的水平;可以理解为原假设的数值与真实值显著差异大小可以理解为原假设的数值与真实值显著差异大小的水平;的水平;是小概率事件;是小概率事件;是指犯是指犯“第一类错误第一类错误”(原假设)的可能性;(原假设)的可能性;一般取值很小,一般取值很小,0.1,0.05,0.01,0.005.第51页,此课件共54页哦4.4.基本思想:基本思想:“小概率原理小概率原理”数理统计学中的数理统计学中的“小概率原理小概率原理”认为:概率很小的事件在一次认为:概率很小的事件在一次抽样试验中几乎是不可能发生的。抽样试验中几乎是不可能发生的。小概率事件的构造:找到在原假设成立的条件下,统计量的分布特征,小概率事件的构造:找到在原假设成立的条件下,统计量的分布特征,然后根据分位数可以构造一个小概率事件(如后面的图示)。然后根据分位数可以构造一个小概率事件(如后面的图示)。如果小概率事件发生了。说明出错了,那么,错在那里呢?如果小概率事件发生了。说明出错了,那么,错在那里呢?因为,在整个假设检验过程中,抽样是正确的、统计量的选择是正确的、因为,在整个假设检验过程中,抽样是正确的、统计量的选择是正确的、根据显著水平确定的临界值是正确的、统计量的计算是正确的,统计量根据显著水平确定的临界值是正确的、统计量的计算是正确的,统计量与临界值的比较也是正确的。因而,只能是原假设发生了错误,所以必与临界值的比较也是正确的。因而,只能是原假设发生了错误,所以必须拒绝须拒绝H0。思想:在假设检验中,首先提出原假设、备择假设,然后构造一思想:在假设检验中,首先提出原假设、备择假设,然后构造一个小概率事件,把求得的统计量与查表得到的临界值比较,看看个小概率事件,把求得的统计量与查表得到的临界值比较,看看小概率事件是不是发生,如果发生,拒绝原假设,否则接受。小概率事件是不是发生,如果发生,拒绝原假设,否则接受。第52页,此课件共54页哦5.两类错误的概念两类错误的概念由于我们是用样本推断总体,因而假设检验的结果不可能由于我们是用样本推断总体,因而假设检验的结果不可能绝对正确,它有可能是错误的,错误有两类:绝对正确,它有可能是错误的,错误有两类:第一类:弃真,原假设符合实际情况,而检验结果把它否第一类:弃真,原假设符合实际情况,而检验结果把它否定了。定了。第二类:纳伪,原假设不符合实际情况,而检验结果却第二类:纳伪,原假设不符合实际情况,而检验结果却把它肯定下来。把它肯定下来。第53页,此课件共54页哦6.假设检验的步骤假设检验的步骤1、提出原假设和备择假设、提出原假设和备择假设 H0:=0 H1:02、根据、根据原假设,找到统计量的分布,构造小原假设,找到统计量的分布,构造小概率事件。概率事件。3、根据抽样所得样本计算检验统计量、根据抽样所得样本计算检验统计量4、确定显著性水平、确定显著性水平 和相应的临界值和相应的临界值5、将计算的统计量与临界值进行比较。、将计算的统计量与临界值进行比较。看看看看小概率事件是不是发生,如果发生,拒绝原假小概率事件是不是发生,如果发生,拒绝原假设,否则接受。设,否则接受。第54页,此课件共54页哦