《概率论与数理统计教学课件》6第六章.ppt
概率统计概率统计 从历史的典籍中,人们不难发现许多关于从历史的典籍中,人们不难发现许多关于钱粮、户口、地震、水灾等等的记载,这说明钱粮、户口、地震、水灾等等的记载,这说明人们很早就开始了统计的工作人们很早就开始了统计的工作。但是当时的统但是当时的统计,只是对有关事实的简单记录和整理,而没计,只是对有关事实的简单记录和整理,而没有在一定理论的指导下,作出超越这些数据范有在一定理论的指导下,作出超越这些数据范围之外的推断。围之外的推断。数理统计数理统计的客观背景的客观背景概率统计 到了十九世纪末二十世纪初,随着近代数学到了十九世纪末二十世纪初,随着近代数学和概率论的发展,才真正诞生了数理统计学这和概率论的发展,才真正诞生了数理统计学这门学科。门学科。同时随着计算机的诞生与发展,为数据处理同时随着计算机的诞生与发展,为数据处理提供了强有力的技术支持,这就导致了数理统提供了强有力的技术支持,这就导致了数理统计与计算机结合的必然的发展趋势。计与计算机结合的必然的发展趋势。目前国内外著名的统计软件包:目前国内外著名的统计软件包:R,SAS,SPSS,STAT 等,都提供了快速、简便地进行数据处理等,都提供了快速、简便地进行数据处理和分析的方法与工具。和分析的方法与工具。概率统计 数理统计学是一门应用性很强的学科,数理统计学是一门应用性很强的学科,它它是研究怎样以是研究怎样以有效的方式有效的方式收集、收集、整理和分析所整理和分析所获得的获得的有限有限的资料,以便对所考察的问题尽可的资料,以便对所考察的问题尽可能地作出精确而可靠的推断和预测,直至为采能地作出精确而可靠的推断和预测,直至为采取一定的决策和行动提供依据和建议。取一定的决策和行动提供依据和建议。数理统计数理统计研究的对象研究的对象-带有带有随机性随机性的的数据数据 数理统计数理统计的任务的任务概率统计 数理统计数理统计的特征的特征-数理统计方法具有数理统计方法具有“部分推断整体部分推断整体”的特征的特征 在数理统计中,不是对所研究的对象全体在数理统计中,不是对所研究的对象全体(称为称为 总体总体)进行观察,而是抽取其中的部分进行观察,而是抽取其中的部分(称为称为样样 本本)进行观察获得数据(进行观察获得数据(抽样抽样),并通过这些数),并通过这些数 据对总体进行推断。据对总体进行推断。由于在数理统计中是从一小部分样本观察值去推由于在数理统计中是从一小部分样本观察值去推断该全体对象(总体)情况,即由部分推断全体断该全体对象(总体)情况,即由部分推断全体.所以这里使用的推理方法是所以这里使用的推理方法是“归纳推理归纳推理”。概率统计 在在概率论中概率论中所研究和讨论的随机变量,它的分布所研究和讨论的随机变量,它的分布都是都是已知已知的,在这前提下去进一步的研究它的性质、的,在这前提下去进一步的研究它的性质、特点和规律性。而在特点和规律性。而在数理统计数理统计中所研究和讨论的随机中所研究和讨论的随机变量,它的分布是变量,它的分布是未知未知的或不完全知道的。于是就必的或不完全知道的。于是就必须通过对所研究和讨论的随机变量进行重复独立的观须通过对所研究和讨论的随机变量进行重复独立的观察和试验,得到许多观察值察和试验,得到许多观察值(数据数据),对这些数据进行,对这些数据进行分析后才能对其分布作出种种判断。得到这些数据最分析后才能对其分布作出种种判断。得到这些数据最常用的方法是常用的方法是-随机抽样法随机抽样法。随机抽样法随机抽样法概率统计要较好地反映所研究和讨论的随机变量整体的特要较好地反映所研究和讨论的随机变量整体的特性,就必须性,就必须研究研究:(1)如何抽样,抽多少,怎么抽如何抽样,抽多少,怎么抽(2)如何对抽样的结果进行合理分析,作出科学如何对抽样的结果进行合理分析,作出科学 的判断的判断.统计推断问题统计推断问题抽样方法问题抽样方法问题今后所讨论的统计问题主要今后所讨论的统计问题主要属于属于下面这种下面这种类型类型:从所研究的随机变量的某个集合中抽取从所研究的随机变量的某个集合中抽取一部分一部分元素元素,对这部分元素的某些数量指标进行试验与观察,根对这部分元素的某些数量指标进行试验与观察,根据试验与观察获得的数据来推断这集合中据试验与观察获得的数据来推断这集合中全体全体元素元素的数量指标的分布情况或数字特征。的数量指标的分布情况或数字特征。概率统计数理统计数理统计抽样分布抽样分布 统计推断统计推断常用的常用的统计量统计量四个重四个重要分布要分布参数估计参数估计假设检验假设检验正态总体的正态总体的样本均值与样本均值与方差的分布方差的分布(重要统计量重要统计量的分布的分布)矩矩估估计计法法点估计点估计 区间估计区间估计极大极大似然似然估计估计法法均值均值的区的区间估间估计计方差方差的区的区间估间估计计均值的均值的检验检验方差的方差的检验检验单个单个总体总体两个两个总体总体正态总体正态总体概率统计 一一.总体和个体总体和个体定义定义将研究对象的某项数量指标的值的全体称将研究对象的某项数量指标的值的全体称为为总体总体(母体母体);将总体中的每个元素称为;将总体中的每个元素称为个体个体例例1.当研究某地区中职工收入平均水平时,这地区当研究某地区中职工收入平均水平时,这地区所有职工的月收入组成了总体;而每个职工月所有职工的月收入组成了总体;而每个职工月收入就是个体。收入就是个体。(1)(2)研究某批灯泡的质量,则该批灯泡寿命的全体研究某批灯泡的质量,则该批灯泡寿命的全体就组成了总体;而每个灯泡的寿命就是个体。就组成了总体;而每个灯泡的寿命就是个体。总体总体 第第6.1节节 随机样本随机样本 概率统计(3)研究某国产轿车每公里平均耗油量时,则该国产研究某国产轿车每公里平均耗油量时,则该国产轿车每公里耗油量的全体就是总体;而该国产轿轿车每公里耗油量的全体就是总体;而该国产轿车每公里耗油量就是个体。车每公里耗油量就是个体。注注:因此,因此,X 所有可能取的值的分布为总体所有可能取的值的分布为总体 X 的分的分布,记为布,记为F(x),称称其为总体其为总体 X 的分布函数。的分布函数。研究对象的某项数量指标研究对象的某项数量指标 X 是一个是一个随机变量随机变量;这是由于这是由于每个个体的出现是随机的,所以相应的每个个体的出现是随机的,所以相应的数量指标的出现也带有随机性。从而可以把这种数量指标的出现也带有随机性。从而可以把这种数量指标看作一个随机变量,因此随机变量的分数量指标看作一个随机变量,因此随机变量的分布就是该数量指标在总体中的分布。布就是该数量指标在总体中的分布。总体总体 可以用一个随机变量及可以用一个随机变量及 其分布来描述其分布来描述概率统计研究某批灯泡的寿命时,关心的数量指标就研究某批灯泡的寿命时,关心的数量指标就是寿命,那么,此总体就可以用是寿命,那么,此总体就可以用一维随机变量一维随机变量 X 表示,或用其分布函数表示,或用其分布函数 F(x)表示。表示。某批某批灯泡的寿命灯泡的寿命总体总体寿命寿命 X 可用一概可用一概率分布来刻划率分布来刻划鉴于此,鉴于此,常用常用随机变量的记号随机变量的记号或用其分布函数表示总体,如或用其分布函数表示总体,如总体总体 X 或或 总体总体 F(x)。F(x)例例2.(1)概率统计 在研究某地区中学生的营养状况时,在研究某地区中学生的营养状况时,若关心的数量指标是身高和若关心的数量指标是身高和体重,现用体重,现用 X 和和 Y 分别表示身高分别表示身高和体重,则此总体可用和体重,则此总体可用二维随机二维随机变量变量(X,Y)或其联合分布函数或其联合分布函数 F(x,y)来表示。来表示。总体依其包含的个体总数分为总体依其包含的个体总数分为有限总体有限总体(个体个体的个的个 数是有限数是有限)和和 无限总体无限总体(个体的个数是无个体的个数是无限的限的)。但当有限总体它所含的个体的个。但当有限总体它所含的个体的个 数很数很大时也可视其为无限总体。大时也可视其为无限总体。(2)注注:在数理化统计中,总体这个概念的要旨是:在数理化统计中,总体这个概念的要旨是:总体就是一个概率分布总体就是一个概率分布.概率统计 二二.抽样和样本抽样和样本为推断总体分布及各种特征,按一定规则为推断总体分布及各种特征,按一定规则从总体中抽取若干个体进行观察试验,以从总体中抽取若干个体进行观察试验,以获得有关总体的信息,这一抽取过程称为获得有关总体的信息,这一抽取过程称为“抽样抽样”,所抽取的部分个体称为,所抽取的部分个体称为 样本样本,样本中所包含的个体数目称为样本中所包含的个体数目称为 样本容量样本容量。从某批国产轿车中抽从某批国产轿车中抽5 辆进行耗油量试验。辆进行耗油量试验。这一过程即为这一过程即为“抽样抽样”这这 5 辆轿车为一个辆轿车为一个样本样本,其样本容量为,其样本容量为 5抽样抽样例如例如:概率统计定义定义1.从总体中抽取从总体中抽取一部分个体一部分个体进行观察,被进行观察,被抽出的部分个体称为总体的一个抽出的部分个体称为总体的一个样本样本。为了了解总体的分布,我们从总体中随机地为了了解总体的分布,我们从总体中随机地抽取抽取n个个体,记其指标值为个个体,记其指标值为 则则 称为总体的一个样本。由于每称为总体的一个样本。由于每一次观测所取得的观测值一次观测所取得的观测值 具有随具有随机性。因此,从另一个角度来讲,样本是一机性。因此,从另一个角度来讲,样本是一个随机变量个随机变量 。注注:即样本具有即样本具有双重性双重性:(1)是一个是一个n维随机变量;维随机变量;(2)是是n个具体的观察数值。个具体的观察数值。概率统计对于有限总体和无限总体都可以通过对于有限总体和无限总体都可以通过放回抽放回抽样样的方式得到简单随机样本。的方式得到简单随机样本。当个体的总数当个体的总数 N比要得到的样本容量比要得到的样本容量n大得大得多时,可将不放回抽样近似地当作放回抽样多时,可将不放回抽样近似地当作放回抽样来处理。来处理。通常,通常,是相互独立的并与总体是相互独立的并与总体 X具有相同的分布。一般称其为来自总体具有相同的分布。一般称其为来自总体 X 的的一个一个简单随机样本。简单随机样本。概率统计 三三.简单随机样本简单随机样本定义定义2设设 X 是具有分布函数是具有分布函数 F 的随机变量,若的随机变量,若是具有是具有同一分布函数同一分布函数 F 的、的、相互独立相互独立的随机变量,则的随机变量,则 称称为总体为总体 X(或从总体或从总体 F 或从分布函数或从分布函数 F)得到的得到的容量容量为为 n 的的简单随机样本简单随机样本简称简称样本样本它们的观察值它们的观察值 称为称为 X 的的 n 个独立的观察值。个独立的观察值。为为样本值样本值,又又样本是样本是随机变量,随机变量,但它具有二重性。但它具有二重性。注注:概率统计若若 为总体为总体 X 的一个样本,的一个样本,X 的分布的分布函数为函数为 F(x),概率密度为,概率密度为 f(x),则,则:联合概率密度联合概率密度为:为:可视样本为一个可视样本为一个随机向量随机向量,记为,记为此时,相应的样本值可记为:此时,相应的样本值可记为:联合分布函数联合分布函数为:为:从而,容量为从而,容量为 n 的样本可以看作的样本可以看作 n 维随机变量维随机变量。概率统计 在上节所介绍内容中已经知道:样本是进行统在上节所介绍内容中已经知道:样本是进行统计推断的依据。但在实际应用时,往往不是直接使计推断的依据。但在实际应用时,往往不是直接使用样本本身,而是针对不同的问题构造样本的适当用样本本身,而是针对不同的问题构造样本的适当函数,利用这些样本的函数进行统计推断。函数,利用这些样本的函数进行统计推断。第二节第二节 抽样分布抽样分布 问题的提出问题的提出 亦亦即即样样本本去去推推断断总总体体情情况况,需需要要对对样样本本进进行行一一定定的的“加加工工”,这这就就要要构构造造一一些些样样本本的的适适当当函函数数,它把样本中所含的(某一方面)的信息集中起来。它把样本中所含的(某一方面)的信息集中起来。这种这种不含任何未知参数的样本的函数不含任何未知参数的样本的函数称为称为统计统计量量。它是完全由样本决定的量。它是完全由样本决定的量。概率统计1.定义定义设设 是来自总体是来自总体 X 的一个样的一个样本本,是是 的函数。的函数。若若 g 是连续函数且是连续函数且 g 中不含任何未知参数中不含任何未知参数,则称则称 是一个统计量。是一个统计量。一一.统计量的定义统计量的定义 注注:统计量是统计量是完全由样本确定的量完全由样本确定的量。统计量是样本的函数,所以也具有双重性。统计量是样本的函数,所以也具有双重性。(1)当样本是随机变量时,统计量也是随机当样本是随机变量时,统计量也是随机变量;变量;(2)当样本为观测值时,统计量是一当样本为观测值时,统计量是一个具体数值。个具体数值。统计量的构造总是有目的的统计量的构造总是有目的的。概率统计 2.几个常用的统计量几个常用的统计量样本均值:样本均值:样本方差:样本方差:它反映了总体它反映了总体均值的信息均值的信息它反映它反映了总体了总体方差的方差的信息信息(1).(2).(3).样本标准差:样本标准差:(4).样本样本 k 阶原点矩:阶原点矩:(5).样本样本 k 阶中心矩:阶中心矩:k=1,2,它反映了它反映了总体总体k 阶阶矩的信息矩的信息它反映了它反映了总体总体k 阶阶中心矩的中心矩的信息信息概率统计注注:(1)(5)均是随机变量,均是随机变量,实际上它们是样本函数的实际上它们是样本函数的数字特征;数字特征;它们的观察值是具体的实数值,仍它们的观察值是具体的实数值,仍称为样本均值、样本方差、样本称为样本均值、样本方差、样本 k 阶原点距阶原点距与样本与样本 k 阶中心距。阶中心距。若总体若总体 X 的的 k 阶原点距阶原点距 存在,存在,则当则当 时有:时有:这个这个结论表明结论表明:样本的:样本的 k 阶距依概率收敛到阶距依概率收敛到总体的总体的 k 阶距。这也是参数估计中的矩估计阶距。这也是参数估计中的矩估计法的理论根据。法的理论根据。概率统计设总体设总体X的均值为的均值为,方差为,方差为2,X1,X2,Xn为取自总体为取自总体X的样本,则的样本,则 3.抽样分布抽样分布统计量作为随机变量,因而就有一定的分布,这统计量作为随机变量,因而就有一定的分布,这个分布就称为统计量的个分布就称为统计量的“抽样分布抽样分布”。故有:。故有:统计量的分布称为统计量的分布称为抽样分布抽样分布概率统计 二二.几个重要的分布几个重要的分布设设 是是来来自自正正态态分分布布 N(0,1)的的样本,则称统计量:样本,则称统计量:为为服服从从自自由由度度为为 n 的的 分布分布.定义定义.分布分布1.记为:记为:注注:自由度自由度 n 是指是指 中所包含中所包含独立变量独立变量的个数的个数概率统计分布的分布的密度函数密度函数为:为:来定义。来定义。其中:伽玛函数其中:伽玛函数 通过积分:通过积分:其图形如下:其图形如下:概率统计若若 ,则,则n=2n=1n=4n=6n=11xf(x)0(参见教材(参见教材 P163 图图 61)概率统计相互独立,则相互独立,则分布的分布的上上 分位点分位点:称称满足:满足:对于给定的对于给定的为为分布的上分布的上 分位点。分位点。分布的分布的可加性:可加性:若若且且其图形如下:其图形如下:的点的点概率统计面积面积=xf(x)0对于不同的对于不同的 与与 ,有表可查(见教材有表可查(见教材P386 的附表的附表5)一般一般:当当时可直接查表时可直接查表当当时可用近似公式:时可用近似公式:概率统计例如:例如:费歇费歇R.AFisher证明证明是正态分布的上是正态分布的上分位点分位点或:或:概率统计记为记为T t(n)为为服从自由度为服从自由度为 n 的的 t 分布分布.设设 XN(0,1),Y ,且且 X 与与 Y 相相互互独立独立,则称随机变量:,则称随机变量:t 分布分布2.定义定义.注注:t 分布是英国统计学家哥塞特(分布是英国统计学家哥塞特(G0sset)首先)首先发现的,并以学生发现的,并以学生(student)的笔名在英国的的笔名在英国的Bi0metrike杂志上发表的一篇文章中提出杂志上发表的一篇文章中提出了他的研究结果,故了他的研究结果,故 t 分布也称为分布也称为学生分布学生分布。概率统计 t 分布的概率密度函数为:分布的概率密度函数为:它非常象正态它非常象正态分布图形分布图形,关于关于 y 轴对称轴对称xt(x)0n=2n=25n=(参见教材(参见教材 P140 图图 68)其图形如下:其图形如下:概率统计T 分布的上分布的上 分位点分位点:对于给定的对于给定的 ,称满足条件称满足条件:当当 充分大时,充分大时,即即当当 充分大时,充分大时,t 分布可以近似看作是标准正分布可以近似看作是标准正态分布;但态分布;但当当 较小时,较小时,t 分布与正态分布的差分布与正态分布的差异是不能忽略的。异是不能忽略的。若若 T t(n),则有:,则有:当当 时时当当时时的点的点 为为 t 分布的上分布的上 分位点分位点。概率统计0面积面积=对于不同的对于不同的 与与 ,有表可查(见教材有表可查(见教材P392 的附表的附表7)一般一般:当当时可直接查表时可直接查表当当时可用近似公式:时可用近似公式:(用正态分布近似用正态分布近似)概率统计例如例如:由上由上 分位点定义及分位点定义及 h(t)对称性得对称性得:概率统计 F分布分布 设设 X 与与Y 相互独立,相互独立,则称统计量:则称统计量:为为服从自由度服从自由度 n1 及及 n2 的的 F 分布分布,记作:,记作:F F(n1,n2)若若 F F(n1,n2),则,则 F 的概率密度为:的概率密度为:注注:3.定义定义.概率统计x0其图形如下:其图形如下:(参见教材(参见教材 P141 图图 610)若若 则则概率统计若若 则:则:当当 时,时,当当 时,时,称满足条件称满足条件:F 分布的上分布的上 分位点分位点:对于给定的对于给定的 ,的点的点 为为 F 分布的上分布的上 分位点分位点。),(21nnFa a概率统计x0面积面积=对于不同的对于不同的 与与 ,有表可查(见教有表可查(见教材材P387的附表的附表6)例如例如:概率统计 正态分布正态分布分布的上分布的上 分位的分位的性质性质:4.(请复习其图形及性质等)(请复习其图形及性质等)概率统计三三.正态分布的样本均值与样本方差的分布正态分布的样本均值与样本方差的分布 定理定理 1 (样本均值和样本方差的分布样本均值和样本方差的分布)设设 X1,X2,Xn 是取自正态总体是取自正态总体 的样本,的样本,是其样本均值和样本方差是其样本均值和样本方差则则和和相互独立相互独立只证(只证(1),),(2)与()与(3)的证明见教材的证明见教材P145P147概率统计证明证明:(1)因为若因为若则有:则有:由已知由已知又又则:则:即即概率统计的样本,的样本,的样本,的样本,设设设设是总体是总体是总体是总体分别为样本均值和样本方差,则有分别为样本均值和样本方差,则有分别为样本均值和样本方差,则有分别为样本均值和样本方差,则有相互独立相互独立相互独立相互独立(证略证略)概率统计n 取不同值时样本均值取不同值时样本均值 的分布的分布概率统计n 取不同值时取不同值时 的分布的分布概率统计推论推论.注注:推论的推论的实质实质是把服从一般正态分布的随机变是把服从一般正态分布的随机变量量 化为标准正态分布的一个方法。它类似化为标准正态分布的一个方法。它类似于把一个随机变量于把一个随机变量 经经线性变换线性变换化为服从标准正态分布。化为服从标准正态分布。设设 是总体是总体 的一个样本,的一个样本,则则概率统计对于对于一般一般的有:的有:由推论由推论概率统计定理定理 2.设设 X1,X2,Xn 是取自正态总体是取自正态总体的样本的样本,分别为样本均值和样本方差分别为样本均值和样本方差,则有:则有:证明证明:由定理由定理1 的结的结论与论与 推论推论并且两者相互独立并且两者相互独立由由 分布的定义得:分布的定义得:概率统计定理定理 3.且且 X 与与是取自是取自 Y 的样本。的样本。Y 相互独立,相互独立,是取自是取自 X 的的样本,样本,分别是这两个样本的样本均值,分别是这两个样本的样本均值,和和分别是这两个样本的样本方差。分别是这两个样本的样本方差。和和概率统计则有:则有:(1)(2)当当 时,时,其中:其中:概率统计证明证明:(1)由假设由假设相互独立,则由相互独立,则由F分布的定义知分布的定义知即即概率统计而而相当于相当于y=ax+b中中 a=-1,b=0从而从而由定理由定理1推论推论(2)概率统计由由 分布的分布的可加性可加性则由则由 t 分布定义得:分布定义得:概率统计概率统计例例1.在总体在总体 中随机抽取一容量为中随机抽取一容量为 36 的样本的样本,求:样本均值求:样本均值 落在落在 50.8 到到 53.8 之间的概率之间的概率解解:样本的容量为样本的容量为 36样本均值样本均值 从而:从而:概率统计例例2.证明证明:由由 F 分布定义得分布定义得:已知已知求证:求证:所以由所以由 分布的定义,即:分布的定义,即: