数理统计基础知识.ppt
《数理统计基础知识.ppt》由会员分享,可在线阅读,更多相关《数理统计基础知识.ppt(92页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第第4章章数理统计的基础知识数理统计的基础知识从第从第4章开始,将研究数理统计的基本内容。章开始,将研究数理统计的基本内容。数理统计与概率论的基本概念与方法有着数理统计与概率论的基本概念与方法有着密切的联系密切的联系。概。概率论是数理统计的率论是数理统计的理论基础和工具理论基础和工具,而数理统计则是概率论的,而数理统计则是概率论的应用应用。数理统计也是研究数理统计也是研究随机现象随机现象的学科。当我们用一个的学科。当我们用一个随机变随机变量量去描述一种随机现象时,通常我们对这个随机变量所服从的去描述一种随机现象时,通常我们对这个随机变量所服从的分布类型分布类型可能一无所知,或者根据该随机现象的
2、某些特征、以可能一无所知,或者根据该随机现象的某些特征、以及人们的经验而知道随机变量分布的类型,但不知道其分布中及人们的经验而知道随机变量分布的类型,但不知道其分布中所含所含参数参数的值。的值。例如例如,某灯泡厂每年生产上万只灯泡,这些灯泡中的每一,某灯泡厂每年生产上万只灯泡,这些灯泡中的每一个都具有这样的个都具有这样的特征特征:“不是合格品,就是次品不是合格品,就是次品”。因此,。因此,随机检查一个灯泡时,它或者是合格品,或者是次品随机检查一个灯泡时,它或者是合格品,或者是次品。这是一。这是一个个随机现象随机现象。当用随机变量当用随机变量X去描述这个随机现象时,去描述这个随机现象时,记记X任
3、取一件产品中的次品数,任取一件产品中的次品数,则则,随机变量,随机变量X服从服从参数为参数为p的的01分布分布b(1,p),其概率分布列为其概率分布列为,其中,其中p是是次品率,是随机变量次品率,是随机变量X的分布中所含的的分布中所含的未知参数未知参数。要想了解当天所生产的灯泡的质量(即次品率),一个可要想了解当天所生产的灯泡的质量(即次品率),一个可行的方法就是,抽取行的方法就是,抽取一定量一定量的灯泡(如的灯泡(如20个)进行质量检查,个)进行质量检查,并根据这一部分灯泡的质量情况对并根据这一部分灯泡的质量情况对整批整批灯泡的质量进行灯泡的质量进行估计估计或或做出某种判断。做出某种判断。数
4、理统计学数理统计学就是以概率论为理论基础,研究如何就是以概率论为理论基础,研究如何获取获取有用有用的观察资料,如何根据所得到的有限资料对整个随机现象所具的观察资料,如何根据所得到的有限资料对整个随机现象所具有的统计规律性进行有的统计规律性进行科学的分析科学的分析,从而做出尽可能准确可靠的,从而做出尽可能准确可靠的推断推断这类问题的数学分支。这类问题的数学分支。数理统计的数理统计的中心任务中心任务是:从是:从局部局部的观测资料的统计特性出的观测资料的统计特性出发,发,利用科学的方法利用科学的方法,来推断事物,来推断事物整体整体的统计特性。的统计特性。数理统计学通常数理统计学通常由由两个主要部分两
5、个主要部分组成。组成。一个是一个是抽样理论和实验设计抽样理论和实验设计,研究如何更,研究如何更合理地获取合理地获取观察观察资料,如何进行抽样、抽多少等问题。资料,如何进行抽样、抽多少等问题。由于数理统计学所涉及研究的对象一般为数很大,而限于由于数理统计学所涉及研究的对象一般为数很大,而限于时间和经济时间和经济上的考虑,人们只可能收集一部分数据。上的考虑,人们只可能收集一部分数据。例如例如,在收集某批电器产品的,在收集某批电器产品的使用寿命使用寿命的实验数据时,往的实验数据时,往往需要对产品进行往需要对产品进行破坏性破坏性的检验,因此只能检验其中的一小部的检验,因此只能检验其中的一小部分产品,观
6、察其使用寿命,并依此分产品,观察其使用寿命,并依此推断推断整批产品的使用寿命。整批产品的使用寿命。这就要求人们研究这就要求人们研究有效地收集有效地收集数数据据的方式,精心设计收集的方式,精心设计收集数据的方法,以数据的方法,以保证保证所收集到的一小部分数据能够所收集到的一小部分数据能够尽可能多地尽可能多地提供与所研究的整个问题有关的提供与所研究的整个问题有关的真实真实的信息。的信息。另一个是另一个是统计推断统计推断,研究如何对所获取的,研究如何对所获取的有限有限的资料进行的资料进行科学地分析科学地分析,用科学的方法,用科学的方法提取提取和和分析分析寓于所收集到的有限数寓于所收集到的有限数据中的
7、信息,并据中的信息,并运用统计推断的方法运用统计推断的方法,在,在更大的范围内更大的范围内对所研对所研究的问题做出尽可能准确、可靠的推断,得出某种究的问题做出尽可能准确、可靠的推断,得出某种合理的合理的结论。结论。统计推断统计推断是数理统计学的基本问题之一,在此主要介绍统是数理统计学的基本问题之一,在此主要介绍统计推断的一些基本知识。计推断的一些基本知识。由于统计推断是由于统计推断是由部分来推断整体由部分来推断整体,是借助在小范围内,是借助在小范围内所提取的信息来推断整体的规律性,这就不可避免地会使这所提取的信息来推断整体的规律性,这就不可避免地会使这种推断带有某种种推断带有某种不确定性不确定
8、性,也就是说,人们不能保证所推断,也就是说,人们不能保证所推断的结果是百分之百正确的。的结果是百分之百正确的。因此,在进行统计推断的同时,还必须寻求一些有意义因此,在进行统计推断的同时,还必须寻求一些有意义的指标来的指标来衡量衡量推断的正确程度,推断的正确程度,评价评价推断过程中所含有的不推断过程中所含有的不确定性。确定性。下面给出数理统计学的一些基本概念。下面给出数理统计学的一些基本概念。4.1总体与样本总体与样本一、总体与总体分布一、总体与总体分布总体总体是具有一定共同属性的是具有一定共同属性的研究对象研究对象的全体。一旦总体确的全体。一旦总体确定了,便称组成总体的每一个个别的成员为定了,
9、便称组成总体的每一个个别的成员为个体个体。总体与个体总体与个体的关系的关系,即集合论中集合与元素之间的关系。,即集合论中集合与元素之间的关系。例如,例如,为研究灯泡厂一天中所生产的灯泡的质量,该厂在为研究灯泡厂一天中所生产的灯泡的质量,该厂在一天中所生产的一天中所生产的所有所有灯泡就是待研究的灯泡就是待研究的总体总体,每一个每一个灯泡就是灯泡就是一个一个个体个体。在统计学的研究过程中,人们关心的在统计学的研究过程中,人们关心的并不是并不是所研究对象所研究对象(总体)(总体)的的所有特征所有特征,而,而仅仅是关心仅仅是关心反映所研究对象某一反映所研究对象某一特征特征的某一项或某几项的某一项或某几
10、项数量指标数量指标。例如例如,反映学生反映学生“概率统计概率统计”课程的课程的学习情况学习情况的数量指的数量指标,就是学生这门课程的考核成绩(并不需要考虑学生的身高、标,就是学生这门课程的考核成绩(并不需要考虑学生的身高、体重等指标)体重等指标)。对于对于所选定的所选定的数量指标数量指标X(可以是向量)而言,由于每个可以是向量)而言,由于每个个体的取值是不同的,且每个个体的取值在测试结束之前是不个体的取值是不同的,且每个个体的取值在测试结束之前是不能确定的,因此能确定的,因此数量指标数量指标X是一个随机变量是一个随机变量(或随机向量)。(或随机向量)。为了研究方便,通常把总体(为了研究方便,通
11、常把总体(具有一定共同属性的具有一定共同属性的研究对研究对象象的全体)的全体)与数量指标与数量指标X等同等同起来,并把数量指标起来,并把数量指标X的分布的分布称为称为总体的分布总体的分布。即。即 定义定义4.1(P.124)统计学中,称随机变量(或随机向量)统计学中,称随机变量(或随机向量)X为为总体总体,并把随机变量(或随机向量),并把随机变量(或随机向量)X的分布称为的分布称为总体分总体分布布。注注(P.124):):总体总体X的分布一般是的分布一般是未知的未知的。有时虽然。有时虽然已知总体分布的类型(如正态分布、伯努利分布等),但这些已知总体分布的类型(如正态分布、伯努利分布等),但这些
12、分布中所含的参数(如分布中所含的参数(如、2,p等)也是未知的。统计学的等)也是未知的。统计学的主要任务主要任务,就是对总体的未知的分布或参数进行推断。,就是对总体的未知的分布或参数进行推断。对于所研究对象的对于所研究对象的定性指标定性指标,也可以,也可以转化转化为为定量指标定量指标(即数量指标)来研究,进而可以设定一个随机变量来表示所(即数量指标)来研究,进而可以设定一个随机变量来表示所研究的总体。研究的总体。例如例如,“考察学生的学习成绩是优秀、合格还是不合格考察学生的学习成绩是优秀、合格还是不合格”时,仍然可以用一个随机变量时,仍然可以用一个随机变量X来描述:来描述:令令 。二、样本与样
13、本分布二、样本与样本分布由于总体的分布一般是未知或部分未知的,为了获取对总由于总体的分布一般是未知或部分未知的,为了获取对总体分布的知识,就需要对总体进行观察,收集有关总体的信息体分布的知识,就需要对总体进行观察,收集有关总体的信息和资料。和资料。在实际研究过程中,由于受到人力、时间和财力方面的限在实际研究过程中,由于受到人力、时间和财力方面的限制,人们往往制,人们往往不能收集到不能收集到有关总体的有关总体的全部信息全部信息;而且在有些情;而且在有些情况下,根本就况下,根本就不允许不允许人们去获取有关总体的全部数据(如在测人们去获取有关总体的全部数据(如在测试灯泡的使用寿命时,测试本身具有破坏
14、性)。试灯泡的使用寿命时,测试本身具有破坏性)。因此,通常总是从总体中因此,通常总是从总体中抽取一部分个体抽取一部分个体来进行观察,这来进行观察,这种做法称之为种做法称之为“抽样抽样”。假设从总体假设从总体X中抽取了中抽取了n个个体个个体X1,X2,Xn来对来对总体总体X进行抽样观察,由于在观察测试结束进行抽样观察,由于在观察测试结束之前之前,这,这n个个个个体的观测值是不确定的,而且体的观测值是不确定的,而且反复抽样反复抽样所得到所得到n个个体的观测个个体的观测结果也是不相同的。结果也是不相同的。因此,所抽取的因此,所抽取的n个个个体个体X1,X2,Xn实际上就是实际上就是一个随机向量(一个
15、随机向量(X1,X2,Xn),),称之为一个称之为一个“样本样本”,每一个个体,每一个个体Xi称之为一个称之为一个样品样品;对样本(对样本(X1,X2,Xn)的一次的一次观测值观测值(x1,x2,xn),就是样本的一个,就是样本的一个“实现值实现值(样本值)(样本值)”。统计学的统计学的主要任务主要任务,就是,就是提供科学的方法提供科学的方法,借助,借助样本样本值值(x1,x2,xn),),对未知的总体进行对未知的总体进行合理的推断合理的推断。为了更准确地对总体分布进行分析和推断,就要求所抽为了更准确地对总体分布进行分析和推断,就要求所抽取的样本能够很好地反映总体的特性。下面的定义给出了一取的
16、样本能够很好地反映总体的特性。下面的定义给出了一个个好的样本好的样本应该具备的条件。应该具备的条件。定义定义4.24.2(P.125P.125)称(称(X1,X2,Xn)为总体为总体X的的简单随机样本简单随机样本,如果,如果X1,X2,Xn是相互独立、同分是相互独立、同分布的随机变量,布的随机变量,而且而且它们都与总体它们都与总体X同分布。样本中所含分同分布。样本中所含分量的个数量的个数n,称为该样本的称为该样本的容量容量。1)1)人们要求样本中的每一个分量人们要求样本中的每一个分量 Xi(i=1,2,n)都与总体都与总体X同分布同分布,表明抽样观察的每一个个体都是从总体,表明抽样观察的每一个
17、个体都是从总体中抽取的,因而它们对总体具有很好的中抽取的,因而它们对总体具有很好的代表性代表性;2)人们要求样本中的各分量人们要求样本中的各分量X1,X2,Xn 相互独相互独立立,则表明所得到的每一个观察结果,则表明所得到的每一个观察结果既不既不影响其它观察结果,影响其它观察结果,也不受也不受其它观察结果的影响。其它观察结果的影响。定义定义(P.125)获取简单随机样本的方法,称为获取简单随机样本的方法,称为简单随机简单随机抽样抽样。并称样本(。并称样本(X1,X2,Xn)的一组具体的观察值的一组具体的观察值(x1,x2,xn)为为样本值样本值,全体全体样本值组成的集合为样本值组成的集合为样样
18、本空间本空间。容量为容量为n的样本空间是的样本空间是n维向量空间维向量空间Rn的一个子集。的一个子集。这里这里假定假定所考虑的样本都是简单随机样本,所考虑的样本都是简单随机样本,简称为简称为样本样本。约定约定:以:以大写大写的英文字母的英文字母Xi表示表示随机变量随机变量,而以相应的,而以相应的小写小写英文字母英文字母xi表示随机变量表示随机变量Xi的的观察值观察值。设总体设总体X的分布函数为的分布函数为F(x),则由定义则由定义4.2(P.125知,知,样本(样本(X1,X2,Xn)的分布函数为的分布函数为,并称之为,并称之为样本分布样本分布。特别地特别地,如果总体,如果总体X为为连续型连续
19、型随机变量,其密度函数为随机变量,其密度函数为f(x),则样本(则样本(X1,X2,Xn)的密度函数为的密度函数为,并分别称,并分别称f(x)和和f(x1,x2,xn)为为总体密度总体密度和和样本密度样本密度。如果总体如果总体X为为离散型离散型随机变量,随机变量,.如果总体如果总体X为为离散型离散型随机变量,其概率分布为随机变量,其概率分布为p(x)=P(X=x),x取遍取遍X所有可能的取值,则样本所有可能的取值,则样本(X1,X2,Xn)的概率分布为的概率分布为,并分别称并分别称p(x)和和p(x1,x2,xn)为为总体概率分布总体概率分布和和样本概样本概率分布率分布。例例4.1(P.126
20、)称总体称总体X为为正态总体正态总体,如果,如果X服从正态服从正态分布。正态总体是统计应用中分布。正态总体是统计应用中最常见最常见的总体。的总体。现假设总体现假设总体XN(,2),总体密度总体密度 则其样本(则其样本(X1,X2,Xn)的密度为的密度为 例例4.2(P.126)称总体称总体X为为伯努利总体伯努利总体,如果它服从以,如果它服从以p(0p1)为参数的伯努利分布,即为参数的伯努利分布,即Xb(1,p)。从而有从而有P(X=1)=p,P(X=0)=1 p,即即p(i)=P(X=i)=pi(1 p)1 i,i=0,1。于是,其于是,其样本(样本(X1,X2,Xn)的概率分布为的概率分布为
21、其中其中 xi(i=1,2,n)取值取值 1 1 或或 0 0,它恰,它恰好等于样本中取值为好等于样本中取值为 1 1 的分量之总和。的分量之总和。例例4.3设总体设总体X服从参数为服从参数为p的几何分布,(的几何分布,(X1,X2,Xn)为其样本,求样本的概率分布。为其样本,求样本的概率分布。解解p(k)=P(X=k)=p(1 p)k 1,k=1,2,;(X1,X2,Xn)是来自总体是来自总体X的样本,的样本,样本的概率分布为样本的概率分布为其中其中xi(i=1,2,n)取值取值正整数正整数。例例4.4设总体设总体X服从参数为服从参数为 的指数分布,(的指数分布,(X1,X2,,Xn)为其样
22、本,求样本密度为其样本,求样本密度 。解解 总体总体 Xe(),;(X1,X2,Xn)是来自总体是来自总体X的样本,的样本,样本密度为样本密度为对样本概率分布和样本密度的理解对样本概率分布和样本密度的理解:在例在例4.3和例和例4.4中,算得中,算得样本概率分布和样本密度样本概率分布和样本密度分别为分别为 ,xi取值正整数,取值正整数,i=1,2,n;和和 ,x xi i 0 0,i=1i=1,2 2,n n 。在概率论的研究中,人们通常假定随机变量(即总体)的在概率论的研究中,人们通常假定随机变量(即总体)的分布及其参数(如:分布及其参数(如:p、等)都是已知的,因而把等)都是已知的,因而把
23、p(x1,x2,xn)和和f(x1,x2,xn)理解为关于理解为关于未知量未知量x1,x2,xn的的n元函数元函数。例 设总体X服从参数为 的泊松分布,则样本的概率分布为 在统计学的实际应用中,在统计学的实际应用中,根据知识与经验根据知识与经验,人们往往可以,人们往往可以确定确定总体分布所属的总体分布所属的类型类型,例如例如,认为学生的考试成绩服认为学生的考试成绩服从正态分布;从正态分布;描述一件产品是否为废品的随机变量服从伯描述一件产品是否为废品的随机变量服从伯努利分布(努利分布(01分布);分布);记录电话呼叫次数的随机变量服记录电话呼叫次数的随机变量服从泊松分布;从泊松分布;电子元件的寿
24、命服从指数分布等等。电子元件的寿命服从指数分布等等。因此,在总体分布中,往往只是其中的因此,在总体分布中,往往只是其中的参数参数是未知的。是未知的。从这个意义上来讲,可以从从这个意义上来讲,可以从另一个角度另一个角度来理解例来理解例4.3和例和例4.4中的中的样本概率分布和样本密度样本概率分布和样本密度:把式中的把式中的(x1,x2,xn)看作是一个看作是一个样本值样本值,通过试验,通过试验观察就可以确定下来,因而它们是一组已知量(或观察就可以确定下来,因而它们是一组已知量(或可知量可知量),),而各总体的参数(如而各总体的参数(如p、等)是未知量,即分别把等)是未知量,即分别把p(x1,x2
25、,xn)和和f(x1,x2,xn)理解为理解为关于未知参数关于未知参数p和和 的一元函数的一元函数:,0p0 。在统计学中,就是要由样本值在统计学中,就是要由样本值(x1,x2,xn)出发,来出发,来推断推断总体中未知的参数。因此,统计学中又把例总体中未知的参数。因此,统计学中又把例4.3和例和例4.4中中的的样本概率分布和样本密度函数样本概率分布和样本密度函数称为称为未知参数的似然函数未知参数的似然函数。关。关于似然函数的概念,将在于似然函数的概念,将在5.2中做详细的介绍。中做详细的介绍。三、统计推断问题简述三、统计推断问题简述(P.122)统计学要解决的统计学要解决的主要问题主要问题,就
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数理统计 基础知识
限制150内