数理统计Ⅱ第一章.ppt
《数理统计Ⅱ第一章.ppt》由会员分享,可在线阅读,更多相关《数理统计Ⅱ第一章.ppt(118页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、理学院:郑石秋理学院:郑石秋 20122012年年9 9月月应用数理统计学应用数理统计学1.1、导言导言1.4、统计量的及其分布(抽样分布统计量的及其分布(抽样分布)1)标准正态分布标准正态分布2)(卡方卡方)分布分布3)t t分布分布4)F分布分布1.2、总体和样本总体和样本1.3、直方图和经验分布函数直方图和经验分布函数第一章第一章数理统计的基本概念数理统计的基本概念什么是数理统计?什么是数理统计?它的主要研究对象和任务是什么?它的主要研究对象和任务是什么?数理统计的特点是什么?数理统计的特点是什么?数理统计学是一门应用性很强的学科数理统计学是一门应用性很强的学科.它的研它的研究对象和主要
2、任务是怎样以究对象和主要任务是怎样以有效的方式有效的方式收集、收集、整整理和分析理和分析带有随机性的数据带有随机性的数据,以便对所考察的问,以便对所考察的问题作出推断和预测,直至为采取一定的决策和行题作出推断和预测,直至为采取一定的决策和行动提供依据和建议动提供依据和建议.数理统计的特点数理统计的特点是应用面广,分支较多是应用面广,分支较多.数理数理统计首先就是因为生物学、遗传学和农业科学研究统计首先就是因为生物学、遗传学和农业科学研究的需要而兴起的,在近一个世纪的发展中,数理统的需要而兴起的,在近一个世纪的发展中,数理统计几乎不同程度地渗透到所有人类活动的领域。计几乎不同程度地渗透到所有人类
3、活动的领域。在农业方面,方差分析已经是农业试验的常在农业方面,方差分析已经是农业试验的常规手段;在工业生产中规手段;在工业生产中,正交试验设计方法在新产正交试验设计方法在新产品、新工艺、新材料的开发研究过程中得到广泛应品、新工艺、新材料的开发研究过程中得到广泛应用;在医学中,显著性检验是说明一些药物和治疗用;在医学中,显著性检验是说明一些药物和治疗手段疗效的典型方法;在国防尖端武器的研制中,手段疗效的典型方法;在国防尖端武器的研制中,精度分析主要也是用数理统计的方法;精度分析主要也是用数理统计的方法;到了十九世纪末二十世纪初,随着近代数到了十九世纪末二十世纪初,随着近代数学和概率论的发展,才真
4、正诞生了数理统计学学和概率论的发展,才真正诞生了数理统计学这门学科这门学科.从历史的典籍中,人们不难发现许多关于从历史的典籍中,人们不难发现许多关于钱粮、户口、地震、水灾等等的记载,说明人钱粮、户口、地震、水灾等等的记载,说明人们很早就开始了统计的工作们很早就开始了统计的工作.但是当时的统计,但是当时的统计,只是对有关事实的简单记录和整理,而没有在只是对有关事实的简单记录和整理,而没有在一定理论的指导下,作出超越这些数据范围之一定理论的指导下,作出超越这些数据范围之外的推断外的推断.学习统计无须把过多时间化在计算上,可学习统计无须把过多时间化在计算上,可以更有效地把时间用在基本概念、方法原理的
5、以更有效地把时间用在基本概念、方法原理的正确理解上正确理解上.国内外著名的统计软件包:国内外著名的统计软件包:SAS,SPSS,STAT等,都可以让你快速、简便地等,都可以让你快速、简便地进行数据处理和分析进行数据处理和分析.由于学时有限,课程的的这部分内容重点由于学时有限,课程的的这部分内容重点在于介绍数理统计的一些重要概念和典型的统在于介绍数理统计的一些重要概念和典型的统计方法,它们是实际中最常用的知识计方法,它们是实际中最常用的知识.计算机的诞生与发展,为数据处理提供了计算机的诞生与发展,为数据处理提供了强有力的技术支持,数理统计与计算机的结合强有力的技术支持,数理统计与计算机的结合是必
6、然的发展趋势是必然的发展趋势.数理统计不同于一般的资料统计,它更侧数理统计不同于一般的资料统计,它更侧重于应用随机现象本身的规律性进行资料的收重于应用随机现象本身的规律性进行资料的收集、整理和分析集、整理和分析.由于大量随机现象必然呈现出它的规律性,由于大量随机现象必然呈现出它的规律性,因而从理论上讲,只要对随机现象进行足够多因而从理论上讲,只要对随机现象进行足够多次观察,被研究的随机现象的规律性一定能清次观察,被研究的随机现象的规律性一定能清楚地呈现出来楚地呈现出来.但客观上只允许我们对随机现象进行次数但客观上只允许我们对随机现象进行次数不多的观察试验,也就是说不多的观察试验,也就是说,我们
7、获得的只是我们获得的只是局部观察资料局部观察资料.数理统计的任务就是研究怎样有效地收数理统计的任务就是研究怎样有效地收集、整理、分析所获得的集、整理、分析所获得的有限有限的资料,对所的资料,对所研究的问题研究的问题,尽可能地作出精确而可靠的结尽可能地作出精确而可靠的结论论.在数理统计中,不是对所研究的对象全在数理统计中,不是对所研究的对象全体体(称为称为总体总体)进行观察,而是抽取其中的部进行观察,而是抽取其中的部分分(称为称为样本样本)进行观察获得数据(进行观察获得数据(抽样抽样),),并通过这些数据对总体进行推断并通过这些数据对总体进行推断.数理统计简介数理统计我们已经学习过概率论的基本内
8、容,下面我们我们已经学习过概率论的基本内容,下面我们介绍数理统计,它以概率论为理论基础,运用概介绍数理统计,它以概率论为理论基础,运用概率论的基本知识,对被研究的随机现象进行多次率论的基本知识,对被研究的随机现象进行多次观察或试验,研究怎样有效地收集、整理和分析观察或试验,研究怎样有效地收集、整理和分析受到随机影响的数据,以便对研究对象的客观规受到随机影响的数据,以便对研究对象的客观规律性作出统计推断或预测,直至为采取决策提供律性作出统计推断或预测,直至为采取决策提供合理的可靠依据。合理的可靠依据。本章介绍总体、随机样本和统计量等基本概念,本章介绍总体、随机样本和统计量等基本概念,并着重介绍几
9、个常用统计量及抽样分布。并着重介绍几个常用统计量及抽样分布。1.2.11.2.1总体总体总体总体将将研究对象的某项数量指标的值的全体称为研究对象的某项数量指标的值的全体称为总体总体总体总体,总体中的每个元素称为总体中的每个元素称为个体个体个体个体。总体依其包含的个体总数分为总体依其包含的个体总数分为有限总体有限总体有限总体有限总体和和无限总体无限总体无限总体无限总体。当当有限总体所包含的个体的总数很大时,可以近有限总体所包含的个体的总数很大时,可以近似地将它看成是无限总体。似地将它看成是无限总体。1.2总体和样本总体和样本例例例例1.1.某工厂生产的灯泡的寿命的全体是一个总体,某工厂生产的灯泡
10、的寿命的全体是一个总体,每个灯泡的寿命是一个个体;某天某厂生产的一每个灯泡的寿命是一个个体;某天某厂生产的一批钢筋强度的全体是一个总体,每一根钢筋的强批钢筋强度的全体是一个总体,每一根钢筋的强度是一个个体。这两个总体都是有限总体;而若度是一个个体。这两个总体都是有限总体;而若是此工厂生产的所有钢筋的强度所组成的总体就是此工厂生产的所有钢筋的强度所组成的总体就是一个无限总体。是一个无限总体。例例例例2.2.:要研究某大学学生的学习情况,则该校的全:要研究某大学学生的学习情况,则该校的全体学生构成问题的总体。每一个学生则是该总体的体学生构成问题的总体。每一个学生则是该总体的一个个体。一个个体。总体
11、随研究的范围而定,如在总体随研究的范围而定,如在例例例例2 2中,如你研究中,如你研究则总体就大多了则总体就大多了:它包含全国所有在学的大学生它包含全国所有在学的大学生.总体总体如何定如何定,取决于研究目的取决于研究目的,也受人力物力时间等因素的也受人力物力时间等因素的限制限制.对于大多数实际问题对于大多数实际问题,总体中的个体是一些实在总体中的个体是一些实在的人或物的人或物,而而问题中所注意的问题中所注意的,并不在于这些人或物本并不在于这些人或物本身身,而在于所关心的某种指标而在于所关心的某种指标.例如一个学生有身高体例如一个学生有身高体重姓氏笔划籍贯出身重姓氏笔划籍贯出身.等特征等特征,当
12、我们研究学生当我们研究学生学习成绩时学习成绩时,对这些都不关心对这些都不关心,而只注意其考分如何而只注意其考分如何.在在例例例例1.1.中中,我们只注意元件的寿命如何我们只注意元件的寿命如何.这样这样,也可以把我们感兴趣的那个指标值就作为也可以把我们感兴趣的那个指标值就作为该个体该个体(例如例如,大学生大学生A得得90分分,即以即以90这个数代替这个数代替A),而总体就由一些数所组成而总体就由一些数所组成.单是这样还不行单是这样还不行.这里有两个问题这里有两个问题:一是一是总体中这样总体中这样一大堆杂乱无章的数没有赋予什么数学或概率的性一大堆杂乱无章的数没有赋予什么数学或概率的性质质,因而无法
13、使用有力的概率论工具去研究它因而无法使用有力的概率论工具去研究它;二是二是各种总体变得没有区别各种总体变得没有区别.例如例如,大学生的学习成绩也大学生的学习成绩也是一堆数是一堆数,一大批元件的寿命也是一堆数一大批元件的寿命也是一堆数,大家都一大家都一样了样了.解决这些问题的途径解决这些问题的途径,就涉及就涉及总体这个概念的总体这个概念的核心核心总体的概率分布总体的概率分布.例如例如,电子元件寿命分电子元件寿命分布为指数分布布为指数分布,学生的学习成绩可以假定为服从正学生的学习成绩可以假定为服从正态分布态分布.总体分布不同总体分布不同,分析的方法也就不同分析的方法也就不同,赋有赋有一定概率分布的
14、总体就称为统计总体一定概率分布的总体就称为统计总体.因此因此,经过以经过以上几步的分析上几步的分析,我们就得出在数理统计学中我们就得出在数理统计学中“总体总体”,这个基本概念的要旨这个基本概念的要旨总体就是一个概率分布总体就是一个概率分布.当总体分布为指数当总体分布为指数分布时分布时,称为指数分布总体称为指数分布总体;当总体分布为正态分布当总体分布为正态分布时时,称为正态分布总体或简称正态总体称为正态分布总体或简称正态总体,等等等等.两个总体两个总体,即使其所含个体的性质根本不同即使其所含个体的性质根本不同,只只要有同一的概率分布要有同一的概率分布,则在数理统计学上就视为是则在数理统计学上就视
15、为是同类总体同类总体.例如人的寿命也可以服从指数分布例如人的寿命也可以服从指数分布,它与它与元件寿命的分布一样元件寿命的分布一样,处理二者的统计问题的方法处理二者的统计问题的方法也一样也一样,即可视为同一类总体即可视为同一类总体.对以上所说的要作对以上所说的要作一点说明一点说明:上面虽然我们假定上面虽然我们假定了元件寿命服从指数分布了元件寿命服从指数分布,但并没有指定其中参数但并没有指定其中参数之值之值.既然既然未知未知,原则上原则上可取可取0到到内任何值内任何值,故更故更正确地应当说正确地应当说:总体分布是一个概率分布族总体分布是一个概率分布族(在此为在此为指数分布族指数分布族)的一员的一员
16、.这分布族包含一个参数这分布族包含一个参数称为单参数分布族称为单参数分布族.在在例例例例2 2中,总体分布中,总体分布正态分布正态分布N(,2),包含两个参包含两个参数数,和和 2(可取任何实数值而可取任何实数值而 2只能取大于只能取大于0的的值值),是一个两参数分布族是一个两参数分布族.另外另外,在有些情况下在有些情况下,我我们只是假定总体有一定的概率分布而并不明确知道们只是假定总体有一定的概率分布而并不明确知道其数学形式其数学形式.如在如在例例例例1 1中中,也可以只承认寿命有一定也可以只承认寿命有一定的概率分布函数的概率分布函数F(x),F(0)=0(因寿命总大于因寿命总大于0),其他别
17、其他别无所知无所知.这时这时,总体分布不能通过若干个未知参数表总体分布不能通过若干个未知参数表达出来达出来,这种情况称为非参数总体这种情况称为非参数总体.对非参数总体对非参数总体,虽不知其数学形式虽不知其数学形式,但统计问题照样但统计问题照样可以提出来可以提出来.例如估计平均寿命的问题例如估计平均寿命的问题,不假定元件不假定元件寿命分布为指数分布也有意义寿命分布为指数分布也有意义,且使用且使用去估计平去估计平均寿命看来仍是一个合理的方法均寿命看来仍是一个合理的方法.自然自然,由于分布的由于分布的形式未知形式未知,进一步的讨论困难就更大进一步的讨论困难就更大,这些在以后会这些在以后会逐步指明逐步
18、指明.上面所讲的总体概念上面所讲的总体概念,在很大程度上要归在很大程度上要归功于数理统计学最主要的奠基者功于数理统计学最主要的奠基者,伟大的英国统计学伟大的英国统计学家家R.A.费歇尔费歇尔.他引进了他引进了“无限总体无限总体”,这个概念这个概念现实问题中现实问题中,当所考察的个体是由一些看得见、摸当所考察的个体是由一些看得见、摸得着的对象所构成时得着的对象所构成时(如如例例例例2 2),总体总是有限的总体总是有限的.有限总体相应的分布只能是离散的有限总体相应的分布只能是离散的,其具体形式将其具体形式将与个体总数有关且缺乏一个简洁的数学形式与个体总数有关且缺乏一个简洁的数学形式,这会这会使有力
19、的概率方法无法使用使有力的概率方法无法使用.引进无限总体的概念引进无限总体的概念,在概率论上相当于用一个连续分布去逼近离散分布在概率论上相当于用一个连续分布去逼近离散分布.当总体所含个体极多时当总体所含个体极多时,这种逼近所带来的误差这种逼近所带来的误差,从从应用的观点看已可以忽略不计应用的观点看已可以忽略不计.更好的是更好的是,事实证明事实证明:几种常见且在概率论上较易处理的分布几种常见且在概率论上较易处理的分布,如指数分如指数分布和正态分布等布和正态分布等,尤其是正态分布尤其是正态分布,对许多实用问题对许多实用问题的总体分布给出了足够好的近似的总体分布给出了足够好的近似,而围绕着这些分而围
20、绕着这些分布建立了深入而有效的统计方法布建立了深入而有效的统计方法.最后最后,关于总体这个概念还需要说明一个问题关于总体这个概念还需要说明一个问题.从从一个例子入手一个例子入手,设有一个物体设有一个物体,其真实的重量其真实的重量a未知未知,要通过多次量测的结果去估计它要通过多次量测的结果去估计它.请问在这个问题中请问在这个问题中总体是什么总体是什么?若不假思索若不假思索,可能回答说可能回答说:因为与所研究的问题因为与所研究的问题有关的对象有关的对象,就只这个物体就只这个物体,故这个物体故这个物体,或者其重或者其重量量a,就构成总体就构成总体,这个回答不对这个回答不对.其所以不对其所以不对,一则
21、一则因为因为a未知未知.即使即使a已知已知(这时自然不存在估计它的这时自然不存在估计它的问题问题,但测量其重量仍有意义但测量其重量仍有意义,例如例如,可能是为了考可能是为了考察天平的准确程度如何察天平的准确程度如何),这个回答仍不对这个回答仍不对,因为你既然通过量测因为你既然通过量测,那么那么,你你所研究的问题所研究的问题,实质上是实质上是“通过量测结果去估计通过量测结果去估计a之之值其精度如何值其精度如何”.这样这样,每一个可能的量测结果都是每一个可能的量测结果都是一个个体一个个体,而总体是由而总体是由“一切可能的量测结果一切可能的量测结果”组成组成.这只是一个想像中存在的集合这只是一个想像
22、中存在的集合,因为不可能去进行无因为不可能去进行无限次量测限次量测,把所有可能的量测结果一一列出来把所有可能的量测结果一一列出来.这与这与我们前面几个例子中那种看得见摸得着的总体不同我们前面几个例子中那种看得见摸得着的总体不同:这里的总体只是在想像中存在这里的总体只是在想像中存在,它的个体是通过试验它的个体是通过试验“制造制造”,出来的出来的每秤一次每秤一次,就制造出一个量测就制造出一个量测值值.这种情况在实际应用中非常之多这种情况在实际应用中非常之多.给这种总体规定分布也一样给这种总体规定分布也一样.拿本例来说拿本例来说,只须说一只须说一句句“量测结果服从某某分布量测结果服从某某分布(如正态
23、分布如正态分布)”,就行就行.如果不绕这么一个圈子如果不绕这么一个圈子,而直接说而直接说:量测结果是随机量测结果是随机的的,它服从某某分布它服从某某分布,可能读者会感到更易接受可能读者会感到更易接受.上上述分析是为了突出统计总体这个概念的这种抽象形述分析是为了突出统计总体这个概念的这种抽象形式式,以体现这个概念的普遍性以体现这个概念的普遍性.在某些统计学著作中在某些统计学著作中,也常把总体称为也常把总体称为“母体母体”.以后,我们提到的总体和个体时,一般都是指具以后,我们提到的总体和个体时,一般都是指具体对象的数量指标,而不是笼统地指具体对象。体对象的数量指标,而不是笼统地指具体对象。1.2.
24、21.2.2样本样本样本样本 样本是按一定的规定从总体中抽出的一样本是按一定的规定从总体中抽出的一部分个体部分个体.所谓所谓“按一定的规定按一定的规定”,就是指总体中的每就是指总体中的每一个个体有同等的被抽出的机会一个个体有同等的被抽出的机会,以及在这个基础上以及在这个基础上设立的某种附加条件设立的某种附加条件.由于我们的兴趣不在于个体本由于我们的兴趣不在于个体本身而在于其某一特征指标值身而在于其某一特征指标值,所得样本表现为若干个所得样本表现为若干个数据数据X1,X2,Xn,n称为称为“样本大小样本大小”,或或“样本容量样本容量”,“样本量样本量”。样本。样本X1,X2,Xn中的每一个中的每
25、一个Xi也称也称为样本为样本.有时有时,为区别这种情况为区别这种情况,把把X1,.,Xn的全体称为一的全体称为一“组组”,样本样本,而而Xi称为其中的第称为其中的第i个样本个样本.在一个具体问题中在一个具体问题中,样本样本X1,X2,Xn是一些具是一些具体的数据体的数据.而在理论的研究上而在理论的研究上,则要把它看成为一些则要把它看成为一些随机变量随机变量.因为抽到哪一些个体是随机的因为抽到哪一些个体是随机的,因而其指因而其指标值标值,即即X1,X2,Xn,也是随机的也是随机的.设想样本是一个设想样本是一个一个地抽出来一个地抽出来.第一次抽时第一次抽时,是从整个总体中抽一个是从整个总体中抽一个
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数理统计 第一章
限制150内