《概率论与数理统计 - 2.ppt》由会员分享,可在线阅读,更多相关《概率论与数理统计 - 2.ppt(67页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1,数理统计部分,第六章 样本及抽样分布,第七章 参数估计,第八章 假设检验,数理统计是具有广泛应用的一个数学分支.它以概率论为理论基础,根据试验或观察得到的数据,来研究随机现象,对研究对象的客观规律作出种种合理的估计和判断。,数理统计主要内容,第六章 样本及其抽样分布 第1节 总体与样本,数理统计学是一门以数据为基础的学科. 数理统计学的任务就是如何获得样本和利用样本,从而对事物的某些未知方面进行分析、推断并作出一定的决策。,3,例如:生产厂家声称他们生产的灯泡平均寿命不低于6000小时,如何验证厂家说法的真伪?由于灯泡寿命试验是破坏性试验,不可能把整批灯泡逐一检测,只能抽取一部分灯泡进行检
2、验,通过这部分灯泡的寿命数据来推断整批灯泡的平均寿命。以部分数据信息来推断整体未知参数,就是数理统计研究问题的基本方式。,4,总体:研究对象的全体;或试验全部观察值 个体:总体中的成员/每个可能的观察值总体的容量:总体中包含的个体数;有限总体:容量有限的总体;无限总体:容量无限的总体,通常将容量非常大的有限总体也按无限总体处理。,5,6,例:1)了解某校大学生“做过家教(包括正在做家教)”的比例。 总体是该校大学生全体。这是一个有限总体,每个大学生有许多指标,比如性别,年龄,身高,体重,高考成绩。现在我们关心的是学生是否“做过家教”这一指标。,2)了解某城市的空气质量情况,关注该城市的PM2.
3、5值。总体是城市上空一定范围内的空气,这是一个无限总体,描述空气质量有许多指标,而我们仅关心PM2.5值。,7,3)药厂研究某种药物在人体中的吸收情况。总体是全体国民,这是一个有限总体,但数量非常巨大,我们常把它看成无限总体。,8,为了采用数理统计方法进行分析,首先要收集数据,数据收集方法一般有两种。,(1)通过调查、记录收集数据。如为了调查大学生是否“做过家教”,可以进行问卷调查;要了解PM2.5值,需要在城市设立若干监测站点,定时收集PM2.5数据。,9,(2)通过实验收集数据。如为了了解药物吸收情况,首先要进行试验设计,并征集若干志愿者,按试验设计方案将他们分成若干组,监测他们服药后不同
4、时间点身体中药物含量,记录相应的数据。,关于数据的收集(调查数据和实验数据)可以根据数据本身的特点有多种不同的方法和设计,有专门的课程讲授,本课程不作详细介绍。,实际中人们通常只关注总体的某个(或几个)指标。总体的某个指标X, 对于不同的个体来说有不同的取值, 这些取值构成一个分布, 因此X可以看成一个随机变量. 有时候直接将X称为总体. 假设X的分布函数为F(x), 也称总体X具有分布F(x).,10,11,如何推断总体分布的未知参数(或分布)?,12,需要从总体中抽取一部分个体, 根据这部分个体的数据,并利用概率论的知识等作出分析推断.,被抽取的部分个体叫做总体的一个 样本.,方 法,简单
5、随机样本:满足以下两个条件的随机样本(X1,X2,Xn)称为容量是n的简单随机样本。 1 代表性: 每个Xi与X同分布; 2 独立性: X1,X2,Xn是相互独立的随机变量。 说明:后面提到的样本均指简单随机样本。,13,获得简单随机样本的抽样称为简单随机抽样。如何进行简单随机抽样?,14,对于有限总体, 采用放回抽样.,但当总体容量很大的时候,放回抽样有时候很不方便, 因此在实际中当总体容量比较大时,通常将不放回抽样所得到的样本近似当作简单随机样本来处理.,对于无限总体, 一般采取不放回抽样.,15,解:(1),16,注意:(1)一个样本(容量为n)是指n个独立与总体分布相同的随机变量.(2
6、) 对样本进行一次观测,得到实际数值(n个) 称为样本观察值(或样本值).(3)一般情形下,两次观测,样本值是不同的.,17,18,19,19,20,第2节 统计量与常用统计量,样本中包含了许多信息。对于推断总体的参数或分布而言,有些是有用的,重要的信息,有些则并不重要。,上例的样本至少提供了两种信息:1)10个灯泡的平均寿命; 2)灯泡寿命的序号(如6394是第1个).,有用且重要的信息,不重要信息,从样本中提取有用的信息来研究总体的分布及各种特征数.构造统计量.,23,统计量:样本的不含任何未知参数的函数。,常用统计量:,24,常用统计量:,25,26,27,例2 接上一讲例2,总体为88
7、,75,70,63,总体均值为74,总体方差为83.5.计算全部16个样本的样本均值,样本方差和样本二阶中心矩.,28,与总体均值74相同,与总体方差83.5相同,比总体方差小,当总体数字特征未知时,29,这些非常直观的想法,有什么理论依据吗?这部分内容我们会在后面介绍。,30,第3节,在数理统计中, 用于描述抽样分布的分布函数,除了正态分布外,最重要的三个分布分别为: 下面分别给出这三个分布的定义,密度函数,图形,性质和分位数等等。,32,33,34,35,36,37,38,39,40,William Gosset(1876-1937)1908年提出t-分布,41,42,43,44,45,46,47,48,第4讲 单个正态总体的抽样分布,50,51,(2)证略.,52,53,54,55,56,57,说明:S2除以(n-1)主要是为了保证对方差的无偏估计,58,第5节 两个正态总体的抽样分布,60,61,62,63,64,思考:,65,66,第42讲例2,
限制150内