样本与统计量、数据的简单处理.ppt
前言前言 数理统计是应用广泛的一个数学分支,数理统计是应用广泛的一个数学分支,它以概率论为理论基础,研究如何合理地获它以概率论为理论基础,研究如何合理地获得数据资料,建立有效的数学方法,根据所得数据资料,建立有效的数学方法,根据所获得的数据资料,来研究随机现象的规律性,获得的数据资料,来研究随机现象的规律性,对研究对象的性质作出合理的估计和判断。对研究对象的性质作出合理的估计和判断。在这个课程里,我们学习数理统计学的在这个课程里,我们学习数理统计学的初步,主要讲述估计与检验等原理,线性回初步,主要讲述估计与检验等原理,线性回归与方差分析等统计方法。归与方差分析等统计方法。总体与样本总体与样本总体(母体)总体(母体)研究对象的全体。研究对象的全体。个体个体 总体中的每一个元素。总体中的每一个元素。欲研究或推断总体欲研究或推断总体 X X 的性质,似乎应对每一个个体逐的性质,似乎应对每一个个体逐一测定,但这样的做法很多时候是不必要或是不可行的。一测定,但这样的做法很多时候是不必要或是不可行的。比如考察广州人的身高、体重,某种导弹的爆炸威力,某比如考察广州人的身高、体重,某种导弹的爆炸威力,某电子元件的寿命等。我们只能在总体中随机抽取部分个体电子元件的寿命等。我们只能在总体中随机抽取部分个体出来测定。这就是出来测定。这就是抽样抽样。在数理统计学中,我们是对总体的一个或若干个数量在数理统计学中,我们是对总体的一个或若干个数量指标进行研究,这样,对总体的研究就归结为对随机变量指标进行研究,这样,对总体的研究就归结为对随机变量的研究。以后说到总体时,指的就是它对应的某个或某些的研究。以后说到总体时,指的就是它对应的某个或某些随机变量。随机变量。总体与样本总体与样本样本(子样)样本(子样)从总体中随机抽取出来的部分个体作成的集合。记为:从总体中随机抽取出来的部分个体作成的集合。记为:样本中所含的个体的数目。样本中所含的个体的数目。样本(子样)容量样本(子样)容量 注意到这里每个注意到这里每个 Xi 因随机抽取而随机取值,所以也是因随机抽取而随机取值,所以也是随机变量。抽样完成后得到的确切结果:随机变量。抽样完成后得到的确切结果:是是 维随机变量维随机变量 的一个观的一个观察值。称为察值。称为样本值样本值或或子样观察值子样观察值。总体与样本总体与样本 为保证抽取出来的样本能够反映出总体的性质,要求为保证抽取出来的样本能够反映出总体的性质,要求样本具有代表性,即每个样本具有代表性,即每个 Xi 与与 X 同分布;还要求具有独同分布;还要求具有独立性,即立性,即 是相互独立的。满足以上条件是相互独立的。满足以上条件的样本(子样)称作的样本(子样)称作简单随机样本(子样)简单随机样本(子样)。要获得简单随机样本(子样),对有限总体,要获得简单随机样本(子样),对有限总体,应作应作有放回的随机抽样有放回的随机抽样,对无限总体或总体相当大,对无限总体或总体相当大时,也可作时,也可作无放回的随机抽样无放回的随机抽样。统计量统计量 当我们不能完全掌握某一总体的分布函数时,只要掌握当我们不能完全掌握某一总体的分布函数时,只要掌握了总体的某些数字特征(总体参数),就可基本上确定该总了总体的某些数字特征(总体参数),就可基本上确定该总体的分布,当总体参数也未知时,就只能依据样本对未知数体的分布,当总体参数也未知时,就只能依据样本对未知数进行推断。通常我们利用样本构造出某种函数作为推断的基进行推断。通常我们利用样本构造出某种函数作为推断的基础。这就是所谓的础。这就是所谓的统计量统计量。统计量统计量样本样本 对应的不含未知参数的实值函数,对应的不含未知参数的实值函数,记作:记作:它本身也是一随机变量。它的分布它本身也是一随机变量。它的分布称作称作抽样分布抽样分布。设设 是随机变量是随机变量 X 的一个样本。的一个样本。样本均值样本均值通常作为总体通常作为总体 X 的均值的一个估计值。的均值的一个估计值。样本方差样本方差通常作为总体通常作为总体 X 的方差的一个估计值。的方差的一个估计值。样本标准差(均方差)样本标准差(均方差)通常作为总体通常作为总体 X 的标准差(均方差)的一个估计值。的标准差(均方差)的一个估计值。常用统计量常用统计量估计量的估计量的 无偏性无偏性 数据的简单处理数据的简单处理数据整理(分组)数据整理(分组)(1)根据样本容量)根据样本容量 n 确定分组数确定分组数 k当当 时,时,当当 时,时,当当 时,时,(2)计算组距(一般采用等距分组,也可据实际情况分组)计算组距(一般采用等距分组,也可据实际情况分组)组距等于比组距等于比极差极差(原始数据中的最大值(原始数据中的最大值M与最小值与最小值m 之差)除以组数之差)除以组数 k 略大的测量单位的整数倍。略大的测量单位的整数倍。如:如:则取组距为则取组距为 5。当当 时,时,一般地,一般地,数据整理(分组)数据整理(分组)(3)确定组限和组中点值)确定组限和组中点值 一般地,组的上限与下限应比数据多一位小数。这样可一般地,组的上限与下限应比数据多一位小数。这样可保证每组所含的原绐数据不重叠。(可据实际问题另作要求)保证每组所含的原绐数据不重叠。(可据实际问题另作要求)设现有设现有 50 个原始数据(均是整数),决定分作个原始数据(均是整数),决定分作 8 个小组,个小组,数据中的最大值是数据中的最大值是 100,最小值是,最小值是 65,则组距则组距组距组距 组数组数取取得分组如下:得分组如下:组中点值分别为:组中点值分别为:一般遵循一般遵循“上限不在内上限不在内”的原则的原则(解决实际问题时,也有出现开口组的情形)(解决实际问题时,也有出现开口组的情形)数据的简单处理数据的简单处理数据整理(分组)数据整理(分组)(4)计算各组频数和频率,作频数和频率分布表)计算各组频数和频率,作频数和频率分布表频数频数 指落在第指落在第 组的数据个数,频率为频数与总数据量组的数据个数,频率为频数与总数据量之比:之比:(5)作频率直方图)作频率直方图要把每一小组的频率用一小矩形的面积去表示,方法是:要把每一小组的频率用一小矩形的面积去表示,方法是:以样本值为横坐标,频率以样本值为横坐标,频率/组距为纵坐标,以分组区间为组距为纵坐标,以分组区间为底,以频率底,以频率/组距为高作一系列矩形。组距为高作一系列矩形。频率直方图示意图:频率直方图示意图:要把每一小组的频率用一小矩形的面积去表示,方法是:要把每一小组的频率用一小矩形的面积去表示,方法是:以样本值为横坐标,频率以样本值为横坐标,频率/组距为纵坐标,以分组区间为组距为纵坐标,以分组区间为底,以频率底,以频率/组距为高作一系列矩形。组距为高作一系列矩形。数据的简单处理数据的简单处理计算样本的特征数计算样本的特征数(统计量)(统计量)常用的描述常用的描述集中趋势集中趋势的特征数的特征数样本均值样本均值中位数中位数数据按大小顺序排列后位于中间位置的那个数。数据按大小顺序排列后位于中间位置的那个数。众数众数样本中出现次数最多的那个数。样本中出现次数最多的那个数。样本几何均值样本几何均值 数据的简单处理数据的简单处理计算样本的特征数(统计量)计算样本的特征数(统计量)常用的描述常用的描述分散程度分散程度的特征数的特征数样本方差样本方差样本标准差样本标准差极差(全距)极差(全距)标准误标准误 数据的简单处理数据的简单处理计算样本的特征数计算样本的特征数(统计量)(统计量)常用的描述常用的描述分散程度分散程度的特征数的特征数四分位差四分位差Qd满足满足Q1为第为第 1 四分位数四分位数满足满足Q3为第为第 3 四分位数四分位数满足满足即当数据按大小顺序排列后排在第一个四分之一位的数。即当数据按大小顺序排列后排在第一个四分之一位的数。其中:其中:例例1 从某班抽取从某班抽取10个男同学,测其身高如下(单位个男同学,测其身高如下(单位cm):):计算样本均值和方差时,可利用均值和方差的性质计算样本均值和方差时,可利用均值和方差的性质将数据化简后再运算。将数据化简后再运算。175.5,172,168,173,172.5,169,169.5,178,171.5,172.试计算此样本的均值和方差。试计算此样本的均值和方差。解:记题目所给数据为解:记题目所给数据为 令令则则 的数值分别为:的数值分别为:3.5,0,-4,1,0.5,-3,-2.5,6,-0.5,0.所以样本的均值所以样本的均值样本的方差样本的方差例例2 设从总体中抽取一组观察值为设从总体中抽取一组观察值为 0.98,1.01,0.99,1.11,0.8.试计算此样本的均值和标准差。试计算此样本的均值和标准差。解:记题目所给数据为解:记题目所给数据为 令令则则 的数值分别为:的数值分别为:0,3,1,13,-18.所以样本的均值所以样本的均值样本的方差样本的方差样本的标准差样本的标准差数据的简单处理可利用数据的简单处理可利用MINITAB软件操作完成。软件操作完成。输入数据输入数据平均数平均数 中位数中位数 众数众数 标准差标准差 标准误标准误频数频数频率频率累计频数累计频数累计频率累计频率频数频数 频率频率 累计频数累计频数 累计频率累计频率也可在此作图也可在此作图数据的输入有时在数据的输入有时在 DOS 状态下较为方便状态下较为方便先点击先点击Session 窗口,然后窗口,然后进入了进入了Dos 状态状态保存整个文件保存整个文件保存数据表保存数据表保存图形保存图形