《第五章统计量及其分布精选文档.ppt》由会员分享,可在线阅读,更多相关《第五章统计量及其分布精选文档.ppt(46页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第五章统计量及其分布2022/10/181本讲稿第一页,共四十六页数理统计数理统计一、数理统计及其任务 数理统计数理统计是一门以概率论为基础的应用学科。它是研究如何有效地收集、整理、分析带有随机性的数据,以便对所考察的问题作出推断和预测,从而为决策提供依据。数理统计的任务就是研究有效地收集数据,科学地整理与分析所获得的有限的资料,对所研究的问题,尽可能地作出精确而可靠的结论。数理统计研究问题的方式,不是对所研究对象的全体(称为总体)进行观察,而是抽取其中的部分(称为样本)进行观察获得数据(抽样),并通过这些数据对总体进行推断。数理统计方法具有数理统计方法具有“部分推断整体部分推断整体”的特征。
2、的特征。本讲稿第二页,共四十六页二、数理统计研究问题的一般流程分析问分析问题题确定总确定总体体收集收集数据数据试验设计试验设计抽样抽样数据数据整理整理统计推断统计推断参数估计参数估计假设检验假设检验我们这门课所学的数理我们这门课所学的数理统计实际上是统计推断统计实际上是统计推断及其应用(方差分析与及其应用(方差分析与回归分析)的一部分内回归分析)的一部分内容。容。为什么要用数理统计方法研究问题?随机现象有它的规律性,随机现象的特点注定了进行足够多次观察,其规律性才能清楚地呈现出来。但是,客观上只允许对随机现象进行有限次观察试验,只能获得局部观察资料.本讲稿第三页,共四十六页总体与总体特征数总体
3、与总体特征数一、总体与总体标志总体总体(Population)Def 在数理统计中,把研究对象的全体称为总体或母体,而把组成总体的每个单元称为个体。描述总体单元在某方面特性的名称或记号称为总体指标;每个总体单元对总体指标的响应称为指标值。总体中所包含的个体的个数称为总体的容量。研究某批灯泡的质量 总体总体个体个体本讲稿第四页,共四十六页 在数理统计中,人们往往研究有关总体总是关注总体某一项或几项指标,为此,对这些指标进行随机的试验或观测,试验或观测结果获得这些指标的一部分或全部指标值,从而考察该数量指标的分布情况。这时,指标值的全体对象是总体。每个指标值就是总体单元。总体总体指标值全指标值全集
4、集指标指标随机变量随机变量总体可以用随机变量及其分布来表示,研究总体等价于研究表达总体的随机变量概率分布;在理论上可以把总体与概率分布等同起来,总体分布就是表达总体的随机变量的分布。例如:研究某批灯泡的寿命时,关心的指标是寿命,那么,该总体就可以用随机变量X和其概率分布表示。本讲稿第五页,共四十六页总体总体特征数本讲稿第六页,共四十六页样本与统计量样本与统计量一、样本样本样本(Sample)Def 按一定规则从总体中抽取一部分总体单元进行观测或试验,这一抽取过程称为“抽样”,所抽取的部分总体单元的整体称为总体的一个样本(子样)。样本中所包含的总体单元称为样本单元,样本中样本单元的数目称为样本容
5、量。样本样本样本实现样本实现抽定抽定本讲稿第七页,共四十六页样本样本应满足的性质(1)代表性;(2)随机性。简单随机样本简单随机样本(Independence identical distributionIndependence identical distributionIndependence identical distributionIndependence identical distribution)Def例如例如:要通过随机抽样了解一批产品的次品率,如果每次抽取一件产品观测后放回原来的总量中再抽第二件产品,则这样获得一个简单随机抽样。实际抽样中,往往是不再放回产品,则这不是一个简
6、单随机抽样。但当总量N很大时,可近似看成可近似看成是简单随机抽样。样本样本分布Def本讲稿第八页,共四十六页注意:注意:样本分布反映样本取不同实现的概率规律,其与总体分布相联系,一般求算比较麻烦,但对于iid样本有下列结果。总体、样本、样本实现的关系总体、样本、样本实现的关系总体总体样本实现样本实现样本样本推断推断本讲稿第九页,共四十六页例例5.1本讲稿第十页,共四十六页例例5.2本讲稿第十一页,共四十六页二、统计量样本样本(Statistic)例例5.3 设是从正态总体中抽取的一个样本,其中为已知参数,为未知参数,确定下列那些量是统计量本讲稿第十二页,共四十六页它反映了总体它反映了总体k 阶
7、矩的信息阶矩的信息几个常用的统计量几个常用的统计量样本平均值样本平均值它反映了总体它反映了总体均值的信息均值的信息样本方差样本方差它反映了总体它反映了总体方差的信息方差的信息样本标准差样本标准差 样本样本k阶原点矩阶原点矩样本样本k阶中心矩阶中心矩本讲稿第十三页,共四十六页样本数据的整理与显示样本数据的整理与显示本讲稿第十四页,共四十六页例例5.4本讲稿第十五页,共四十六页数据整理数据整理:将数据分组:将数据分组 计算各组频数计算各组频数 作频率分布表作频率分布表 作频率直方图作频率直方图 为了研究随机现象,首要的工作是收集原始数据.一般通过抽样调查或试验得到的数据往往是杂乱无章的,需要通过整
8、理后才能显示出它们的分布状况。数据的简单处理是以一种直观明了方式加工数据,它包括两个方面:数据整理;计算样本特征值。计算样本特征值:计算样本特征值:样本均值、样本方差等。样本均值、样本方差等。例例5.5 为对某小麦杂交组合F2代的株高X进行研究,抽取容量为100的样本,测试的原始数据记录如下(单位:厘米),试根据以上数据,画出它的频率直方图,并以此说明随机变量X的分布状况。本讲稿第十六页,共四十六页 87 88111 91 73 70 92 98105 94 99 91 98110 98 97 90 83 92 88 86 94102 99 89104 94 94 92 96 87 94 92
9、 86102 88 75 90 90 80 84 91 82 94 99102 91 96 94 94 85 88 80 83 81 69 95 80 97 92 96109 91 80 80 94102 80 86 91 90 83 84 91 87 95 76 90 91 77103 89 88 85 95 92104 92 95 83 86 81 86 91 89 83 96 86 75 92 整理原始数据,加工为分组资料,作出频率分布表,画直方图,提取样本分布特征的信息。步骤如下:1.找数据最小值m=69,最大值M=111,极差为Mm=42;2.数据分组,根据样本容量n的大小,决定分组
10、数k;3.确定组限和组中点值;4.将数据分组,计算出各组频数,作频数、频率分布表;本讲稿第十七页,共四十六页5.作出频率直方图。注意:分组的一般原则为 30n40 5k6 40n60 6k8 60n100 8k10 100n500 10k20 本例取k=9,一般采取等距分组(也可以不等距分组),组距等于比极差除以组数略大的测量单位的整数倍。本例测量单位为1厘米,组距为一般根据算式:各组中点值加减1/2组距=组的上限或下限,组的上限与下限应比数据多一位小数。本例取a=67.5,b=112.49(a略小于m,b略大于M,且a和b都比数据多一位小数),分组如下:本讲稿第十八页,共四十六页67.5,7
11、2.5)72.5,77.5)77.5,82.5)82.5,87.5)87.5,92.5)92.5,97.5)97.5,102.5)102.5,107.5)107.5,112.5)组中值分别为:70,75,80,85,90,95,100,105,110组序组序区间范围区间范围频数频数fj频率频率Wj=fj/n累计频率累计频率Fj167.5,72.5)20.020.02272.5,77.5)50.050.07377.5,82.5)100.100.17482.5,87.5)180.180.35587.5,92.5)300.30.65692.5,97.5)180.180.83797.5,12.5)10
12、0.10.938102.5,107.5)40.040.979107.5,112.5)30.031.00本讲稿第十九页,共四十六页以样本值为横坐标,频率/组距为纵坐标;以分组区间为底,以为高作频率直方图,如图所示。从频率直方图可看到:靠近两个极端的数据出现比较少,而中间附近的数据比较多,即中间大两头小的分布趋势(随机变量分布状况的最粗略的信息)。频率直方图中的小矩形的面积近似地反映了样本数据落在某个区间内的可能性大小,故它可近似描述X的分布状况。本讲稿第二十页,共四十六页 枝叶图枝叶图 将样本的实现数据的每个数据分为两部分,一部分作为枝枝,另一部分为叶,构成的图称为枝叶图。以例说明枝叶图的做法:
13、例例5.6 64 67 70 72 74 76 76 79 80 81 82 82 83 85 86 88 91 91 92 93 93 93 95 95 95 97 97 99 100 100 102 104 106 106 107 108 108 112 112 114 116 118 119 119 122 123 125 126 128 133试作枝叶图 解:将数据的百位和十位作枝,个位作叶,用竖线将枝叶分开,形成图。47024668012235681123335667790024667882246899235683 6 7 8 910111213枝叶本讲稿第二十一页,共四十六页 五数
14、概括与箱线图五数概括与箱线图本讲稿第二十二页,共四十六页本讲稿第二十三页,共四十六页车辆重量(磅)车辆重量(磅)本讲稿第二十四页,共四十六页本讲稿第二十五页,共四十六页统计三大分布统计三大分布 分布这个分布是由Helmet于1875年提出,K.Pearson于1900年重新提出。理论推导可得概率密度函数为 本讲稿第二十六页,共四十六页本讲稿第二十七页,共四十六页其概率密度函数的图像如图所示(用中心极限定理证明)本讲稿第二十八页,共四十六页t分布(学生氏t分布)这个分布是由W.S.Gosset于1908年提出,该分布的提出为小样本方法的建立奠定了概率基础。理论推导可得概率密度函数为本讲稿第二十九
15、页,共四十六页本讲稿第三十页,共四十六页F分布这个分布是由R.A.Fisher于1918年提出,该分布的提出为方差分析的建立奠定了概率基础。Snedcor于1934年给出概率密度函数。本讲稿第三十一页,共四十六页本讲稿第三十二页,共四十六页例例5.7本讲稿第三十三页,共四十六页抽样分布抽样分布抽样分布抽样分布(Sampling Distribution)确定抽样分布是数理统计的有一个基本问题,确定相应统计量的分布是建立统计方法的基础。以统计量的精确为基础的统计方法称为小样本方法;而以统计量的极限分布为基础的统计方法称为大样本方法。本讲稿第三十四页,共四十六页本讲稿第三十五页,共四十六页本讲稿第三十六页,共四十六页本讲稿第三十七页,共四十六页本讲稿第三十八页,共四十六页本讲稿第三十九页,共四十六页本讲稿第四十页,共四十六页充分统计量充分统计量样本统计量加工信息样本分布统计量分布信息替代本讲稿第四十一页,共四十六页充分统计量的概念充分统计量的概念本讲稿第四十二页,共四十六页本讲稿第四十三页,共四十六页本讲稿第四十四页,共四十六页充分统计量的判定充分统计量的判定本讲稿第四十五页,共四十六页本讲稿第四十六页,共四十六页
限制150内