第五章统计量及其分布PPT讲稿.ppt
第五章统计量及其分布2022/10/191第1页,共46页,编辑于2022年,星期三数理统计数理统计一、数理统计及其任务 数理统计数理统计是一门以概率论为基础的应用学科。它是研究如何有效地收集、整理、分析带有随机性的数据,以便对所考察的问题作出推断和预测,从而为决策提供依据。数理统计的任务就是研究有效地收集数据,科学地整理与分析所获得的有限的资料,对所研究的问题,尽可能地作出精确而可靠的结论。数理统计研究问题的方式,不是对所研究对象的全体(称为总体)进行观察,而是抽取其中的部分(称为样本)进行观察获得数据(抽样),并通过这些数据对总体进行推断。数理统计方法具有数理统计方法具有“部分推断整体部分推断整体”的特征。的特征。第2页,共46页,编辑于2022年,星期三二、数理统计研究问题的一般流程分析问分析问题题确定总确定总体体收集收集数据数据试验设计试验设计抽样抽样数据数据整理整理统计推断统计推断参数估计参数估计假设检验假设检验我们这门课所学的数理我们这门课所学的数理统计实际上是统计推断统计实际上是统计推断及其应用(方差分析与及其应用(方差分析与回归分析)的一部分内回归分析)的一部分内容。容。为什么要用数理统计方法研究问题?随机现象有它的规律性,随机现象的特点注定了进行足够多次观察,其规律性才能清楚地呈现出来。但是,客观上只允许对随机现象进行有限次观察试验,只能获得局部观察资料.第3页,共46页,编辑于2022年,星期三总体与总体特征数总体与总体特征数一、总体与总体标志总体总体(Population)Def 在数理统计中,把研究对象的全体称为总体或母体,而把组成总体的每个单元称为个体。描述总体单元在某方面特性的名称或记号称为总体指标;每个总体单元对总体指标的响应称为指标值。总体中所包含的个体的个数称为总体的容量。研究某批灯泡的质量 总体总体个体个体第4页,共46页,编辑于2022年,星期三 在数理统计中,人们往往研究有关总体总是关注总体某一项或几项指标,为此,对这些指标进行随机的试验或观测,试验或观测结果获得这些指标的一部分或全部指标值,从而考察该数量指标的分布情况。这时,指标值的全体对象是总体。每个指标值就是总体单元。总体总体指标值全指标值全集集指标指标随机变量随机变量总体可以用随机变量及其分布来表示,研究总体等价于研究表达总体的随机变量概率分布;在理论上可以把总体与概率分布等同起来,总体分布就是表达总体的随机变量的分布。例如:研究某批灯泡的寿命时,关心的指标是寿命,那么,该总体就可以用随机变量X和其概率分布表示。第5页,共46页,编辑于2022年,星期三总体总体特征数第6页,共46页,编辑于2022年,星期三样本与统计量样本与统计量一、样本样本样本(Sample)Def 按一定规则从总体中抽取一部分总体单元进行观测或试验,这一抽取过程称为“抽样”,所抽取的部分总体单元的整体称为总体的一个样本(子样)。样本中所包含的总体单元称为样本单元,样本中样本单元的数目称为样本容量。样本样本样本实现样本实现抽定抽定第7页,共46页,编辑于2022年,星期三样本样本应满足的性质(1)代表性;(2)随机性。简单随机样本简单随机样本(Independence identical distributionIndependence identical distributionIndependence identical distributionIndependence identical distribution)Def例如例如:要通过随机抽样了解一批产品的次品率,如果每次抽取一件产品观测后放回原来的总量中再抽第二件产品,则这样获得一个简单随机抽样。实际抽样中,往往是不再放回产品,则这不是一个简单随机抽样。但当总量N很大时,可近似看成可近似看成是简单随机抽样。样本样本分布Def第8页,共46页,编辑于2022年,星期三注意:注意:样本分布反映样本取不同实现的概率规律,其与总体分布相联系,一般求算比较麻烦,但对于iid样本有下列结果。总体、样本、样本实现的关系总体、样本、样本实现的关系总体总体样本实现样本实现样本样本推断推断第9页,共46页,编辑于2022年,星期三例例5.1第10页,共46页,编辑于2022年,星期三例例5.2第11页,共46页,编辑于2022年,星期三二、统计量样本样本(Statistic)例例5.3 设是从正态总体中抽取的一个样本,其中为已知参数,为未知参数,确定下列那些量是统计量第12页,共46页,编辑于2022年,星期三它反映了总体它反映了总体k 阶矩的信息阶矩的信息几个常用的统计量几个常用的统计量样本平均值样本平均值它反映了总体它反映了总体均值的信息均值的信息样本方差样本方差它反映了总体它反映了总体方差的信息方差的信息样本标准差样本标准差 样本样本k阶原点矩阶原点矩样本样本k阶中心矩阶中心矩第13页,共46页,编辑于2022年,星期三样本数据的整理与显示样本数据的整理与显示第14页,共46页,编辑于2022年,星期三例例5.4第15页,共46页,编辑于2022年,星期三数据整理数据整理:将数据分组:将数据分组 计算各组频数计算各组频数 作频率分布表作频率分布表 作频率直方图作频率直方图 为了研究随机现象,首要的工作是收集原始数据.一般通过抽样调查或试验得到的数据往往是杂乱无章的,需要通过整理后才能显示出它们的分布状况。数据的简单处理是以一种直观明了方式加工数据,它包括两个方面:数据整理;计算样本特征值。计算样本特征值:计算样本特征值:样本均值、样本方差等。样本均值、样本方差等。例例5.5 为对某小麦杂交组合F2代的株高X进行研究,抽取容量为100的样本,测试的原始数据记录如下(单位:厘米),试根据以上数据,画出它的频率直方图,并以此说明随机变量X的分布状况。第16页,共46页,编辑于2022年,星期三 87 88111 91 73 70 92 98105 94 99 91 98110 98 97 90 83 92 88 86 94102 99 89104 94 94 92 96 87 94 92 86102 88 75 90 90 80 84 91 82 94 99102 91 96 94 94 85 88 80 83 81 69 95 80 97 92 96109 91 80 80 94102 80 86 91 90 83 84 91 87 95 76 90 91 77103 89 88 85 95 92104 92 95 83 86 81 86 91 89 83 96 86 75 92 整理原始数据,加工为分组资料,作出频率分布表,画直方图,提取样本分布特征的信息。步骤如下:1.找数据最小值m=69,最大值M=111,极差为Mm=42;2.数据分组,根据样本容量n的大小,决定分组数k;3.确定组限和组中点值;4.将数据分组,计算出各组频数,作频数、频率分布表;第17页,共46页,编辑于2022年,星期三5.作出频率直方图。注意:分组的一般原则为 30n40 5k6 40n60 6k8 60n100 8k10 100n500 10k20 本例取k=9,一般采取等距分组(也可以不等距分组),组距等于比极差除以组数略大的测量单位的整数倍。本例测量单位为1厘米,组距为一般根据算式:各组中点值加减1/2组距=组的上限或下限,组的上限与下限应比数据多一位小数。本例取a=67.5,b=112.49(a略小于m,b略大于M,且a和b都比数据多一位小数),分组如下:第18页,共46页,编辑于2022年,星期三67.5,72.5)72.5,77.5)77.5,82.5)82.5,87.5)87.5,92.5)92.5,97.5)97.5,102.5)102.5,107.5)107.5,112.5)组中值分别为:70,75,80,85,90,95,100,105,110组序组序区间范围区间范围频数频数fj频率频率Wj=fj/n累计频率累计频率Fj167.5,72.5)20.020.02272.5,77.5)50.050.07377.5,82.5)100.100.17482.5,87.5)180.180.35587.5,92.5)300.30.65692.5,97.5)180.180.83797.5,12.5)100.10.938102.5,107.5)40.040.979107.5,112.5)30.031.00第19页,共46页,编辑于2022年,星期三以样本值为横坐标,频率/组距为纵坐标;以分组区间为底,以为高作频率直方图,如图所示。从频率直方图可看到:靠近两个极端的数据出现比较少,而中间附近的数据比较多,即中间大两头小的分布趋势(随机变量分布状况的最粗略的信息)。频率直方图中的小矩形的面积近似地反映了样本数据落在某个区间内的可能性大小,故它可近似描述X的分布状况。第20页,共46页,编辑于2022年,星期三 枝叶图枝叶图 将样本的实现数据的每个数据分为两部分,一部分作为枝枝,另一部分为叶,构成的图称为枝叶图。以例说明枝叶图的做法:例例5.6 64 67 70 72 74 76 76 79 80 81 82 82 83 85 86 88 91 91 92 93 93 93 95 95 95 97 97 99 100 100 102 104 106 106 107 108 108 112 112 114 116 118 119 119 122 123 125 126 128 133试作枝叶图 解:将数据的百位和十位作枝,个位作叶,用竖线将枝叶分开,形成图。47024668012235681123335667790024667882246899235683 6 7 8 910111213枝叶第21页,共46页,编辑于2022年,星期三 五数概括与箱线图五数概括与箱线图第22页,共46页,编辑于2022年,星期三第23页,共46页,编辑于2022年,星期三车辆重量(磅)车辆重量(磅)第24页,共46页,编辑于2022年,星期三第25页,共46页,编辑于2022年,星期三统计三大分布统计三大分布 分布这个分布是由Helmet于1875年提出,K.Pearson于1900年重新提出。理论推导可得概率密度函数为 第26页,共46页,编辑于2022年,星期三第27页,共46页,编辑于2022年,星期三其概率密度函数的图像如图所示(用中心极限定理证明)第28页,共46页,编辑于2022年,星期三t分布(学生氏t分布)这个分布是由W.S.Gosset于1908年提出,该分布的提出为小样本方法的建立奠定了概率基础。理论推导可得概率密度函数为第29页,共46页,编辑于2022年,星期三第30页,共46页,编辑于2022年,星期三F分布这个分布是由R.A.Fisher于1918年提出,该分布的提出为方差分析的建立奠定了概率基础。Snedcor于1934年给出概率密度函数。第31页,共46页,编辑于2022年,星期三第32页,共46页,编辑于2022年,星期三例例5.7第33页,共46页,编辑于2022年,星期三抽样分布抽样分布抽样分布抽样分布(Sampling Distribution)确定抽样分布是数理统计的有一个基本问题,确定相应统计量的分布是建立统计方法的基础。以统计量的精确为基础的统计方法称为小样本方法;而以统计量的极限分布为基础的统计方法称为大样本方法。第34页,共46页,编辑于2022年,星期三第35页,共46页,编辑于2022年,星期三第36页,共46页,编辑于2022年,星期三第37页,共46页,编辑于2022年,星期三第38页,共46页,编辑于2022年,星期三第39页,共46页,编辑于2022年,星期三第40页,共46页,编辑于2022年,星期三充分统计量充分统计量样本统计量加工信息样本分布统计量分布信息替代第41页,共46页,编辑于2022年,星期三充分统计量的概念充分统计量的概念第42页,共46页,编辑于2022年,星期三第43页,共46页,编辑于2022年,星期三第44页,共46页,编辑于2022年,星期三充分统计量的判定充分统计量的判定第45页,共46页,编辑于2022年,星期三第46页,共46页,编辑于2022年,星期三