《第五章数理统计精选文档.ppt》由会员分享,可在线阅读,更多相关《第五章数理统计精选文档.ppt(51页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第五章数理统计本讲稿第一页,共五十一页 概率统计教研室 2012第第5章章 数理统计的基本概念数理统计的基本概念总体、样本、统计量抽样分布本讲稿第二页,共五十一页数理统计数理统计一、数理统计及其任务 数理统计数理统计是一门以概率论为基础的应用学科。它是研究如何有效地收集、整理、分析带有随机性的数据,以便对所考察的问题作出推断和预测,从而为决策提供依据。数据的随机性来源有二:一是由于种种原因(如所涉及的研究对象数量很大),人们不可能对其全部进行研究,而只能以一定方式挑选其中一部分考察,这一部分的挑选就必然带有随机性;二是试验的随机误差,这是指试验中无法控制或未加控制,甚至不了解的因素引起的误差。
2、数理统计的任务就是研究有效地收集数据,科学地整理与分析所获得的有限的资料,对所研究的问题,尽可能地作出精确而可靠的结论。有效地收集数据有两方面的含义:一是可以建立一个数学上可处理并尽可能简单方便的模型来描述所得到的数据;二是要收集包含尽可能多的与所研究的问题有关的信息。本讲稿第三页,共五十一页 数理统计研究问题的方式,不是对所研究对象的全体(称为总体)进行观察,而是抽取其中的部分(称为样本)进行观察获得数据(抽样),并通过这些数据对总体进行推断。数理统计方法具有数理统计方法具有“部分推断整体部分推断整体”的特征。的特征。二、数理统计研究问题的一般流程分析问题分析问题确定总体确定总体收集收集数据
3、数据试验设计试验设计抽样抽样数据整数据整理理统计推断统计推断参数估计参数估计假设检验假设检验我们这门课所学的数理我们这门课所学的数理统计实际上是统计推断统计实际上是统计推断及其应用(方差分析与及其应用(方差分析与回归分析)的一部分内回归分析)的一部分内容。容。本讲稿第四页,共五十一页 为什么要用数理统计方法研究问题?随机现象有它的规律性,随机现象的特点注定了进行足够多次观察,其规律性才能清楚地呈现出来。但是,客观上只允许对随机现象进行有限次观察试验,只能获得局部观察资料.三、概率论与数理统计的区别与联系1、概率论与数理统计的联系2、概率论与数理统计的区别 主要体现在研究方法的差别上:概率论是在
4、已知随机变量服从某种分布(概率函数、概率密度、分布函数)的情况下,研究随机变量分布的性质,数字特征和它的应用。例如:已知随机变量的概率密度求它的分布函数、数学期望、方差;已知随机变量的分布求其函数的分布等,而数理统计则是通过对样本数据的统计分析,从中得到能够描述研究对象的某个随机变量的具体分布和数字特征,以此推断对象整体所具有的规律。前者用的是演绎法,后者用的是归纳法。都以随机现象为对象,研究其统计规律性。本讲稿第五页,共五十一页总体总体 (Population)在数理统计中,把研究对象的全体称为总体(母体);组成总体的每个单元称为个体;描述总体单元在某方面特性的名称或记号称为总体指标;每个总
5、体单元对总体指标的响应称为指标值;总体中所包含的个体的个数称为总体的容量。5.1 5.1 总体、样本、统计量总体、样本、统计量总体与总体特征数总体与总体特征数总体指标数量指标属性指标总体有限总体无限总体1.基本定义 概率统计教研室 2012本讲稿第六页,共五十一页个体总体研究大气中的悬浮颗粒的大小 总体总体 (Population)2.举例考察某大学一年级学生的年龄个体总体 概率统计教研室 2012本讲稿第七页,共五十一页总体指标值全集指标随机变量 总体可以用随机变量及其分布来表示,研究总体等价于研究表达总体的随机变量概率分布;在理论上可以把总体与概率分布等同起来,总体分布就是表达总体的随机变
6、量的分布。总体总体 (Population)3.总体与随机变量的关系 概率统计教研室 2012本讲稿第八页,共五十一页总体总体 (Population)设某大学一年级学生的年龄分布如右表 年龄 18 19 20 21 22比例 0.5 0.3 0.1 0.07 0.03 若从该大学一年级学生中任意抽查一个学生的年龄,所得结果为一随机变量,记作XX的概率分布是:可见,X的概率分布反映了总体中各个值的分布情况.很自然地,我们就用随机变量X来表示所考察的总体.也就是说,总体可以用一个随机变量及其分布来描述总体可以用一个随机变量及其分布来描述.3.总体与随机变量的关系 概率统计教研室 2012本讲稿第
7、九页,共五十一页总体总体特征数总体方差总体均值1.基本概念 概率统计教研室 2012本讲稿第十页,共五十一页总体频率 概率统计教研室 2012本讲稿第十一页,共五十一页总体方差如果总体为无限总体,则其对应的总体特征数如下总体均值 概率统计教研室 2012本讲稿第十二页,共五十一页样本样本 (Sample)样本与样本的数字特征样本与样本的数字特征1.基本定义 按一定规则从总体中抽取一部分总体单元进行观测或试验,这一抽取过程称为“抽样”;所抽取的部分总体单元的整体称为总体的一个样本(子样);样本中所包含的总体单元称为样本单元;样本中样本单元的数目称为样本容量。抽定 概率统计教研室 2012本讲稿第
8、十三页,共五十一页2.样本应满足的性质 (1)代表性;(2)随机性。简单随机样本样本1.简单随机样本(Independence identical distributionIndependence identical distribution)2.生产实践中获得简单随机样本的方法(1)有放回抽样;(3)总体容量很大时无放回抽样可近似看成随机抽样(2)农业调研-对角线抽样;概率统计教研室 2012本讲稿第十四页,共五十一页3.样本分布注意:样本分布反映样本取不同实现的概率规律,其与总体分布相联系,一般求算比较麻烦,但对于简单随机样本有下列结果。概率统计教研室 2012本讲稿第十五页,共五十一页
9、概率统计教研室 2012本讲稿第十六页,共五十一页总体样本实现样本推断4.总体、样本、样本实现的关系 概率统计教研室 2012本讲稿第十七页,共五十一页 概率统计教研室 2012本讲稿第十八页,共五十一页 概率统计教研室 2012本讲稿第十九页,共五十一页统计量统计量(Statistic)统计量的基本概念 概率统计教研室 2012本讲稿第二十页,共五十一页 概率统计教研室 2012本讲稿第二十一页,共五十一页几个常用的统计量样本平均值它反映了总体均值的信息样本方差它反映了总体方差的信息样本标准差 1.均值、方差、矩 概率统计教研室 2012本讲稿第二十二页,共五十一页公式推导公式推导 概率统计
10、教研室 2012本讲稿第二十三页,共五十一页它反映了总体k 阶中心矩的信息样本k阶原点矩样本k阶中心矩它反映了总体k 阶原点矩的信息 概率统计教研室 2012本讲稿第二十四页,共五十一页 概率统计教研室 20122.次序统计量样本中位数定义定义5.1.7 设的依次序排列成,则称为样本的第统计统计量量,特别,称为最小次序最小次序统计统计量量,为最大次序最大次序统统。为样本,把样本按其实现由小到大个次序次序计量计量.本讲稿第二十五页,共五十一页 概率统计教研室 2012样本极值样本极差和 样本极值在某些关于灾害性现象与材料实验结果的统计分析中有用。如一定时期内一条河的最大流量、地震的最大震级、材料
11、断裂强度、苗木受冻害的最低温度等,都是极值性的量。在数理统计中有一个叫极值统计分析的专题处理这类问题,也可视为顺序统计量的统计分析的一部分。和 分别称为样本的最大值和最小值.极差可用以估计总体分布的数量变动的最大范围。本讲稿第二十六页,共五十一页四、样本的频率分布与直方图四、样本的频率分布与直方图 由样本可以推断总体,其直观想法是:样本来自总体,自然带有总体的信息,从这些信息出发研究总体,总有可能得到总体的某些真实性质。其次,由样本研究总体,可以节省人力物力等。由样本研究总体的可行性还可以从理论上得到证实。1.经验分布函数本讲稿第二十七页,共五十一页例例5.45.4本讲稿第二十八页,共五十一页
12、数据整理数据整理:将数据分组:将数据分组 计算各组频数计算各组频数 作频率分布表作频率分布表 作频率直方图作频率直方图 为了研究随机现象,首要的工作是收集原始数据.一般通过抽样调查或试验得到的数据往往是杂乱无章的,需要通过整理后才能显示出它们的分布状况。数据的简单处理是以一种直观明了方式加工数据,它包括两个方面:数据整理;计算样本特征值。计算样本特征值:计算样本特征值:样本均值、样本方差等。样本均值、样本方差等。例例5.5 5.5 为对某小麦杂交组合F2代的株高X进行研究,抽取容量为100的样本,测试的原始数据记录如下(单位:厘米),试根据以上数据,画出它的频率直方图,并以此说明随机变量X的分
13、布状况。2.样本频率分布表与直方图 本讲稿第二十九页,共五十一页 87 88111 91 73 70 92 98105 94 99 91 98110 98 97 90 83 92 88 86 94102 99 89104 94 94 92 96 87 94 92 86102 88 75 90 90 80 84 91 82 94 99102 91 96 94 94 85 88 80 83 81 69 95 80 97 92 96109 91 80 80 94102 80 86 91 90 83 84 91 87 95 76 90 91 77103 89 88 85 95 92104 92 95
14、83 86 81 86 91 89 83 96 86 75 92 整理原始数据,加工为分组资料,作出频率分布表,画直方图,提取样本分布特征的信息。步骤如下:(1).找数据最小值m=69,最大值M=111,极差为Mm=42;(2).数据分组,根据样本容量n的大小,决定分组数k;(3).确定组限和组中点值;(4).将数据分组,计算出各组频数,作频数、频率分布表;本讲稿第三十页,共五十一页(5).作出频率直方图。注意:分组的一般原则为 30n40 5k6 40n60 6k8 60n100 8k10 100n500 10k20 本例取k=9,一般采取等距分组(也可以不等距分组),组距等于比极差除以组数
15、略大的测量单位的整数倍。本例测量单位为1厘米,组距为一般根据算式:各组中点值加减1/2组距=组的上限或下限,组的上限与下限应比数据多一位小数。本例取a=67.5,b=112.49(a略小于m,b略大于M,且a和b都比数据多一位小数),分组如下:本讲稿第三十一页,共五十一页67.5,72.5)72.5,77.5)77.5,82.5)82.5,87.5)87.5,92.5)92.5,97.5)97.5,102.5)102.5,107.5)107.5,112.5)组中值分别为:70,75,80,85,90,95,100,105,110组序组序区间范围区间范围频数频数f fj j频率频率W Wj j=
16、f=fj j/n/n累计频率累计频率F Fj j167.5,72.5)20.020.02272.5,77.5)50.050.07377.5,82.5)100.100.17482.5,87.5)180.180.35587.5,92.5)300.30.65692.5,97.5)180.180.83797.5,12.5)100.10.938102.5,107.5)40.040.979107.5,112.5)30.031.00本讲稿第三十二页,共五十一页以样本值为横坐标,频率/组距为纵坐标;以分组区间为底,以为高作频率直方图,如图所示。从频率直方图可看到:靠近两个极端的数据出现比较少,而中间附近的数据
17、比较多,即中间大两头小的分布趋势(随机变量分布状况的最粗略的信息)。频率直方图中的小矩形的面积近似地反映了样本数据落在某个区间内的可能性大小,故它可近似描述X的分布状况。本讲稿第三十三页,共五十一页 1.1.枝叶图枝叶图(茎叶图)茎叶图)将样本的实现数据的每个数据分为两部分,一部分作为枝枝,另一部分为叶,构成的图称为枝叶图。以例说明枝叶图的做法:例例5.65.6 64 67 70 72 74 76 76 79 80 81 82 82 83 85 86 88 91 91 92 93 93 93 95 95 95 97 97 99 100 100 102 104 106 106 107 108 1
18、08 112 112 114 116 118 119 119 122 123 125 126 128 133试作枝叶图 解:将数据的百位和十位作枝,个位作叶,用竖线将枝叶分开,形成图。47024668012235681123335667790024667882246899235683 6 7 8 910111213枝叶五.其他描述样本特征的图本讲稿第三十四页,共五十一页 2.2.五数概括与箱线图五数概括与箱线图本讲稿第三十五页,共五十一页本讲稿第三十六页,共五十一页车辆重量(磅)车辆重量(磅)本讲稿第三十七页,共五十一页本讲稿第三十八页,共五十一页5.2 5.2 抽样分布抽样分布正态总体的抽样
19、分布正态总体的抽样分布重要定理及推论2.一个重要定理1.基本概念统计量的分布称为抽样分布;概率统计教研室 2012本讲稿第三十九页,共五十一页 概率统计教研室 2012本讲稿第四十页,共五十一页3.三个重要推论 概率统计教研室 2012本讲稿第四十一页,共五十一页推论1:概率统计教研室 2012本讲稿第四十二页,共五十一页 概率统计教研室 2012本讲稿第四十三页,共五十一页证明:推论2:概率统计教研室 2012本讲稿第四十四页,共五十一页 概率统计教研室 2012本讲稿第四十五页,共五十一页 概率统计教研室 2012证明:又因为本讲稿第四十六页,共五十一页 概率统计教研室 2012本讲稿第四十七页,共五十一页非正态总体的抽样分布非正态总体的抽样分布两个重要的渐近分布1.样本均值的渐近分布 概率统计教研室 2012本讲稿第四十八页,共五十一页 概率统计教研室 20122.0-1总体样本频率的渐近分布证明:本讲稿第四十九页,共五十一页由正态分布的性质可得 概率统计教研室 2012本讲稿第五十页,共五十一页作业:P160 习题4:2.6.8.(印刷错误!)10.12.13.本讲稿第五十一页,共五十一页
限制150内