2023年数理统计讲义.pdf
《2023年数理统计讲义.pdf》由会员分享,可在线阅读,更多相关《2023年数理统计讲义.pdf(65页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 数理记录教 案第一章记录量及其抽样分布第一节总体与样本教学目的:规定学生理解数理记录的两个基本概念:总体和样本,以及与这两个基本概念相关的记录基本思想和样本分布。教学重点:掌握数理记录的基本概念和基本思想.教学难点:掌握数理记录的基本概念和基本思想.一、总体与个体在一个记录问题中,我们把研究对象的全体称为总体,构成总体的每个成员称为个体。对多数实际问题。总体中的个体是一些实在的人或物。比如,我们要研究某大学的学生身高情况,则该大学的全体学生构成问题的总体,而每一个学生即是一个个体。事实上,每个学生有许多特性:性别、年龄、身高、体重、民族、籍贯等。而在该问题中,我们关心的只是该校学生的身高如何
2、,对其他的特性暂不予以考虑。这样,每个学生(个体)所具有的数量指标值身高就是个体,而将所有身高全体当作总体。这样一来,若抛开实际背景,总体就是一堆数,这堆数中有大有小,有的出现的机会多,有的出现的机会少,因此用一个概率分布去描述和归纳总体是恰当的。从这个意义上看,总体就是一个分布,而其数量指标就是服从这个分布的随机变量。以后说“从总体中抽样 与 从某分布中抽样 是同一个意思。例 1.考察某厂的产品质量,将其产品只分为合格品与不合格品,并以0 记合格品,以 1记不合格品,则总体=该厂生产的所有合格品与不合格品 =由0 或 1组成的一堆数。若以P表达这堆数中1的比例(不合格品率),则该总体可由一个
3、二点分布表达:X0 1p p p不同的p反映了总体间的差异。例如,两个生产同类产品的工厂的产品总体分布为:X 0 1T 0.983 0.017X 0 1P 0.915 0.085我们可以看到,第一个工厂的产品质量优于第二个工厂。实际中,分布中的不合格品率是未知的,如何对之进行估计是记录学要研究的问题。二、样本为了了解总体的分布,我们从总体中随机地抽取n个个体,记其指标值为x i,X 2,,X n,则XI,X 2,,Xn称为总体的一个样本,n称为样本容量,或简称样本量,样本中的个体称为样品。我们一方面指出,样本具有所谓的二重性:一方面,由于样本是从总体中随机抽取的,抽取前无法预知它们的数值,因此
4、,样本是随机变量,用大写字母X l,X2,Xn表达;另一方面,样本在抽取以后经观测就有拟定的观测值,因此,样本又是一组数值。此时用小写字母XI,X 2,,Xn表达是恰当的。简朴起见,无论是样本还是其观测值,本书中样本一般均用XI,X 2,,Xn表达,读者应能从上下文中加以区别。例 2.啤酒厂生产的瓶装啤酒规定净含量为6 4 0 g,由于随机性,事实上不也许使得所有的啤酒净含量均为640g,现从某厂生产的啤酒中随机抽取10瓶测定其净含量,得到如下结果:641 635 640 637 642 638 645 643 639 640这是一个容量为10的样本的观测值。相应的总体为该厂生产的瓶装啤酒的净
5、含量。从总体中抽取样本时,为使样本具有代表性,抽样必须是随机抽样。通常可以用随机数表来实现随机抽样。还规定抽样必须是独立的,即每次的结果互不影响。在概率论中,在有限总体(只有有限个个体的总体)中进行有放回抽样,是独立的随机抽样;然而,若为不放回抽样,则是不独立的抽样。但当总体容量N很大但样本容量n较小(而 脸 时,不放回抽样可以近似地看做放回抽样,即可近似看做独立随机抽样。下面,我们假定抽样方式总满足独立随机抽样的条件。从总体中抽取样本可以有不同的抽法,为了能由样本对总体做出较可靠的推断,就希望样本能很好地代表总体。这就需要对抽样方法提出一些规定,最常用的“简朴随机抽样 有如下两个规定:(1)
6、样本具有随机性,即规定总体中每一个个体都有同等机会被选入样本,这便意味着每同样品x i与总体X有相同的分布。(2)样本要有独立性,即规定样本中每同样品的取值不影响其他样品的取值,这意味着Xl,X2,Xn互相独立。用简朴随机抽样方法得到的样本称为简朴随机样本,也简称样本。除非特别指明,本书中的样本皆为简朴随机样本。于是,样本X”.Xn可以当作是互相独立的具有同一分布的随机变量,其共同分布即为总体分布。设总体X具有分布函数F(X),X”X 2,,Xn为取自该总体的容量为n的样本,则样本联合分布函数为:歹(看,移,)=口 歹 =歹(为)歹)尸日)若总体具有密度 函数f(X),则样本的联合密度函数为/
7、(为,=口 /)=/Wf&)若总体X为离背前随机变量,则样本的(联合)概率函数为汉瓦,瓦,&)=n p =舄 =P(X=X 1)P(X=电)P(X=&)显然,通常说的蔚:分布是指多维随机变量(X”X 2,,Xn)的联合分布。例3.为估计一物件的重量中用一架天平反复测量n次,得样本XI,X 2,,X n,由于是独立反复测量,XI,X 2,,Xn是简朴随机样本。总体的分布即X I的分布(XI,X 2,,Xn分布相同)。由于称量误差是均值(盼望)为零的正态变量,所以X I可认为服从正态分布N,o2)(X i等于物件重量M加上称量误差,即X I的概率密度为这样,样本分布密度为X 1 1 X卬F 口加皿
8、一天力例4.设某种电灯泡的寿命X服从指数分布E(入),其概率密度为:m)=已 为 ;0,xo(j=1,2,0,其他.例5.考虑电话互换台一小时内的呼唤次数X。求来自这一总体的简朴随机样本Xl,X2,Xn的样本分布。解 由概率论知识,X服从泊松分布P(入),其概率函数Px(x)=P X=才 =-eA(A 0)rl,(其中x是非负整数 0,1,2,k,中的一个)。从而,简朴随机样本Xl,X2,Xn的样本分布为:,%,、)=广 丫(%)户*(0);=p(X =x M X =4)P(=r j的+登+”_ 0-也卒 引!H不/I I第二节记录量及其分布教学目的:规定学生理解数理记录的基本概念:记录量,纯
9、熟掌握样本均值、样本方差、样本原点矩、样本中心矩等常用记录量的计算公式,掌握顺序记录量及其抽样分布。能用R软件来计算这些常用记录量,能用R软件来产生分布的随机数以进行随机模拟。教学重点:样本均值、样本方差、样本原点矩、样本中心矩等常用记录量的求法;顺序记录量的抽样分布。教学难点:顺序记录量的抽样分布。一、记录量与抽样分布样本来自总体,样本的观测值中具有总体各方面的信息,但这些信息较为分散,有时显得杂乱无章。为将这些分散在样本中有关总体的信息集中起来以反映总体的各种特性,需要对样本进行加工。最常用的加工方法是构造样本的函数,不同的函数反映总体的不同特性。定义1.设X”X 2,,Xn为取自某总体的
10、样本,若样本函数T =T(XI,X 2,,x)中不具有任何未知参数,则称T为记录量。记录量的分布称为抽样分布。按照这一定义,若XI,X 2,,Xn为样本,则 ,W都是记录量,而当中为-)2 三,未知时,等均不是记录量。二、样本均值及其抽样分布定义2.设XI,X 2,,Xn为取自某总体的样本,其算术平均值称为样本均值,一般用F表达,即 阀 例6.某单位收集到2 0名青年人某月的娱乐支出费用数据:79 84 84 88 92 93 94 97 98 99100 101 101 102 102 108 110 113 118 125则该月这20名青年的平均娱乐支出为X=J-(79+84+-+1 2
11、5)=99.4对于样本均值F 的抽样分布,我们有下面的定理。定理L 设 X I,X 2,,X n 是来自某个总体X的样本,为样本均值。(1)若总体分布为N (M,o2),则f 的精确分布为 如方);(2)若总体X分布未知(或不是正态分布),且 E (X)=四,D (X)=,则当样本容量n较大时,的渐近分布为 W 盟4这里的渐近分布是指n较大时的近似分布。证明(1)由于F 为独立正态变量线性组合,故工仍服从正态分布。此外,_ 1 XE(x)=一Z (为)=一%=竭=4融)名 工献占 n1 n故x-jVCu,)n(2)x=易知 为独立、同分布的随机变量之和,且(x)=p,D(x)=放O由中心极限定
12、理,lim P x 仪 -1 -1 闷)-1 9-1事实上,_ _ _2 _2Z&-加=Z W -2硒+x)=-2 0 Xi+nxi-1 i-1 7-1 5-1=Z N 一 2肪(Z)+咒彳=-咒xi-1 加 L1 5-1,偏差平方和的这3个表达式都可用来计算样本方差。例7.在例6中,我们已经算得7=。4,其样本方差与样本标准差为s2=7J-_(79-9 9.4)2+(84-9 9.4)2+(125-9 9.4)2 =13 3.936 85=7133.9368=1 1.573 L方法二-y(7 92+842+.+1 252)-2 0X 99.421=133,9368.,.s=ll.57 31通
13、常用第二种方法计算s2方便许多。下面的定理给出样本均值的数学盼望和方差以及样本方差的数学盼望,它不依赖于总体的分布形式。这些结果在后面的讨论中是有用的。定理2.设总体X具有二阶矩,即E(x)=p,D(X)=o2(%)=+n,于是(Z(不一 I?)斗 3 +)一 双皿+)=(-i)o-2a两边各除以n-l,即得证。值得读者注意的是:本定理的结论与总体服从什么分布无关。四、样本矩及其函数样本均值和样本方差的更一般的推广是样本矩,这是一类常见的记录量。定义4.设X l,X 2,X n是样本,则记录量=(%*+K +.+#)称为样本k阶原点矩,特别地,样本一阶原点矩就是样本均值。记录量1 _尻=-(舄
14、-X)称为样本k阶中心矩。常见的是k=2的场合,此时称为二阶样本中心矩。本书中我们将其记为s F以区别样本方差S 2。1 _S;=&-X)五、极大顺序记录量和极小顺序记录量定义5.设总体X具有分布函数F(X),分布密度f(X),X I,X 2,,X n为其样本,我们分别称X u =m i n x i,x 2,.x n ,x g=m a x x i,x 2,.x n 为极小顺序记录量和极大顺序记录量。定理3.若X,X(n)分别为极小、极大顺序记录量,则(1)x的分布函数 F i(x l-(1-F (x)n,x(1)的分布密度 f i(x)=n-(l-F(x)n-f(x)(2)X 的分布函数 F
15、n(X)=F(X)F,x(n)的分布密度 f n(X)=n F(X)n lf(X)证明先求出X 及X 的分布函数Fl(X)及Fn(X):月(力=P 稳 x)=1 -P X i x,X2 z)=1-口 尸 侬 吊=1-(1-9(独居(%)=X)=P(X.X,-,JQ%)=H P(X i S x =(9(x)yz,分别对F l (x),F (x)求导即得水x)=耳(加=-(1-9 )1(1 -网项=峭-网x)”(x)f,=城歹厂】歹 =城歹厂】y(x)六、正态总体的抽样分布有很多记录推断是基于正态总体的假设的,以标准正态变量为基石而构造的三个著名记录量(其抽样分布分别为x 2分布,t分布和F分布)
16、在实践中有着广泛的应用。这是由于这三个记录量不仅有明确背景,并且其抽样分布的密度函数有“明确的表达式“,它们被称为记录中的“三大抽样分布1.X?分布(卡方分布)定义6.设X l,X2,,X n独立同分布于标准正态分布N (0,1),则 x2=xF+X?的分布称为自由度为n 的(分布,记为x?x?(n)。x2(n)分布的密度函数见图14当随机变量x2 x2(n)时,对给定的a(0axa2(n)=a的 x j(n)是自由度为n 的开方分布的a 分位数。分位数xa2(n)可以从附表4 中查到。例如n=10,a=0.05,那么从附表4 中查得x2(l0)=18.307p(x)2x2o,o5(10)=p
17、 x2 18.307=0.05注:请读者注意x2 x2(n)时,n 是自由度,不是容量。2.F分布尸=看 包定义7.设xi x2(m),X2 x2(n)Xi与 X2独立,则称恐力的分布是自由度为 m 与 n 的 F 分布,记为F F(m,n),其中m 称为分子自由度,n 称为分母自由度。自由度为m 与 n 的 F 分布的密度函数的图像是一个只取非负值的偏态分布(见图 6-5)。Offie-s F分布的密度函数当随机变量F F(m,n)时,对给定的a(0 a F(m,n)=a 的数Fa(m,n)是自由度为m 与 n 的 F 分布的a 分位数。当 F F(m,n)时,有下面性质(不证)*、FW-=
18、1 -a小 威).这说明对小的a,分位为Fa(m,n)可以从附表5 中查到,而分位数F r(m,n)则可通过上式得到。例 8.若取m=10,则 n=5,a=0.05,那么从附表5 上(m=m,n=n2)查得FO.O5(10,5)=4.74运 用(6.3.8)式可得到/Q/1 0,5)上=4=0.30.95 坨 一 0求5,10;3.333.t分布定义8.设随机变量与X i与 X2独立且Xi N(0,1),X2 X2(n),则称XX Jn的分布为自由度为n 的 t 的分布,记为t t(n).t 分布密度函数的图像是一个关于纵轴对称的分布(如下图),与标准正态分布的密度函数形态类似,只是峰比标准正
19、态分布低一些,尾部的概率比标准正态分布的大一些。t分 布 与N(0,1)的密度函数当随机变量t t(n)时,称 满 足Ptta(n)=a的L(n)是自由度为n的t分 布 的a分位数,分 位 数L(n)可 以 从 附 表3中查到,例 如 当n=10,a=0.05时,从附 表3上查得to.O5(10)=1.8125由 于t分布的密度函数关于0对 称,故其分位数有如下关系:tl-a(n)=-ta(n)例如,to.95(10)=-t0.05(10)=-1.8125P(t-ta)=l-a,p(t tl-a)=l-a,A t l-a-t a4.一些重要结论来自一般正态总体的样本均值和样本方差S2的抽样分布
20、是应用最广的抽样分布,下面我们加以介绍。定理4.设Xi,X2,.Xn是来自正态总体N(g,a2)的样本,其样本均值和样本方差分别为:_ I X 1 一,x=一工不和-=a -x),n 2-1 起 一1 2-1则有(1)f与S2互相独立;(2)4aS(4*=审4 F(7 T 特别,若 s(不证)推论:设,,尸莅二 并记 X(d+c$匕a 一婷+小/S、-加+%2 冽+%2则t=-(-X-V-)一(,巧 一.“,幽,+,/2C).、“4 k履(不证)本章小结本章的基本规定:(-)知道总体、样本、简朴样本和记录量的概念(二)知道记录量I和S2的下列性质:E(x)=_/nE(s2)=o2(三)若X的分
21、布函数为F(X),分布函数为f(X),则样本(Xl,X2,X n)的联合分布函数为F(X1)F(X2).F (x n)样 本(X l,X 2,.X n)的联合分布密度为f(XI)f(X2).f (X n),样本(X l,X 2,.X n)的概率函数,p(X I,X 2.Xn)=p (X=X|)p(X=X 2)p(X=X n)因而顺序记录量X,.X 中X 1()的分布函数为1-(1-F(X)nX 的分布函数为 F(X)n(四)掌握正态总体的抽样分布若XN,o2)则有一、x 凶3)1 )n=歆 0,1)=正 戈 近 折1)(4)若 石 曾(外,才),也 阳 历&)尸=审4 旧(为一1,药_ 1)=
22、5/,(五)知道样本原点矩与样本中心矩的概念第二章参数估计从本章开始我们介绍记录推断,所谓记录推断就是由样本推断总体,记录推断涉及参数估计和假设检查两部分,它们是记录推断最基本并且是互相有联系的两部分,本章介绍记录推断的第一部分参数估计。参数通常指总体分布中的特性值以和/和各种分布中的参数,例如二点分布B(1,P)中的p,泊松分布P(2)中的人正态分布N (屈、)的屈、/等,习惯用。表达参数,通常参数。是未知的。参数估计的形式有两类,设Xl,X2,.,Xn是来自总体的样本。我们用一个记录量次小,一%)的取值作为参数。的估计值,则 称为0的 点 估 计(量),就是参数,的点估计,假如对参数Q 的
23、估计需要对估计作出可靠性判断,就需要对这一可靠性给出可靠性区间或置信区间,叫区间估计。下面一方面介绍点估计第 一 节 点 估 计教学目的:规定学生了解参数点估计的基本思想,理解参数点估计的基本概念,纯熟运用替换原理、矩法估计和最大似然估计对参数进行估计。教学重点:矩法估计、最大似然估计.教学难点:运用矩法估计、最大似然估计对参数进行估计.直接用来估计未知参数。的记录量3=4小,工)称为参数#的点估计量,简称为点估计,人们可以运用各种方法构造出很多。的估计,本节介绍两种最常用的点估计方法。它们是:矩法和极大似然法。一、替换原理和矩法估计用下面公式表达力的方法叫矩法忘=X女 x)=s/=(#一物a
24、-守J.I例1.对某型号的2 0辆 汽车记录每5 L汽 油 的 行 驶 里 程(k m),观测数据如下:2 9.8 2 7.6 2 8.3 2 7.9 3 0.1 2 8.7 2 9.9 2 8.0 2 7.9 2 8.72 8.4 2 7.2 2 9.5 2 8.5 2 8.0 3 0.0 2 9.1 2 9.8 2 9.6 2 6.9这是一个容量为2 0的样本观测值,相应总体是该型号汽车每5 L汽油的行驶里程,其分布形式尚不清楚,可用矩法估计其均值,方 差,本例中经计算有7=2 8.6 9 5,=0.9 1 8 5由此给出总体均值,方 差 的 估 计 分 别 为 即 就=2 8.6 9 5
25、,陵=s:=0.9 1 8 5矩 法 估 计 的 记 录 思 想(替 换 原 理)十 分 简 朴 明 确,众人都能接受,使用场合甚广。例2.设总体为指数分布,其密度函数为加工用=,巴 工 0 x i,.,x n是样本,由于以*)=;,亦即“=瓦 方,故7的矩法估计为;1 1A=r-=EX X例3.设XI,Xn是 来 自 服 从 区 间(0,4)上的均匀分布“(0,0的样本,4 0为未知参数。求的矩估计各。解:易 知 总 体X的均值为 Z=;(a +3)=;(0+3)2EX7.由矩法。的矩估计为#=黄=2斤比如,若样本值为0.1,0.7,0.2,1,1.9,1.3,1.8,则方的估计值f f=2
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2023 数理统计 讲义
限制150内