《第六章三常用连续型随机变量的理论分布精选文档.ppt》由会员分享,可在线阅读,更多相关《第六章三常用连续型随机变量的理论分布精选文档.ppt(79页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第六章三常用连续型随机变量的理论分布本讲稿第一页,共七十九页一、正态分布正态分布是最重要的概率分布。因为正态分布是最重要的概率分布。因为:第一,许多自然现象与社会现象,都可用正第一,许多自然现象与社会现象,都可用正态分布加以叙述;态分布加以叙述;第二第二,许多概率分布以正态分布为其极限;许多概率分布以正态分布为其极限;第三,许多统计量的抽样分布呈现正态分布。第三,许多统计量的抽样分布呈现正态分布。因此,许多统计分析方法都是以正态分布为因此,许多统计分析方法都是以正态分布为基础的。基础的。本讲稿第二页,共七十九页(一)正态分布的概率函数若连续型随机变量若连续型随机变量x的概率分布密度函的概率分布
2、密度函数为数为 其中其中为平均数,为平均数,2为方差,则称随机为方差,则称随机变量变量x服从正态分布服从正态分布(normal distribztion),记为,记为xN(,2)。相应的。相应的概率分布函数为概率分布函数为 本讲稿第三页,共七十九页分布密度曲线99.74%68.26%95.46%本讲稿第四页,共七十九页(二)正态分布的特征1.正态分布密度曲线是单峰、对称的悬正态分布密度曲线是单峰、对称的悬钟形曲线,对称轴为钟形曲线,对称轴为x=;2.f(x)在在x=处达到极大,极大值处达到极大,极大值 ;3.f(x)是非负函数,以是非负函数,以x轴为渐近线,轴为渐近线,分布从分布从-至至+;本
3、讲稿第五页,共七十九页4.曲线在曲线在x=处各有一个拐点,即曲线在处各有一个拐点,即曲线在(-,-)和和(+,+)区间上是下凸的,在区间上是下凸的,在-,+区间内是上凸的;区间内是上凸的;5.正态分布有平均数正态分布有平均数和标准差和标准差两个参数。两个参数。是位置参数,是位置参数,是变异度参数。是变异度参数。本讲稿第六页,共七十九页图图1 标准差相同标准差相同(1)而平均数不同而平均数不同(=0、=1、=2)的三个正态分布曲线的三个正态分布曲线 图图2 平均数相同平均数相同(0)而标准差不同而标准差不同(=1、=1.5、=2)的三个正态分布曲线的三个正态分布曲线 本讲稿第七页,共七十九页6.
4、分布密度曲线与横轴所夹面积为分布密度曲线与横轴所夹面积为1,即:,即:本讲稿第八页,共七十九页正态分布是依赖于参数正态分布是依赖于参数和和的一簇分布。的一簇分布。将一般的将一般的N(,2)转换为转换为=0,2=1的的正态分布,应用就方便了。正态分布,应用就方便了。称称=0,2=1的正态分布为标准正态分的正态分布为标准正态分布布(standard normal distribztion)。(三)标准正态分布本讲稿第九页,共七十九页标准正态分布的概率密度函数及分布函数标准正态分布的概率密度函数及分布函数分别记作分别记作(z)和和(z),得:,得:随机变量随机变量z服从标准正态分布,记作服从标准正态
5、分布,记作zN(0,1)。2221)(zez-=pjdzezzz-=22121)(pf本讲稿第十页,共七十九页对于任何一个服从正态分布对于任何一个服从正态分布N(,2)的随的随机变量机变量x,都可以通过标准化变换:,都可以通过标准化变换:z=(x-)将其变换为服从标准正态分布的随机变将其变换为服从标准正态分布的随机变量量z。z称为标准正态变量或标准正态离称为标准正态变量或标准正态离差差(standard normal deviate)。本讲稿第十一页,共七十九页(四)正态分布的概率计算标准正态分布的概率计算标准正态分布的概率计算 设设z服从标准正态分布,则服从标准正态分布,则z在在z1,z2)
6、何)何内取值的概率为:内取值的概率为:(z2)(z1)而而(z1)与与(z2)可由附表查得。可由附表查得。dzedzedzezzzPzzzzzzz -30就可以应用这一定理。就可以应用这一定理。平均数的标准化分布是将上述平均数平均数的标准化分布是将上述平均数 转换为转换为z变数。变数。xxnxxzxsmsm)()(-=-=本讲稿第四十七页,共七十九页、标准误标准误标准误(平均数抽样总体的标准差平均数抽样总体的标准差)的的大小反映样本平均数大小反映样本平均数 的抽样误差的大小的抽样误差的大小,即精确性的高低。标准误大,说明各样,即精确性的高低。标准误大,说明各样本平均数本平均数 间差异程度大,样
7、本平均数的间差异程度大,样本平均数的精确性低。反之,精确性低。反之,小,样本平均数的精小,样本平均数的精确性高。确性高。的大小与原总体的标准差的大小与原总体的标准差成成正比,与样本含量正比,与样本含量n的平方根成反比。从某的平方根成反比。从某特定总体抽样,因为特定总体抽样,因为是一常数,所以只有是一常数,所以只有增大样本含量才能降低样本平均数增大样本含量才能降低样本平均数 的抽样的抽样误差。误差。本讲稿第四十八页,共七十九页在实际工作中,总体标准差在实际工作中,总体标准差往往是未往往是未知的,因而无法求得知的,因而无法求得 。此时,可用。此时,可用样本标准差样本标准差S估计估计。于是,以。于是
8、,以 估计估计 。记。记 为为 ,称作样本标准误或均称作样本标准误或均数标准误。样本标准误数标准误。样本标准误 是平均数抽样是平均数抽样误差的估计值。若样本中各观测值为误差的估计值。若样本中各观测值为 x1、x2、xn,则,则本讲稿第四十九页,共七十九页注意:样本标准差与样本标准误是既有注意:样本标准差与样本标准误是既有联系又有区别的两个统计量。联系又有区别的两个统计量。二者的区别是样本标准差二者的区别是样本标准差S是反映样本中是反映样本中各观测值的变异程度,它的大小说明了各观测值的变异程度,它的大小说明了 对该样本代表性的强弱。对该样本代表性的强弱。样本标准误是样本平均数样本标准误是样本平均
9、数 的标准差,它是抽样误差的估计值,其的标准差,它是抽样误差的估计值,其大小说明了样本间变异程度的大小及精大小说明了样本间变异程度的大小及精确性的高低。确性的高低。本讲稿第五十页,共七十九页(二二)两个独立样本平均数差数的分布两个独立样本平均数差数的分布 假定有两个正态总体各具有平均数和标准差为假定有两个正态总体各具有平均数和标准差为 ,和和 ,从第一个总体随机抽取,从第一个总体随机抽取n1个观察值,同时独立地从第二个总体个观察值,同时独立地从第二个总体随时机抽取随时机抽取n2个观察值。这样计算出样本平均数和标准差个观察值。这样计算出样本平均数和标准差 ,s1和和 ,s2。从统计理论可以推导出
10、其样本平均数的差数从统计理论可以推导出其样本平均数的差数()的抽的抽样分布,具有以下特性:样分布,具有以下特性:(1)如果两个总体各作正态分布,则其样本平均数差数如果两个总体各作正态分布,则其样本平均数差数()准确地遵循正态分布律,无论样本容量大或小,都有准确地遵循正态分布律,无论样本容量大或小,都有N(,)。本讲稿第五十一页,共七十九页 (2)两个样本平均数差数分布的平均数必等于两个总体平均两个样本平均数差数分布的平均数必等于两个总体平均数的差数,即数的差数,即 (3)两个独立的样本平均数差数分布的方差等于两个总体两个独立的样本平均数差数分布的方差等于两个总体的样本平均数的方差总和,即的样本
11、平均数的方差总和,即 其差数标准差为:其差数标准差为:这个分布也可标准化,获得这个分布也可标准化,获得z值。值。nnyyz2221212121)()(ssmm+-=本讲稿第五十二页,共七十九页小结:小结:l若两个样本抽自于同一正态总体,则其平均数差数的抽样分布若两个样本抽自于同一正态总体,则其平均数差数的抽样分布不论容量大小亦作正态分布具:不论容量大小亦作正态分布具:l若两个样本抽自于同一总体,但并非正态总体,则其平均数若两个样本抽自于同一总体,但并非正态总体,则其平均数差数的抽样分布按中心极限定理在差数的抽样分布按中心极限定理在n1和和n2相当大时相当大时(大于大于30)才逐渐才逐渐接近于正
12、态分布。接近于正态分布。l若两个样本抽自于两个非正态总体,当若两个样本抽自于两个非正态总体,当n1和和n2相当大、而相当大、而 与与 相差不太远时,也可近似地应用正态接近方法估计平均数相差不太远时,也可近似地应用正态接近方法估计平均数差数出现的概率,当然这种估计的可靠性得依两总体偏离正态的差数出现的概率,当然这种估计的可靠性得依两总体偏离正态的程度和相差大小而转移。程度和相差大小而转移。本讲稿第五十三页,共七十九页 例例 假定第一个总体包括假定第一个总体包括3个观察值,个观察值,2、4和和6(N1=3,n1=2),所有样本数为,所有样本数为Nn=32=9个,总体平均数和方差个,总体平均数和方差
13、 =4,=8/3。第二个总体包括第二个总体包括2个观察值,个观察值,3和和6(N2=2),抽出的样本容量为,抽出的样本容量为3(n2=3),所以所有样本数为,所以所有样本数为23=8个,总体平均数和方差个,总体平均数和方差 =4.5,=2.25。现将上述两个总体。现将上述两个总体 的次数分布列于表,并计的次数分布列于表,并计算出其分布的参数。算出其分布的参数。将第一总体的将第一总体的9个样本平均数和第二总体的个样本平均数和第二总体的8个样本平均数个样本平均数作所有可能的相互比较,这样共有作所有可能的相互比较,这样共有98=72个比较或个比较或72个差数,这个差数,这72个差数次数分布列于表和表
14、。个差数次数分布列于表和表。本讲稿第五十四页,共七十九页表 从两个总体抽出的样本平均数的次数分布表f ff f2 2 2 21 1 1 13 3 3 31 1 1 13 3 3 32 2 2 24 4 4 43 3 3 34 4 4 43 3 3 35 5 5 53 3 3 35 5 5 52 2 2 26 6 6 61 1 1 16 6 6 61 1 1 1总总总总 和和和和9 9 9 9总总总总 和和和和8 8 8 8 本讲稿第五十五页,共七十九页表 样本平均数差数的次数分布表 2 2,2 2,2 2,2 23 3,3 3,3 3,3 34 4,4 4,4 4,4 45 5,5 5,5 5
15、,5 56 6,6 6,6 6,6 6总总 和和 3 3,4 4,5 5,6 63 3,4 4,5 5,6 63 3,4 4,5 5,6 63 3,4 4,5 5,6 63 3,4 4,5 5,6 6-1-1,-2-2,-3-3,-4-40 0,-1-1,-2-2,-3-3,1 1,0 0,-1-1,-2-22 2,1 1,0 0,-1-13 3,2 2,1 1,0 0f f 1 1,3 3,3 3,1 12 2,6 6,6 6,2 23 3,9 9,9 9,3 32 2,6 6,6 6,2 21 1,3 3,3 3,1 17272表 样本平均数差数分布的平均数和方差计算表ff f()()()
16、()()2 2()()2 2-4-4-3-3-2-2-1-10 01 12 23 31 15 512121818181812125 51 1-4-4-15-15-24-24-18-180 0121210103 3-3.5-3.5-2.5-2.5-1.5-1.5-0.5-0.50.50.51.51.52.52.53.53.512.2512.256.256.252.252.250.250.250.250.252.252.256.256.2512.2512.2512.2512.2531.2531.2527.0027.004.504.504.504.5027.0027.0031.2531.2512.2
17、512.25总总7272-36-36150.00150.00本讲稿第五十六页,共七十九页 由表由表可算得可算得而而 这与这与均相同。均相同。本讲稿第五十七页,共七十九页(三三)二项总体的抽样分布二项总体的抽样分布、二项总体的分布参数(成数)二项总体的分布参数(成数)标准差标准差:方差方差:平均数平均数:本讲稿第五十八页,共七十九页、样本平均数样本平均数(成数成数)的抽样分布的抽样分布 从二项总体进行抽样得到样本,样本平均数(成数)抽样分从二项总体进行抽样得到样本,样本平均数(成数)抽样分布的参数为:布的参数为:平均数平均数:方差方差:标准误标准误:本讲稿第五十九页,共七十九页(四)不重复抽样的
18、修正系数 前所讲的抽样分布和抽样平均误差的计算公前所讲的抽样分布和抽样平均误差的计算公前所讲的抽样分布和抽样平均误差的计算公前所讲的抽样分布和抽样平均误差的计算公式,都是就重复抽样而言的。可以证明,采用不重式,都是就重复抽样而言的。可以证明,采用不重式,都是就重复抽样而言的。可以证明,采用不重式,都是就重复抽样而言的。可以证明,采用不重复抽样时,平均数和比例的抽样平均误差应为:复抽样时,平均数和比例的抽样平均误差应为:复抽样时,平均数和比例的抽样平均误差应为:复抽样时,平均数和比例的抽样平均误差应为:本讲稿第六十页,共七十九页可见,不重复抽样的抽样平均误差公式比重可见,不重复抽样的抽样平均误差
19、公式比重复抽样的相应公式多一个系数复抽样的相应公式多一个系数 这个系这个系数称为不重复抽样修正系数。当数称为不重复抽样修正系数。当N很大时,很大时,(其中:(其中:n/N为抽样比例)。为抽样比例)。实际中,当抽实际中,当抽样比例很小时,(一般认为小于样比例很小时,(一般认为小于5%),不重),不重复抽样的抽样误差常采用重复抽样的公式计复抽样的抽样误差常采用重复抽样的公式计算。算。本讲稿第六十一页,共七十九页三、t 分布1、t 分布的定义:分布的定义:若若xN(,2),则则 N(,2/n)。将随机变将随机变量量 标准化得:标准化得:,则,则zN(0,1)。当总体标准差当总体标准差未知时,未知时,
20、以样本标准差以样本标准差S代替代替所得到的统计量所得到的统计量 记为记为t。在计算。在计算 时,由于采用时,由于采用S来代替来代替,使得,使得t 变量不再服变量不再服从标准正态分布,而是服从从标准正态分布,而是服从t分布分布(tdistribztion)。它的概率分布密度函数如。它的概率分布密度函数如下:下:xxzs s/)(-本讲稿第六十二页,共七十九页式中,式中,t的取值范围是(的取值范围是(-,+););df=n-1为自由度。为自由度。本讲稿第六十三页,共七十九页-函函 数数 参考本讲稿第六十四页,共七十九页自由度df(degree of freedom)的含义 df=k=n-1本讲稿第
21、六十五页,共七十九页T 分布密度曲线本讲稿第六十六页,共七十九页2、t 分布的图形特征 t t分分布布是是类类似似正正态态分分布布的的一一种种对对称称分分布布,它它通通常常要要比比正正态态分分布布平平坦坦和和分分散散。一一个个特特定定的的分分布布依依赖赖于于称称之之为为自自由由度度的的参参数数。随随着着自自由由度度的的增增大大,分分布布也也逐逐渐渐趋趋于于正正态分布。态分布。x x xt t 分布与标准正态分布的比较分布与标准正态分布的比较分布与标准正态分布的比较分布与标准正态分布的比较t t 分布分布分布分布标准正态分布标准正态分布标准正态分布标准正态分布t不同自由度的不同自由度的不同自由度
22、的不同自由度的t t分布分布分布分布标准正态分布标准正态分布标准正态分布标准正态分布t t(dfdf=13)=13)t t(dfdf=5)=5)z z本讲稿第六十七页,共七十九页(1)t 分布受自由度的制约,每一个自由分布受自由度的制约,每一个自由度都有一条度都有一条t分布密度曲线。分布密度曲线。(2)t分布密度曲线以纵轴为对称轴,左分布密度曲线以纵轴为对称轴,左右对称,且在右对称,且在t0时,分布密度函数取时,分布密度函数取得最大值。得最大值。(3)与标准正态分布曲线相比,)与标准正态分布曲线相比,t分布曲分布曲线顶部略低,两尾部稍高而平。线顶部略低,两尾部稍高而平。df越小越小这种趋势越明
23、显。这种趋势越明显。df越大,越大,t分布越趋近分布越趋近于标准正态分布。于标准正态分布。本讲稿第六十八页,共七十九页 3、分布分位点计算分布分位点计算在统计中经常对给定的在统计中经常对给定的 分布求它的分位点而不分布求它的分位点而不是求其概率。其分位点的定义与标准正态分布相同。是求其概率。其分位点的定义与标准正态分布相同。本讲稿第六十九页,共七十九页四、四、分布(卡方分布)分布(卡方分布)分布是统计中经常用到的一个分布,通常是由分布是统计中经常用到的一个分布,通常是由 n 个个相互独立的标准正态分布的平方和得到。它相互独立的标准正态分布的平方和得到。它的概率密度的概率密度函数为:函数为:本讲
24、稿第七十页,共七十九页假设从正态总体中抽取假设从正态总体中抽取k个独立样本个独立样本z12、z22、z32、zk2,则定义它们的和则定义它们的和为为x2,x2具有自由度具有自由度df=n-1的连续型变量的分的连续型变量的分布布,不同的自由度的不同的自由度的x2分布曲线不同。分布曲线不同。附表附表7列出了各种自由度下的列出了各种自由度下的x2分布的一分布的一尾尾(右尾右尾)概率。例概率。例x0.052(2)=5.99,x0.012(2)=9.21。=-=+=kikikxzzzzx1122222212)(sm.本讲稿第七十一页,共七十九页x2分布的特征:1x2分布于区间分布于区间0,+););2x
25、2分布的偏斜度随自由度降低而增大,分布的偏斜度随自由度降低而增大,df=1时,曲线以纵轴为渐进线;时,曲线以纵轴为渐进线;3随自由度增大随自由度增大x2分布曲线趋于左右对分布曲线趋于左右对称,当称,当df=30时,时,x2分布接近正态分布。分布接近正态分布。本讲稿第七十二页,共七十九页 分布的分布图形为:分布的分布图形为:分布密度的图形随自由度分布密度的图形随自由度n的不同而变化,当的不同而变化,当n很很大时接近正态分布大时接近正态分布 本讲稿第七十三页,共七十九页 分布分位点计算 在统计中经常对给定的在统计中经常对给定的 分布求它的分位点而不分布求它的分位点而不是求其概率。其分位点的定义与标
26、准正态分布相同。是求其概率。其分位点的定义与标准正态分布相同。本讲稿第七十四页,共七十九页五、F分布1、F分布的定义:分布的定义:设从一正态总体设从一正态总体N(,2)中随机抽取样本容量中随机抽取样本容量为为n1和和 n2的两个独立样本,其样本方差为的两个独立样本,其样本方差为s12和和s22,则定义,则定义s12/n1和和s22/n2的比值为的比值为F。此此F值具有值具有s12的自由度的自由度df1=n1-1和和s22的自由度的自由度df2=n2-1。如果对一个正态总体特定的。如果对一个正态总体特定的df1和和df2进行进行 一系列随机抽样,则所有可能的一系列随机抽样,则所有可能的F值值构成
27、一个构成一个F分布。分布。F分布记作分布记作F(m,n)。)。m、n分别表示分别表示df1、df2。本讲稿第七十五页,共七十九页 分布的概率分布密度 分布也是统计中经常用到的一个分布,通常是分布也是统计中经常用到的一个分布,通常是由相互独立的自由度分别为由相互独立的自由度分别为m和和n 的的 ,分分布的函数布的函数得到。它得到。它的概率密度函数为:的概率密度函数为:本讲稿第七十六页,共七十九页2、F 分布的特征:(1 1)F的取值区间的取值区间0,););(2)F分布曲线仅决定于分布曲线仅决定于df1和和df2。df1=1或或2时,曲线为反时,曲线为反J型;当型;当df13时,时,转为偏态曲线。转为偏态曲线。F分布概率查附表分布概率查附表8,如,如df1=4,df2=10时,时,F0.05=3.48,F0.01=5.99,为所为所有有F值大于值大于3.48的概率为的概率为0.05,大于大于5.99的概率为的概率为0.01。本讲稿第七十七页,共七十九页F 分布本讲稿第七十八页,共七十九页 3、分布分位点计算分布分位点计算 在统计中经常对给定的在统计中经常对给定的 分布,我们分布,我们经常需要求它的分位点而不是求其概率。其分经常需要求它的分位点而不是求其概率。其分位点的定义与前面相同。位点的定义与前面相同。本讲稿第七十九页,共七十九页
限制150内