《第六章(三)常用连续型随机变量的理论分布.ppt》由会员分享,可在线阅读,更多相关《第六章(三)常用连续型随机变量的理论分布.ppt(79页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第三节 常用连续型随机变量的理论分布一、正态分布正态分布是最重要的概率分布。因为正态分布是最重要的概率分布。因为:第一,许多自然现象与社会现象,都可用第一,许多自然现象与社会现象,都可用正态分布加以叙述;正态分布加以叙述;第二第二,许多概率分布以正态分布为其极限;许多概率分布以正态分布为其极限;第三,许多统计量的抽样分布呈现正态分第三,许多统计量的抽样分布呈现正态分布。布。因此,许多统计分析方法都是以正态分布因此,许多统计分析方法都是以正态分布为基础的。为基础的。(一)正态分布的概率函数若连续型随机变量若连续型随机变量x的概率分布密度的概率分布密度函数为函数为 其中其中为平均数,为平均数,2为
2、方差,则称随为方差,则称随机变量机变量x服从正态分布服从正态分布(normal distribztion),记为,记为xN(,2)。相。相应的概率分布函数为应的概率分布函数为 分布密度曲线99.74%68.26%95.46%(二)正态分布的特征1.正态分布密度曲线是单峰、对称正态分布密度曲线是单峰、对称的悬钟形曲线,对称轴为的悬钟形曲线,对称轴为x=;2.f(x)在在x=处达到极大,极大值处达到极大,极大值 ;3.f(x)是非负函数,以是非负函数,以x轴为渐近线,轴为渐近线,分布从分布从-至至+;4.曲线在曲线在x=处各有一个拐点,即曲线处各有一个拐点,即曲线在在(-,-)和和(+,+)区间上
3、是下凸的,区间上是下凸的,在在-,+区间内是上凸的;区间内是上凸的;5.正态分布有平均数正态分布有平均数和标准差和标准差两个参数。两个参数。是位置参数,是位置参数,是变异度参数。是变异度参数。图图1 标准差相同标准差相同(1)而平均数不同而平均数不同(=0、=1、=2)的三个正态分布曲线的三个正态分布曲线 图图2 平均数相同平均数相同(0)而标准差不而标准差不同同(=1、=1.5、=2)的三个正态分的三个正态分布曲线布曲线 6.分布密度曲线与横轴所夹面积为分布密度曲线与横轴所夹面积为1,即:即:正态分布是依赖于参数正态分布是依赖于参数和和的一簇的一簇分布。将一般的分布。将一般的N(,2)转换为
4、转换为=0,2=1的正态分布,应用就方便了。的正态分布,应用就方便了。称称=0,2=1的正态分布为标准正态的正态分布为标准正态分布分布(standard normal distribztion)。(三)标准正态分布标准正态分布的概率密度函数及分布标准正态分布的概率密度函数及分布函数分别记作函数分别记作(z)和和(z),得:,得:随机变量随机变量z服从标准正态分布,记作服从标准正态分布,记作zN(0,1)。2221)(zez-=pjdzezzz-=22121)(pf对于任何一个服从正态分布对于任何一个服从正态分布N(,2)的随机变量的随机变量x,都可以通过标准化变换:,都可以通过标准化变换:z=
5、(x-)将其变换为服从标准正态分布的随机将其变换为服从标准正态分布的随机变量变量z。z称为标准正态变量或标准正称为标准正态变量或标准正态离差态离差(standard normal deviate)。(四)正态分布的概率计算标准正态分布的概率计算标准正态分布的概率计算 设设z服从标准正态分布,则服从标准正态分布,则z在在z1,z2)何内取值的概率为:何内取值的概率为:(z2)(z1)而而(z1)与与(z2)可由附表查得。可由附表查得。dzedzedzezzzPzzzzzzz -30就可就可以应用这一定理。以应用这一定理。平均数的标准化分布是将上述平均数平均数的标准化分布是将上述平均数 转换为转换
6、为z变数。变数。xxnxxzxsmsm)()(-=-=、标准误标准误标准误(平均数抽样总体的标准差平均数抽样总体的标准差)的大小反映样本平均数的大小反映样本平均数 的抽样误差的的抽样误差的大小,即精确性的高低。标准误大,说大小,即精确性的高低。标准误大,说明各样本平均数明各样本平均数 间差异程度大,样本间差异程度大,样本平均数的精确性低。反之,平均数的精确性低。反之,小,样本平小,样本平均数的精确性高。均数的精确性高。的大小与原总体的的大小与原总体的标准差标准差成正比,与样本含量成正比,与样本含量n的平方根的平方根成反比。从某特定总体抽样,因为成反比。从某特定总体抽样,因为是一是一常数,所以只
7、有增大样本含量才能降低常数,所以只有增大样本含量才能降低样本平均数样本平均数 的抽样误差。的抽样误差。在实际工作中,总体标准差在实际工作中,总体标准差往往是往往是未知的,因而无法求得未知的,因而无法求得 。此时,可。此时,可用样本标准差用样本标准差S估计估计。于是,以。于是,以 估计估计 。记。记 为为 ,称作样本标称作样本标准误或均数标准误。样本标准误准误或均数标准误。样本标准误 是是平均数抽样误差的估计值。若样本中平均数抽样误差的估计值。若样本中各观测值为各观测值为 x1、x2、xn,则,则注意:样本标准差与样本标准误是既注意:样本标准差与样本标准误是既有联系又有区别的两个统计量。有联系又
8、有区别的两个统计量。二者的区别是样本标准差二者的区别是样本标准差S是反映样是反映样本中各观测值的变异程度,它的大小本中各观测值的变异程度,它的大小说明了说明了 对该样本代表性的强弱。对该样本代表性的强弱。样本标准误是样本平均数样本标准误是样本平均数 的标准差,它是抽样误差的估计值,的标准差,它是抽样误差的估计值,其大小说明了样本间变异程度的大小其大小说明了样本间变异程度的大小及精确性的高低。及精确性的高低。(二二)两个独立样本平均数差数的分布两个独立样本平均数差数的分布 假定有两个正态总体各具有平均数和标准差为假定有两个正态总体各具有平均数和标准差为 ,和和 ,从第一个总体随机抽取,从第一个总
9、体随机抽取n1个观察值,同时独立地从第个观察值,同时独立地从第二个总体随时机抽取二个总体随时机抽取n2个观察值。这样计算出样本平均数个观察值。这样计算出样本平均数和标准差和标准差 ,s1和和 ,s2。从统计理论可以推导出其样本平均数的差数从统计理论可以推导出其样本平均数的差数()的抽样分布,具有以下特性:的抽样分布,具有以下特性:(1)如果两个总体各作正态分布,则其样本平均数差数如果两个总体各作正态分布,则其样本平均数差数()准确地遵循正态分布律,无论样本容量大或小,准确地遵循正态分布律,无论样本容量大或小,都有都有N(,)。(2)两个样本平均数差数分布的平均数必等于两个总体两个样本平均数差数
10、分布的平均数必等于两个总体平均数的差数,即平均数的差数,即 (3)两个独立的样本平均数差数分布的方差等于两个两个独立的样本平均数差数分布的方差等于两个总体的样本平均数的方差总和,即总体的样本平均数的方差总和,即 其差数标准差为:其差数标准差为:这个分布也可标准化,获得这个分布也可标准化,获得z值。值。nnyyz2221212121)()(ssmm+-=小结:小结:l若两个样本抽自于同一正态总体,则其平均数差数的抽若两个样本抽自于同一正态总体,则其平均数差数的抽样分布不论容量大小亦作正态分布具:样分布不论容量大小亦作正态分布具:l若两个样本抽自于同一总体,但并非正态总体,则其平均若两个样本抽自于
11、同一总体,但并非正态总体,则其平均数差数的抽样分布按中心极限定理在数差数的抽样分布按中心极限定理在n1和和n2相当大时相当大时(大于大于30)才逐渐接近于正态分布。才逐渐接近于正态分布。l若两个样本抽自于两个非正态总体,当若两个样本抽自于两个非正态总体,当n1和和n2相当大、而相当大、而 与与 相差不太远时,也可近似地应用正态接近方法估计相差不太远时,也可近似地应用正态接近方法估计平均数差数出现的概率,当然这种估计的可靠性得依两总体平均数差数出现的概率,当然这种估计的可靠性得依两总体偏离正态的程度和相差大小而转移。偏离正态的程度和相差大小而转移。例例 假定第一个总体包括假定第一个总体包括3个观
12、察值,个观察值,2、4和和6(N1=3,n1=2),所有样本数为,所有样本数为Nn=32=9个,总体平均数和个,总体平均数和方差方差 =4,=8/3。第二个总体包括。第二个总体包括2个观察值,个观察值,3和和6(N2=2),抽出的样本容量为,抽出的样本容量为3(n2=3),所以所有样本数为,所以所有样本数为23=8个,总体平均数和方差个,总体平均数和方差 =4.5,=2.25。现将上述。现将上述两个总体两个总体 的次数分布列于表,并计算出其分布的参的次数分布列于表,并计算出其分布的参数。数。将第一总体的将第一总体的9个样本平均数和第二总体的个样本平均数和第二总体的8个样本平均个样本平均数作所有
13、可能的相互比较,这样共有数作所有可能的相互比较,这样共有98=72个比较或个比较或72个差数,这个差数,这72个差数次数分布列于表和表。个差数次数分布列于表和表。表 从两个总体抽出的样本平均数的次数分布表f ff f2 2 2 21 1 1 13 3 3 31 1 1 13 3 3 32 2 2 24 4 4 43 3 3 34 4 4 43 3 3 35 5 5 53 3 3 35 5 5 52 2 2 26 6 6 61 1 1 16 6 6 61 1 1 1总总总总 和和和和9 9 9 9总总总总 和和和和8 8 8 8 表 样本平均数差数的次数分布表 2 2,2 2,2 2,2 23
14、3,3 3,3 3,3 34 4,4 4,4 4,4 45 5,5 5,5 5,5 56 6,6 6,6 6,6 6总总 和和 3 3,4 4,5 5,6 63 3,4 4,5 5,6 63 3,4 4,5 5,6 63 3,4 4,5 5,6 63 3,4 4,5 5,6 6-1-1,-2-2,-3-3,-4-40 0,-1-1,-2-2,-3-3,1 1,0 0,-1-1,-2-22 2,1 1,0 0,-1-13 3,2 2,1 1,0 0f f 1 1,3 3,3 3,1 12 2,6 6,6 6,2 23 3,9 9,9 9,3 32 2,6 6,6 6,2 21 1,3 3,3 3
15、,1 17272表 样本平均数差数分布的平均数和方差计算表ff f()()()()()2 2()()2 2-4-4-3-3-2-2-1-10 01 12 23 31 15 512121818181812125 51 1-4-4-15-15-24-24-18-180 0121210103 3-3.5-3.5-2.5-2.5-1.5-1.5-0.5-0.50.50.51.51.52.52.53.53.512.2512.256.256.252.252.250.250.250.250.252.252.256.256.2512.2512.2512.2512.2531.2531.2527.0027.004
16、.504.504.504.5027.0027.0031.2531.2512.2512.25总总7272-36-36150.00150.00 由表由表可算得可算得而而 这与这与均相同。均相同。(三三)二项总体的抽样分布二项总体的抽样分布、二项总体的分布参数(成数)二项总体的分布参数(成数)标准差标准差:方差方差:平均数平均数:、样本平均数样本平均数(成数成数)的抽样分布的抽样分布 从二项总体进行抽样得到样本,样本平均数(成数)从二项总体进行抽样得到样本,样本平均数(成数)抽样分布的参数为:抽样分布的参数为:平均数平均数:方差方差:标准误标准误:(四)不重复抽样的修正系数 前所讲的抽样分布和抽样平
17、均误差的计算公前所讲的抽样分布和抽样平均误差的计算公前所讲的抽样分布和抽样平均误差的计算公前所讲的抽样分布和抽样平均误差的计算公式,都是就重复抽样而言的。可以证明,采用不重式,都是就重复抽样而言的。可以证明,采用不重式,都是就重复抽样而言的。可以证明,采用不重式,都是就重复抽样而言的。可以证明,采用不重复抽样时,平均数和比例的抽样平均误差应为:复抽样时,平均数和比例的抽样平均误差应为:复抽样时,平均数和比例的抽样平均误差应为:复抽样时,平均数和比例的抽样平均误差应为:可见,不重复抽样的抽样平均误差公式可见,不重复抽样的抽样平均误差公式比重复抽样的相应公式多一个系数比重复抽样的相应公式多一个系数
18、 这个系数称为不重复抽样修正系数。当这个系数称为不重复抽样修正系数。当N很大时,很大时,(其中:(其中:n/N为抽样比例)为抽样比例)。实际中,当抽样比例很小时,(一般实际中,当抽样比例很小时,(一般认为小于认为小于5%),不重复抽样的抽样误差),不重复抽样的抽样误差常采用重复抽样的公式计算。常采用重复抽样的公式计算。三、t 分布1、t 分布的定义:分布的定义:若若xN(,2),则则 N(,2/n)。将随将随机变量机变量 标准化得:标准化得:,则,则zN(0,1)。当总体标准差当总体标准差未知时,未知时,以样本以样本标准差标准差S代替代替所得到的统计量所得到的统计量 记为记为t。在计算。在计算
19、 时,由于采用时,由于采用S来代替来代替,使得,使得t 变量不再服从标准正态分布,变量不再服从标准正态分布,而是服从而是服从t分布分布(tdistribztion)。它的概。它的概率分布密度函数如下:率分布密度函数如下:xxzs s/)(-式中,式中,t的取值范围是(的取值范围是(-,+););df=n-1为自由度。为自由度。-函函 数数 参考自由度df(degree of freedom)的含义 df=k=n-1T 分布密度曲线2、t 分布的图形特征 t t分分布布是是类类似似正正态态分分布布的的一一种种对对称称分分布布,它它通通常常要要比比正正态态分分布布平平坦坦和和分分散散。一一个个特特
20、定定的的分分布布依依赖赖于于称称之之为为自自由由度度的的参参数数。随随着着自自由由度度的的增增大,分布也逐渐趋于正态分布。大,分布也逐渐趋于正态分布。x x xt t 分布与标准正态分布的比较分布与标准正态分布的比较分布与标准正态分布的比较分布与标准正态分布的比较t t 分布分布分布分布标准正态分布标准正态分布标准正态分布标准正态分布t t不同自由度的不同自由度的不同自由度的不同自由度的t t分布分布分布分布标准正态分布标准正态分布标准正态分布标准正态分布t t(dfdf=13)=13)t t(dfdf=5)=5)z z(1)t 分布受自由度的制约,每一个分布受自由度的制约,每一个自由度都有一
21、条自由度都有一条t分布密度曲线。分布密度曲线。(2)t分布密度曲线以纵轴为对称轴,分布密度曲线以纵轴为对称轴,左右对称,且在左右对称,且在t0时,分布密度函时,分布密度函数取得最大值。数取得最大值。(3)与标准正态分布曲线相比,)与标准正态分布曲线相比,t分分布曲线顶部略低,两尾部稍高而平。布曲线顶部略低,两尾部稍高而平。df越小这种趋势越明显。越小这种趋势越明显。df越大,越大,t分分布越趋近于标准正态分布。布越趋近于标准正态分布。3、分布分位点计算分布分位点计算在统计中经常对给定的在统计中经常对给定的 分布求它的分位点分布求它的分位点而不是求其概率。其分位点的定义与标准正态而不是求其概率。
22、其分位点的定义与标准正态分布相同。分布相同。四、四、分布(卡方分布)分布(卡方分布)分布是统计中经常用到的一个分布,通常是由分布是统计中经常用到的一个分布,通常是由 n 个相互独立的标准正态分布的平方和得到。它个相互独立的标准正态分布的平方和得到。它的概的概率密度函数为:率密度函数为:假设从正态总体中抽取假设从正态总体中抽取k个独立样本个独立样本z12、z22、z32、zk2,则定义它们的则定义它们的和为和为x2,x2具有自由度具有自由度df=n-1的连续型变量的的连续型变量的分布分布,不同的自由度的不同的自由度的x2分布曲线不分布曲线不同。同。附表附表7列出了各种自由度下的列出了各种自由度下
23、的x2分布的分布的一尾一尾(右尾右尾)概率。例概率。例x0.052(2)=5.99,x0.012(2)=9.21。=-=+=kikikxzzzzx1122222212)(sm.x2分布的特征:1x2分布于区间分布于区间0,+););2x2分布的偏斜度随自由度降低而增分布的偏斜度随自由度降低而增大,大,df=1时,曲线以纵轴为渐进线;时,曲线以纵轴为渐进线;3随自由度增大随自由度增大x2分布曲线趋于左右分布曲线趋于左右对称,当对称,当df=30时,时,x2分布接近正态分布接近正态分布。分布。分布的分布图形为:分布的分布图形为:分布密度的图形随自由度分布密度的图形随自由度n的不同而变化,的不同而变
24、化,当当n很大时接近正态分布很大时接近正态分布 分布分位点计算 在统计中经常对给定的在统计中经常对给定的 分布求它的分分布求它的分位点而不是求其概率。其分位点的定义与标准位点而不是求其概率。其分位点的定义与标准正态分布相同。正态分布相同。五、F分布1、F分布的定义:分布的定义:设从一正态总体设从一正态总体N(,2)中随机抽取样本容量中随机抽取样本容量为为n1和和 n2的两个独立样本,其样本方差为的两个独立样本,其样本方差为s12和和s22,则定义,则定义s12/n1和和s22/n2的的比值为比值为F。此此F值具有值具有s12的自由度的自由度df1=n1-1和和s22的自由度的自由度df2=n2
25、-1。如果对一个正态总体特定的。如果对一个正态总体特定的df1和和df2进行进行 一系列随机抽样,则所有可能的一系列随机抽样,则所有可能的F值值构成一个构成一个F分布。分布。F分布记作分布记作F(m,n)。)。m、n分别表示分别表示df1、df2。分布的概率分布密度 分布也是统计中经常用到的一个分布,分布也是统计中经常用到的一个分布,通常是由相互独立的自由度分别为通常是由相互独立的自由度分别为m和和n 的的 ,分布的函数分布的函数得到。它得到。它的概率密度函数为:的概率密度函数为:2、F 分布的特征:(1 1)F的取值区间的取值区间0,););(2)F分布曲线仅决定于分布曲线仅决定于df1和和df2。df1=1或或2时,曲线为反时,曲线为反J型;当型;当df13时,转为偏态曲线。时,转为偏态曲线。F分布概率查附表分布概率查附表8,如,如df1=4,df2=10时,时,F0.05=3.48,F0.01=5.99,为为所有所有F值大于值大于3.48的概率为的概率为0.05,大大于于5.99的概率为的概率为0.01。F 分布 3、分布分位点计算分布分位点计算 在统计中经常对给定的在统计中经常对给定的 分布,我分布,我们经常需要求它的分位点而不是求其概率。们经常需要求它的分位点而不是求其概率。其分位点的定义与前面相同。其分位点的定义与前面相同。
限制150内