总体分布样本分布讲稿.ppt
《总体分布样本分布讲稿.ppt》由会员分享,可在线阅读,更多相关《总体分布样本分布讲稿.ppt(91页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、关于总体分布样本分布第一页,讲稿共九十一页哦提示如何依据样本的信息推断总体的特征参数估计问题样样样样本本本本总体总体总体总体样本统计量样本统计量样本统计量样本统计量例如:样本均值、例如:样本均值、例如:样本均值、例如:样本均值、比例、方差比例、方差比例、方差比例、方差总体均值、比总体均值、比总体均值、比总体均值、比例、方差等例、方差等例、方差等例、方差等第二页,讲稿共九十一页哦有关概率概念的回顾通俗地说:通俗地说:概率是衡量某一特定事件的机会或可能性的数值概率是衡量某一特定事件的机会或可能性的数值度量度量。它可以用来度量如下一些问题中的可能性。它可以用来度量如下一些问题中的可能性如果提高产品的
2、价格,则销售下降的如果提高产品的价格,则销售下降的“机会机会”有多少?有多少?某种新的装配作业方法会在多大某种新的装配作业方法会在多大“可能性可能性”上提高生产率?上提高生产率?某项工程按期完成的某项工程按期完成的“可能性可能性”有多大?有多大?新投资赢利的新投资赢利的“机会机会”有多大?有多大?概率在决策过程中起着重要作用,它提供了一种机制来衡量、概率在决策过程中起着重要作用,它提供了一种机制来衡量、表达和分析与未来事件相联系的不确定性。表达和分析与未来事件相联系的不确定性。第三页,讲稿共九十一页哦一些相关概念随机实验随机实验 至少有两个或两个以上的结果但事先不知道会发生哪个至少有两个或两个
3、以上的结果但事先不知道会发生哪个结果的过程。结果的过程。随机事件(简称为事件)随机事件(简称为事件)一个随机实验的可能结果称为一个随机实验的可能结果称为基本事件基本事件。所有基本事件的集合称为所有基本事件的集合称为总体(样本空间)总体(样本空间)。总体的子集称为。总体的子集称为随随机事件机事件。概率的定义(见教材概率的定义(见教材p2)。)。任何满足定义中三个条件的函数任何满足定义中三个条件的函数P(A)都可以作为一种合适的概都可以作为一种合适的概率分配方式。常用的概率分配方式有:率分配方式。常用的概率分配方式有:古典法古典法(抛掷硬币)、(抛掷硬币)、相对频数法相对频数法(产品销路调查)和(
4、产品销路调查)和主观法主观法(体育比赛结果预测)。(体育比赛结果预测)。第四页,讲稿共九十一页哦5.1总体分布与样本分布本章的本章的总体总体(Population or Universe)是指研究对象的是指研究对象的全体。并且先研究只有一个特征(指标或变量)的全体。并且先研究只有一个特征(指标或变量)的总体。这样表述总体特征的变量可以看成一个总体。这样表述总体特征的变量可以看成一个一维一维随机变量随机变量。例如我们在某个研究中关注广州市的某区居民的某年经济收入情况,我们在这个问题中的总体就是广州市某区居民的全体,但我们实际上关注的是该区居民该年的经济收入这样一个特征,我们可以用一个变量X来表征
5、我们任意选取的一个该区居民该年的收入。则X是一个一维随机变量,而我们研究的总体实际上是这一随机变量取值的全体。因此,因此,总体也可理解为一个随机变量取的值全体。总体也可理解为一个随机变量取的值全体。第五页,讲稿共九十一页哦5.1.1 总体与总体分布总体与总体分布更准确地说,一维随机变量是指反映某总体特征取值,更准确地说,一维随机变量是指反映某总体特征取值,且具有如下特点的变量且具有如下特点的变量X:(1)在同一条件下可以无限次重复取值;)在同一条件下可以无限次重复取值;(2)取值的结果可能有多个,但不确定;)取值的结果可能有多个,但不确定;(3)事先不知道取值结果)事先不知道取值结果(Outc
6、ome)。由此可知,随机变量可以理解为“随机实验(随机地抽取一个个体)”结果的数值性描述。第六页,讲稿共九十一页哦随机变量取值的概率分布,就称为随机变量取值的概率分布,就称为总体分布总体分布。一个随机变量取给定值或属于一给定值集合的概率所确定一个随机变量取给定值或属于一给定值集合的概率所确定的函数称为该随机变量的的函数称为该随机变量的概率分布概率分布。概率分布反映的是。概率分布反映的是随机变量所有可能取值的概率的分配方式。一旦与所随机变量所有可能取值的概率的分配方式。一旦与所有可能结果相联系的概率被确定,则概率分布完全确有可能结果相联系的概率被确定,则概率分布完全确定。定。X x1 x2 xn
7、 P(X)p1 p2 pn 无论是理论研究还是解决实际问题,知道一个随机变量取各种可能值无论是理论研究还是解决实际问题,知道一个随机变量取各种可能值的概率情况(概率分布)都是十分重要的。的概率情况(概率分布)都是十分重要的。第七页,讲稿共九十一页哦离散随机变量的概率分布。设离散随机变量的概率分布。设X为取相异值为取相异值x1,x2,xn,的离散随机变量,则函数的离散随机变量,则函数称为称为X的概率分布或概率分布函数的概率分布或概率分布函数(probability distribution function,PDF),其中,其中P(X=xi)为离散为离散随机变量随机变量X取取xi值的概率。值的概
8、率。(1)离散随机变量的概率分布)离散随机变量的概率分布第八页,讲稿共九十一页哦(2)连续随机变量的概率密度函数)连续随机变量的概率密度函数设设X是连续随机变量,是连续随机变量,x是是X取的值,若函数取的值,若函数f(x)满足下满足下列条件:列条件:则称则称f(x)为为X的概率密度函数的概率密度函数(probability density function,PDF),其中,其中P(ax b)表示表示X在区间在区间(a,b取值取值的概率。的概率。第九页,讲稿共九十一页哦有时也称下式定义的函数为有时也称下式定义的函数为X的的概率分布函数概率分布函数:连续型随机变量取给定值的概率为零。连续型随机变量
9、取给定值的概率为零。f(x)xab第十页,讲稿共九十一页哦5.1.2随机样本与样本观察值从重复抽样的角度看从重复抽样的角度看“每次从总体中随机抽取个体每次从总体中随机抽取个体”可理可理解为一个随机实验。解为一个随机实验。随机样本随机样本:表征:表征n次抽取个体的随机抽样的一组随机变次抽取个体的随机抽样的一组随机变量量X1,X2,Xn.样本观察值(样本数据)样本观察值(样本数据):n次随机抽样的结果:次随机抽样的结果:x1,x2,xn(称为随机变量(称为随机变量X1,X2,Xn的样本观察值)。的样本观察值)。n称称为为样本容量样本容量。注:注:x1,x2,xn也可以看成随机变量也可以看成随机变量
10、X的的n次重复抽样次重复抽样的结果。的结果。第十一页,讲稿共九十一页哦大写的英文字母:随机变量小写的英文字母:随机变量的观察值例例 抛掷一个均匀的骰子,假设骰子的六个面分别标有数字抛掷一个均匀的骰子,假设骰子的六个面分别标有数字1,2,3,4,5,6。用。用X标识骰子落地后朝上一面的数字。标识骰子落地后朝上一面的数字。则则X是离散随机变量。是离散随机变量。对该随机变量进行一次抽样,其实就是掷该骰子一次。对该随机变量进行一次抽样,其实就是掷该骰子一次。第第i次抽样,就是第次抽样,就是第i次掷骰子,其结果的表示:次掷骰子,其结果的表示:事前事后Xixi易见,易见,Xi其实就是其实就是X第十二页,讲
11、稿共九十一页哦5.1.3样本分布函数设设x1,x2,xn是随机变量是随机变量X的样本观察值,将它们按大的样本观察值,将它们按大小顺序排列,排序后为小顺序排列,排序后为x1 x2 xn,ki为小于为小于xi+1的样的样本值出现的累积频次,本值出现的累积频次,n仍为样本容量,则可得到样本累仍为样本容量,则可得到样本累积频率分布函数如下积频率分布函数如下样本累积频率分布函数又简称为样本累积频率分布函数又简称为样本(累积)分布函数,它是总样本(累积)分布函数,它是总体(累积)分布函数的近似,体(累积)分布函数的近似,n越大,就越接近总体分布,如越大,就越接近总体分布,如图。图。第十三页,讲稿共九十一页
12、哦对于有限总体,其累对于有限总体,其累积概率分布函数不连积概率分布函数不连续续,是阶跃式的。样本是阶跃式的。样本的累积分布函数也是的累积分布函数也是阶跃式的。如图所示。阶跃式的。如图所示。样本(累积)分布函数是总体(累积)分布函数的近似,样本(累积)分布函数是总体(累积)分布函数的近似,n越大,就越接近总体分布越大,就越接近总体分布第十四页,讲稿共九十一页哦1991年美国一般社会调查(1991U.S.GeneralSocialSurvey)数据中被调查对象”接受学校教育的最高年限”的样本累积分布图第十五页,讲稿共九十一页哦5.1.4格利文科(Glivenko)定理(样本分布与总体分布的关系)格
13、利文科定理格利文科定理:当:当n趋于无穷大时,趋于无穷大时,Fn(x)依概率依概率1(关于(关于x)均匀地收敛于总体分布)均匀地收敛于总体分布F(x).格利文科定理的数学表达如下:格利文科定理的数学表达如下:格利文科定理是用样本特征推断总体特征的依据格利文科定理是用样本特征推断总体特征的依据。这表明当这表明当n充分大时,样本分布充分大时,样本分布Fn(x)是总体分布是总体分布F(x)的的一个良好近似。一个良好近似。第十六页,讲稿共九十一页哦例如,利用格利文科定理可以证明:例如,利用格利文科定理可以证明:即样本均值依概率收敛于总体均值。即样本方差依概率收敛于总体方差。第十七页,讲稿共九十一页哦5
14、.1.5随机样本的均值函数对于随机样本对于随机样本X1,X2,Xn,定义样本的定义样本的均值函数均值函数(简称为(简称为样本均值样本均值)为)为由于式中由于式中Xi是随机样本(随机变量),因此作为是随机样本(随机变量),因此作为随机样本函数的随机样本函数的 是随机变量是随机变量比较样本数据的均值比较样本数据的均值它可以看成是它可以看成是 的观察值的观察值第十八页,讲稿共九十一页哦5.1.6随机样本的方差函数对于随机样本对于随机样本X1,X2,Xn,定义样本的定义样本的方差函数方差函数(简称为(简称为样本方差样本方差)为)为由于式中由于式中Xi是随机样本(随机变量),因此作为随是随机样本(随机变
15、量),因此作为随机样本函数的机样本函数的S2是随机变量是随机变量比较样本数据的方差比较样本数据的方差它是它是S2的观察值的观察值第十九页,讲稿共九十一页哦5.2统计量与统计量的分布5.2.1 统计量的定义统计量的定义统计量统计量是不含未知参数的、随机样本是不含未知参数的、随机样本X1,X2,Xn的的函数函数注意统计量是随机样本注意统计量是随机样本X1,X2,Xn的函数,因而也是的函数,因而也是随机变量随机变量在上面定义的函数中将每个随机样本在上面定义的函数中将每个随机样本Xi用其观察值用其观察值xi代代替,计算的结果替,计算的结果f(x1,x2,xn)称为称为统计量的值。统计量的值。也也可以直
16、接将可以直接将f(x1,x2,xn)看成统计量的观察值。看成统计量的观察值。第二十页,讲稿共九十一页哦例子例如一项关于浙江省白领(收入为4000元-10000元)的职员的调查认为有60%白领患失眠症。样本1样本2样本3如果在这个调查中样本容量为100,则=(样本中失眠的人数)/(样本容量)是一个统计量。第二十一页,讲稿共九十一页哦1.是某一样本统计量的全部可能取值的概率分布。是某一样本统计量的全部可能取值的概率分布。2.现实中不可能抽出所有样本,因此统计量的抽现实中不可能抽出所有样本,因此统计量的抽样分布实际是一种理论概率分布。统计推断中,样分布实际是一种理论概率分布。统计推断中,常用的理论概
17、率分布:正态分布、常用的理论概率分布:正态分布、2分布、分布、t分布和分布和F分布。分布。3.提供了样本统计量稳定的信息,是进行推断的提供了样本统计量稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据。理论基础,也是抽样推断科学性的重要依据。样本分布样本分布(sampling distribution)第二十二页,讲稿共九十一页哦5.2.2由标准正态分布的随机样本所引出的几个重要统计量的分布1.正态分布与标准正态分布正态分布与标准正态分布设设X服从均值为服从均值为,方差为,方差为2正态分布正态分布,即,即 X N(,2),则其分布密度函数为,则其分布密度函数为特别地,当特别地,当=
18、0,2=1 时时正态分布称为正态分布称为标准正态分标准正态分布布。第二十三页,讲稿共九十一页哦任何一个正态分布XN(,2),作变换就可化成标准正态分布,即ZN(0,1)。正态分布有许多特点:例如它是对称的。正态变量大约有68%的可能性在离均值一个标准差的范围内取值;大约有95%的可能性在离均值1.96倍标准差的范围内取值。几乎不在离均值3倍标准差以外的地方取值。68%95%99.7%第二十四页,讲稿共九十一页哦例如设XN(54,0.852),要计算P(X52)。则可以这样计算:第二十五页,讲稿共九十一页哦x0.000.010.020.030.040.050.060.070.080.090.00
19、.10.20.30.40.50.60.70.80.91.01.11.21.31.41.51.61.71.81.92.02.12.22.32.42.52.62.72.82.90.50000.53980.57930.61790.65540.69150.72570.75800.78810.81590.84130.86430.88490.90320.91920.93320.94520.95540.96410.97130.97720.98210.98610.98930.99180.99380.99530.99650.99740.99810.50400.54380.58320.62170.65910.69
20、500.72910.76110.79100.81860.84380.86650.88690.90490.92070.93450.94630.95640.96480.97190.97780.98260.98640.98960.99200.99400.99550.99660.99750.99820.50800.54780.58710.62550.66280.69850.73240.76420.79390.82120.84610.86860.88880.90660.92220.93570.94740.95730.96560.97260.97830.98300.98680.98980.99220.99
21、410.99560.99670.99760.99820.51200.55170.59100.62930.66640.70190.73570.76730.79670.82380.84850.87080.89070.90820.92360.93700.94840.95820.96640.97320.97880.98340.98710.99010.99250.99430.99570.99680.99770.99830.51600.55570.59480.63310.67000.70540.73890.77030.79950.82640.85080.87290.89250.90990.92510.93
22、820.94950.95910.96710.97380.97930.98380.98740.99040.99270.99450.99590.99690.99770.99840.51990.55960.59870.63680.67360.70880.74220.77340.80230.82890.85310.87490.89440.91150.92650.93940.95050.95990.96780.97440.97980.98420.98780.99060.99290.99460.99600.99700.99780.99840.52390.56360.60260.64060.67720.71
23、230.74540.77640.80510.83150.85540.87700.89620.91310.92780.94060.95150.96080.96860.97500.98030.98460.98810.99090.99310.99480.99610.99710.99790.99850.52790.56750.60640.64430.68080.71570.74860.77940.80780.83400.85770.87900.89800.91470.92920.94180.95250.96160.96930.97560.98080.98500.98840.99110.99320.99
24、490.99620.99720.99790.99850.53190.57140.61030.64800.68440.71900.75170.78230.81060.83650.85990.88100.89970.91620.93060.94300.95350.96250.97000.97620.98120.98540.98870.99130.99340.99510.99630.99730.99800.99860.53590.57530.61410.65170.68790.72240.75490.78520.81330.83890.86210.88300.90150.91770.93190.94
25、410.95450.96330.97060.97670.98170.98570.98900.99160.99360.99520.99640.99740.99810.9986第二十六页,讲稿共九十一页哦2.2(n)分布的构成分布的构成设设X N(0,1),X1,X2,Xn是是X的随机样本,则这些的随机样本,则这些随机样本的平方和随机样本的平方和服从自由度为服从自由度为n的的 2分布,即分布,即 2 2(n)这是一种常用的分布。例如对服从正态分布的变量的随机样本,其方差函数S2就满足:第二十七页,讲稿共九十一页哦 2(n)一个非对称分布,其均值为一个非对称分布,其均值为n,方差为,方差为2n,其中
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 总体 分布 样本 讲稿
限制150内