统计学抽样与抽样分布课件.pptx
《统计学抽样与抽样分布课件.pptx》由会员分享,可在线阅读,更多相关《统计学抽样与抽样分布课件.pptx(113页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、统计学抽样与抽样分布统计学抽样与抽样分布第1页,此课件共113页哦 抽样与抽样分布1 抽样基本知识2 抽样分布3 样本统计量的抽样分布(一个总体参数推断时)4 样本统计量的抽样分布(两个总体参数推断时)第2页,此课件共113页哦学习目标1.1.了解概率抽样方法了解概率抽样方法2.2.区分总体分布、样本分布、抽样分布区分总体分布、样本分布、抽样分布3.3.理解抽样分布与总体分布的关系理解抽样分布与总体分布的关系4.4.掌握单总体参数推断时样本统计量的分布掌握单总体参数推断时样本统计量的分布第3页,此课件共113页哦 抽样基本知识抽样基本知识 总体与样本 抽样方法 抽样框抽样误差第4页,此课件共1
2、13页哦总体和参数总总体体(Population),是指所要研究的对象的全体,它是由所研究范围内具有某种共同性质的全部单位所组成的集合体。总体单位总数用N表示。参参数数(parameterparameter)。用来反映总体数量特征的指标称。研究目的一经确定,总体也唯一地确定了,所以总体指标的数值是客观存在的、确定的,但又是未知的,需要用样本资料去估计。第5页,此课件共113页哦总体和参数(续)通常所要估计的总体指标有通常所要估计的总体指标有变量总体变量总体属性总体属性总体总体平均数总体平均数 (或记为或记为)总体比例(成数)总体比例(成数)总体标准差总体标准差或方差或方差总体比例标准差总体比例
3、标准差P P或方差或方差P P 总体标志总量总体标志总量 ()()总总体体中中具具有有某某一一属属性性的的单单位位总总数数(NP)(NP)等。等。第6页,此课件共113页哦样本和统计量样样本本(SampleSample),它它是是从从总总体体中中抽抽取取的的部部分分总总体体单单位位的的集集合合体体 。样样本本容容量量。样样本本中中所所包包含含的的个个体体的的数数量量,一一般般用用n n表表示示。在在实实际际工工作作中中,人人们们通通常常把把n30n30的的样样本本称称为为大大样样本本,而而把把n30nn)分层抽样把异质性较强的总体分成一个个同质性较强的子总体,再抽取不同的子总体中的样本分别代表
4、该子总体,所有的样本进而代表总体。等距抽样把总体的单位进行排序,然后按照固定的抽样距离抽取样本。第一个样本采用简单随机抽样的办法抽取。整群抽样抽样的单位不是单个的个体,而是成群的个体。多阶段抽样把抽样过程分为几个阶段进行。适用于总体规模特别大,或者总体分布的范围特别广时 第26页,此课件共113页哦非概率抽样n也叫非随机抽样,是指从研究目的出发,根据调查者的经验或判断,从总体中有意识地抽取若干单位构成样本。n重点调查、典型调查、配额抽样(是按照一定标准或一定条件分配样本单位数量,然后由调查者在规定的数额内主观地抽取样本)、方便抽样(指调查者按其方便任意选取样本。如商场柜台售货员拿着厂家的调查表
5、对顾客的调查)等就属于非随机抽样。n优优点点:及时了解总体大致情况,总结经验教训,在进行大规模抽样调查之前的试点。n缺缺点点:非随机抽样容易产生倾向性误差,并且误差不能计算和控制,也就无法说明调查结果的可靠程度。第27页,此课件共113页哦概率抽样与非概率抽样抽抽抽抽样样样样方式方式方式方式概率抽概率抽概率抽概率抽样样样样非概率抽非概率抽非概率抽非概率抽样样样样简单简单简单简单随机抽随机抽随机抽随机抽样样样样分分分分层层层层抽抽抽抽样样样样等距抽等距抽等距抽等距抽样样样样整群抽整群抽整群抽整群抽样样样样多多多多阶阶阶阶段抽段抽段抽段抽样样样样重点重点重点重点调查调查调查调查典型典型典型典型调查
6、调查调查调查配配配配额额额额抽抽抽抽样样样样方便抽方便抽方便抽方便抽样样样样第28页,此课件共113页哦第29页,此课件共113页哦第30页,此课件共113页哦第31页,此课件共113页哦第32页,此课件共113页哦4.系统随机抽样 先随机地抽取一个样本,然后按某种规律顺次地得到全部样本的抽取方法。系统随机抽样的实现方法:对容量为N的总体,先将总体中各个个体按某种顺序从1到N编号。设要从中抽取出容量为n的样本,设N/n=k,则先从编号为1到k的k个个体中随机地抽取一个,然后每隔k个抽取一个,顺次得到容量为n的样本。系统随机抽样也称为系统抽样、等距抽样或机械抽样。第33页,此课件共113页哦重复
7、抽样与非重复抽样n重复抽样,又称回置抽样,是指从总体的N个单位中,每次抽取一个单位后,再将其放回总体中参加下一次抽选,连续抽n次,即得到一个样本。n特点:样本是由n次相互独立的连续试验构成的,每次试验是在完全相同的条件下进行,每个单位中选的机会在各次都完全相等。n“重抽”(考虑顺序)可能的样本数目(从总体中可能抽取的样本个数,用M表示)为:Nn个。第34页,此课件共113页哦重复抽样与非重复抽样n不重复抽样,也叫不回置抽样,是指抽中的单位不再放回总体中,下一个样本单位只能从余下的总体单位中抽取。n特点特点:样本由n次连续抽取的结果构成,实际上等于一次同时从总体中抽取n个样本单位。n次抽取结果不
8、是独立的n 可能的样本数目(考虑顺序):N(N-1)(N-2)(N-n+1)个。第35页,此课件共113页哦重复抽样与非重复抽样n设设有有4 4名名学学生生的的月月消消费费支支出出分分别别为为:240240,280280,360360,400400元元。我我们们分分别别用用A A、B B、C C、D D替替代代。若若从从中中抽抽取取两两个个单位构成样本,则全部可能的样本数目为:单位构成样本,则全部可能的样本数目为:n重复:重复:4 42 2=16=16个。它们是个。它们是 n AA AB AC AD;BA BB BC BD AA AB AC AD;BA BB BC BD n CA CB CC
9、CD;DA DB DC DD CA CB CC CD;DA DB DC DDn不重复:不重复:43=1243=12。它们是。它们是 n AB AC AD;BA BC BDAB AC AD;BA BC BDn CA CB CD;DA DB DC CA CB CD;DA DB DC 第36页,此课件共113页哦抽样框调查目的确定之后,抽样总体(目标总体)也就随之确定。但实际进行抽样的总体范围与目标总体有时是不一致的。所以,有了目标总体,还必须明确实际进行抽样的总体范围和抽样单位,这就需要编制一个抽样框抽样框。抽样框是包括全部抽样单位的名单框架。编制抽样框是实施抽样的基础。抽样框的好坏通常会直接影响
10、到抽样调查的随机性和调查效果。第37页,此课件共113页哦抽样框n名单抽样框。名单抽样框。列出全部总体单位的名录一览表。n区域抽样框。区域抽样框。按地理位置将总体范围划分为若干小区域,以小区域为抽样单位。n时间表抽样框。时间表抽样框。将总体全部单位按时间顺序排列,把总体的时间过程分为若干个小的时间单位,以此时间单位为抽样单位。n理想的抽样框:不重复、不遗漏。第38页,此课件共113页哦抽样误差n统统计计调调查查误误差差,是是指指调调查查所所得得结结果果与与总总体体真真实实数数值值之间的差异之间的差异。n 登记性误差登记性误差。是任何一种统计调查都可能产生。是任何一种统计调查都可能产生。n 代表
11、性误差代表性误差系系统统性性误误差差:是是由由于于非非随随机机因因素素引引起起的的 样样本本代代表表性性不不足足而而产产生生的的误误差差,表表现现为为样样本本估估计计量量的的值值系系统统性性偏偏高高或或偏低,故也称偏差;偏低,故也称偏差;随机误差随机误差:又称偶然性误差,是指:又称偶然性误差,是指遵循随机原则抽样,遵循随机原则抽样,但由于样本各单位的结构不足以代表总体各单位的结但由于样本各单位的结构不足以代表总体各单位的结构而引起的样本估计量与总体参数之间的误差构而引起的样本估计量与总体参数之间的误差。这就。这就是抽样估计中所谓的抽样误差是抽样估计中所谓的抽样误差 。第39页,此课件共113页
12、哦三个误差概念实际抽样误差实际抽样误差 某一具体样本的样本估计值与总体参数真实值之间的离差。总体参数未知,每次抽样的实际抽样误差是无法计算的。样本是随机抽取,样本估计量是随样本不同而不同的随机变量,随机抽样误差也是随机变量,但样本估计量的所有可能取值总有一定的分布规律,抽样误差也就有一定的规律可循。抽样误差可以计算和控制,并不是指某次具体抽样的实际误差,而是从所有可能样本来考察的抽样平均误差和抽样极限误差。第40页,此课件共113页哦三个误差概念抽样平均误差(抽样标准误抽样平均误差(抽样标准误)是反映抽样误差一般水平的指标(因为抽样误差是一个随机变量,它的数值随着可能抽取的样本不同而或大或小,
13、为了总的衡量样本代表性的高低,就需要计算抽样误差的一般水平)。通常用样样本本估估计计量量的的标标准准差差来反映所有可能样本估计值与其中心值的平均离散程度。可以证明,对于既定的总体和样本容量,样本估计量是以相应总体参数为分布中心的。统计上把样本估计量的标准差定义为抽样平均误差第41页,此课件共113页哦三个误差概念抽样平均误差(抽样标准误抽样平均误差(抽样标准误)抽样平均误差可衡量样本对总体的代表性大小。抽样平均误越小,则样本估计量的分布就越集中在总体参数的附近,平均来说,样本估计值与总体参数之间的抽样误差越小,样本对总体的代表性越大。第42页,此课件共113页哦三个误差概念n实际中,抽样平均误
14、差不可能按定义式来计算,只能根据概率论和数理统计的有关理论来推导其计算公式。n在总体方差已知,总体单位总数为N,样本容量为n,简单随机抽样条件下,抽样平均误的计算公式为:第43页,此课件共113页哦三个误差概念抽样极限误差抽样极限误差一一定定概概率率下下抽抽样样误误差差的的可可能能范范围围,也也称称为为允允许许误误差差。用用表表示示,由定义知其表达式:由定义知其表达式:在一定概率下,在一定概率下,上上式式表表示示,在在一一定定概概率率下下可可认认为为样样本本估估计计量量与与相相应应的的总总体体参数的误差的绝对值不超过参数的误差的绝对值不超过 。用。用 、分分别别表表示示平平均均数数和和比比例例
15、(成成数数)的的抽抽样样极极限限误误差差,则则在在一一定定概概率率下下有:有:第44页,此课件共113页哦三个误差概念抽样极限误差抽样极限误差估计均值的置信区间:估计均值的置信区间:估计成数(比例)的置信区间:估计成数(比例)的置信区间:第45页,此课件共113页哦三个误差概念u抽样极限误差是抽样误差的抽样极限误差是抽样误差的可能范围可能范围,而不是完全肯定的范围。,而不是完全肯定的范围。所以,这一可能范围的大小是与其估计的可靠程度的大小(即概所以,这一可能范围的大小是与其估计的可靠程度的大小(即概率)紧密联系的。在抽样估计中,这个概率叫置信度,习惯上也率)紧密联系的。在抽样估计中,这个概率叫
16、置信度,习惯上也称为可靠程度、把握程度或概率保证程度等,用称为可靠程度、把握程度或概率保证程度等,用1-1-表示。表示。显然显然在其他条件不变的情况下,抽样极限误差越大,相应的置信度在其他条件不变的情况下,抽样极限误差越大,相应的置信度也就越大。也就越大。u与与抽抽样样极极限限误误差差相相关关的的两两个个概概念念是是:抽抽样样误误差差率率和和抽抽样样估估计计精度。精度。u抽样误差率抽样误差率=(抽样极限误差(抽样极限误差/估计量)估计量)100%100%u抽样估计精度抽样估计精度=100%-=100%-抽样误差率抽样误差率第46页,此课件共113页哦三个误差概念u估计精度与估计的可靠程度是矛盾
17、的。也就是说,如果精度很高,则会由于估计区间太窄而使错误估计的可能性大增,从而大大降低估计的可靠程度,使估计结果没有多大的作用;如果置信度很高,则意味着允许误差范围较大,而使估计精度太低,这时尽管估计的可靠程度接近或等于100%,但抽样估计本身也会失去意义。u实际中,只能依据具体情况,先满足一方面,然后确定另一方面。u抽样极限误差与抽样平均误差的关系?第47页,此课件共113页哦 三种不同性质的分布1 总体分布2 样本分布3 抽样分布第48页,此课件共113页哦总体分布(population distribution)1.总体中各元素的观察值所形成的分布 2.分布通常是未知的3.可以假定它服从
18、某种分布 总体总体第49页,此课件共113页哦样本分布(sample distribution)1.一个样本中各观察值的分布 2.也称经验分布 3.当样本容量n逐渐增大时,样本分布逐渐接近总体的分布 样样本本第50页,此课件共113页哦抽样分布(sampling distribution)1.1.样本统计量的概率分布,样本统计量的概率分布,是一种理论分布是一种理论分布在重复选取容量为n的样本时,由该统计量的所有可能取值及出现的概率分布 2.2.样本统计量(样本统计量(样本均值,样本比例,样本方差等)是随机变量,随机变量,它有若干可能取值,每个可能取值都有一定的可能性(即概率),从而形成它的概率
19、分布,即统计上所谓的抽样分布。3.样本统计量是由n个随机变量构成的函数,故抽样分布属于随机变量函数的分布。4.结果来自容量相同容量相同的所有所有可能样本第51页,此课件共113页哦抽样分布(sampling distribution)n抽样分布反映了样本指标的分布特征,是抽样推断的重要依据。根据样本分布的规律,可揭示样本指标与总体指标之间的关系,估计抽样误差,并说明抽样推断的可靠程度。n寻求抽样分布的方法:n精确分布,小样本方法n渐进分布,大样本方法第52页,此课件共113页哦抽样分布的形成过程(sampling distribution)总体总体计算样本统计计算样本统计计算样本统计计算样本统
20、计计算样本统计计算样本统计量量量量量量如:样本均值、如:样本均值、如:样本均值、比例、方差比例、方差比例、方差样样本本1 1样样本本2 2样样本本3 3第53页,此课件共113页哦抽样分布(例证)四名学生的月消费支出(240,280,360,400 元)。现按重复取样的方法,随机抽取两位构成一个样本,则全部可能的样本及其各样本的均值如下表所示:第54页,此课件共113页哦样本单位样本平均1240,2402402240,2802603240,3603004240,4003205280,2402606280,2802807280,3603208280,4003409360,24030010360,
21、28032011360,36036012360,40038013400,24032014400,28034015400,36038016400,400400合计5120均值频数240126022801300232043402360138024001第55页,此课件共113页哦抽样分布(例证)第56页,此课件共113页哦 样本统计量的抽样分布样本统计量的抽样分布 (一个总体参数推断时一个总体参数推断时)样本均值的抽样分布样本比例的抽样分布 样本方差的抽样分布第57页,此课件共113页哦样本均值的抽样分布样本均值的抽样分布第58页,此课件共113页哦样本均值的抽样分布1.在重复选取容量为n的样本时
22、,由样本均值的所有可能取值形成的相对频数分布2.一种理论概率分布3.推断总体均值的理论基础第59页,此课件共113页哦样本均值的抽样分布(例题分析)【例例例例】设设一一个个总总体体,含含有有4 4个个元元素素(个个体体),即即总总体体单单位位数数N N=4 4。4 4 个个个个体体分分别别为为x x1 1=1=1,x x2 2=2=2,x x3 3=3=3,x x4 4=4=4 。总总体体的的均均值值、方差及分布如下方差及分布如下总体分布总体分布总体分布总体分布1 14 42 23 30 0.1.1.2.2.3.3均值和方差均值和方差均值和方差均值和方差第60页,此课件共113页哦样本均值的抽
23、样分布(例题分析)现现从从总总体体中中抽抽取取n n2 2的的简简单单随随机机样样本本,在在重重复复抽抽样样条条件下,共有件下,共有4 42 2=16=16个样本。所有样本的结果为个样本。所有样本的结果为3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第二个观察值第一个第一个观察值观察值所有可能的所有可能的n=2 的样本(共的样本(共16个)个)第61页,此课件共113页哦样本均值的抽样分布(例题分析)计算出各样本的均值,如下表。并给出样本均值的抽样分布3.53.02.52.033.02.52.01.524.03.53
24、.02.542.542.03211.51.01第二个观察值第二个观察值第一个第一个观察值观察值16个样本的均值(个样本的均值(x)x x样本均值的抽样分布样本均值的抽样分布样本均值的抽样分布样本均值的抽样分布1.01.00 00.10.10.20.20.30.3P P (x x)1.51.53.03.04.04.03.53.52.02.02.52.5第62页,此课件共113页哦样本均值的分布与总体分布的比较(例题分析)=2.5=2.5 2 2=1.25=1.25总体分布总体分布总体分布总体分布1 14 42 23 30 0.1.1.2.2.3.3抽样分布抽样分布P P(x x)1.01.00
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 抽样 分布 课件
限制150内