统计学抽样与参数估计.pptx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《统计学抽样与参数估计.pptx》由会员分享,可在线阅读,更多相关《统计学抽样与参数估计.pptx(87页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、抽样估计方法主要用在下列两种情抽样估计方法主要用在下列两种情况况 注意:注意:抽样估计只得到对总体特征的近似测度抽样估计只得到对总体特征的近似测度抽样估计只得到对总体特征的近似测度抽样估计只得到对总体特征的近似测度,因此,抽样估计还必须同时考察所得结果的抽样估计还必须同时考察所得结果的“可能范围可能范围”与与“可靠程度可靠程度”。1 1、对所考查的总体不可能进行全部测度;2 2、从理论上理论上说可以对所考查的总体进行全部测度,但实践上实践上由于人力、财力、时间等方面的原因,无法(不划算)进行全部测度。第1页/共87页第第一一节节 抽样与抽样分布抽样与抽样分布一、有关抽样的基本概念一、有关抽样的
2、基本概念二、抽样分布二、抽样分布第2页/共87页一、有关抽样的基本概念一、有关抽样的基本概念一、有关抽样的基本概念一、有关抽样的基本概念(一)(一)总体、总体参数及总体分布总体、总体参数及总体分布总体总体(Population)(Population):它是指所要认识的,具有某种共同性质的许多单位的集合体,也就是研究对象的全体。总体单位数一般用“N”表示。例例1 1:某大公司人事部经理整理其某大公司人事部经理整理其25002500个中层干部的个中层干部的档案。其中一项内容是考察这些中层干部的档案。其中一项内容是考察这些中层干部的平均年平均年薪薪及参加过公司培训计划的比例参加过公司培训计划的比例
3、。总体:2500名中层干部(population),每个中层干部是总体的个体单位。N-=2500第3页/共87页如果同时有如果同时有15001500人参加了公司培训,则可从例人参加了公司培训,则可从例1 1每个人每个人的档案资料中计算如下的总体参数:的档案资料中计算如下的总体参数:总体均值(population mean):=51800 总体标准差(Population standard deviation)=4000 总体比例P:P=1500/2500=0.60=60%参数参数是总体的是总体的数值特征数值特征 A parameter is a numerical characteristic
4、 of a population。抽样估计抽样估计就是要通过样本而非总体来估计总体参数就是要通过样本而非总体来估计总体参数。第4页/共87页1.1.总体中各元素的观察值所形成的分布 2.2.分布通常是未知的3.3.可以假定它服从某种分布 总体分布总体分布 (population population distributiondistribution)总体总体第5页/共87页p样本样本(Sample)(Sample):从总体中所抽取的部分个体,从总体中所抽取的部分个体,样样本容量本容量(Sample size)(Sample size)即样本单位数一般用即样本单位数一般用“n n”表示。表示。p
5、样本统计量样本统计量(Sample statistic):根据样本各单位标志值或标志属性计算的,反映样本数量特征的综合指标。(二)(二)样本、样本统计量和样本个数样本、样本统计量和样本个数在例在例1 1中中,假如随机抽取了一个容量为,假如随机抽取了一个容量为3030的样本:的样本:AnnualSalaryManagementTrainingProgram?49094.3Yes53263.9Yes49643.5Yes第6页/共87页 根据该样本求得的年薪样本年薪样本平均数平均数、标准差标准差及参加参加过培训计划人数的过培训计划人数的比例比例分别为:样样样样本本本本统统统统计计计计量量量量 第7页
6、/共87页1、考虑顺序的不重复抽样:N(N-1)(N-2)(N-n+1)2、考虑顺序的重复抽样:在总体单位数为N的总体中抽取容量为n的样本,样本个数可能有:在社会经济统计中,往往采用的是较大总体较大总体(视为无限总体)下的下的无序不重复抽样无序不重复抽样。3、不考虑顺序的不重复抽样:4、不考虑顺序的重复抽样:样本个数:样本个数:样本个数又称样本可能数目,也就是从 一个总体中可能抽取的样本个数。第8页/共87页常用参数常用统计量平均数方差平均数方差变量总体属性总体常用的参数和统计量计算公式常用的参数和统计量计算公式第9页/共87页(三)抽样方法(三)抽样方法 n 重复抽样重复抽样从N个单位中每次
7、抽取1个,抽取后将其号码记下,再放回,一直抽取n个单位组成一个样本,这样的抽样方法称为重复抽样。n不重复抽样 从N个单位中每次抽取1个,抽取后不放回,一直抽取n个单位组成一个样本这样的抽样方法称为不重复抽样。不重复抽样所得样本对总体的代表性较大,抽样误差较小,所以实践中通常采用不重复抽样。第10页/共87页(四)概率抽样的组织方式(四)概率抽样的组织方式 简单随机抽样:简单随机抽样:简单随机抽样:简单随机抽样:从容量为N的总体中完全随机地抽选样本,使每个可能样本被抽到的可能性相等,则称容量为n的样本为简单随机样本。分层抽样:分层抽样:分层抽样:分层抽样:也称分类抽样或类型抽样,它是按某个主要标
8、志对总体各单位进行分类,然后从各层中按随机原则分别抽取一定数目的单位构成样本。等距抽样:等距抽样:等距抽样:等距抽样:它是先将总体单位按一定顺序排队,计算出抽样间隔(或抽样距离),然后按固定的顺序和间隔抽取样本单位。整群抽样:整群抽样:整群抽样:整群抽样:它是将总体分为若干部分(每一部分称为一个群),然后按随机原则从中一群一群地抽选,对抽中群内的所有单位进行全面调查。第11页/共87页二、抽样分布二、抽样分布二、抽样分布二、抽样分布(Sampling distribution)(Sampling distribution)1 1、抽样分布的意义、抽样分布的意义2 2、样本均值的抽样分布、样本均
9、值的抽样分布3 3、样本比例的抽样分布、样本比例的抽样分布第12页/共87页 某一统计量(如:样本均值、成数和某一统计量(如:样本均值、成数和方差)的所有可能样本的取值和与之相对应方差)的所有可能样本的取值和与之相对应的概率所形成的分布。的概率所形成的分布。(1 1)抽样分布的概念)抽样分布的概念(2)数 字 特 征均值E(X)方差Ex-E(x)21 1、抽样分布的意义、抽样分布的意义第13页/共87页一个例子:样本均值的抽样分布【例例2 2】设设一一个个总总体体,含含有有4 4个个元元素素(个个体体),即即总总体体单单位位数数N N=4 4。4 4 个个体分别为个个体分别为x x1 1=1=
10、1、x x2 2=2=2、x x3 3=3=3 、x x4 4=4=4 。第一步:计算总体的均值、方差及分布:第一步:计算总体的均值、方差及分布:总体分布总体分布1 14 42 23 30 0.1.1.2.2.3.3均值和方差均值和方差第14页/共87页 第二步:抽样。第二步:抽样。第二步:抽样。第二步:抽样。从总体中抽取从总体中抽取从总体中抽取从总体中抽取n n n n2 2 2 2的简单随机的简单随机的简单随机的简单随机样本,在重复抽样条件下,共有样本,在重复抽样条件下,共有样本,在重复抽样条件下,共有样本,在重复抽样条件下,共有4 4 4 42 2 2 2=16=16=16=16个样本。
11、个样本。个样本。个样本。所有样本的结果如下表所有样本的结果如下表所有样本的结果如下表所有样本的结果如下表w3,4w3,3w3,2w3,1w3w2,4w2,3w2,2w2,1w2w4,4w4,3w4,2w4,1w4w1,4w4w1,3w3w2w1w1,2w1,1w1w第二个观察值w第一个w观察值w所有可能的n=2的样本(共16个)(一个例子)第15页/共87页(一个例子)第三步:计算出各样本的均值,如下表。并给出样本均值的抽样分布3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第一个观察值1616个样本的均值(个样本的均
12、值(x x)样本均值的抽样分布样本均值的抽样分布1.01.00 0.1.1.2.2.3.3P P(x x)1.51.53.03.04.04.03.53.52.02.02.52.5x x 这里,的相对频数分布,就称为 的抽样分布抽样分布。第16页/共87页 正是抽样分布及其特征使得用样本统计量估计总体参数的“精确程度精确程度”能够给予概率上的描述。一般地,样本统计量样本统计量的可能取值及其取值概率所形成的概率分布,统计上称为抽样分布抽样分布(sampling distribution)。精确度可靠度第17页/共87页第四步:计算所有样本均值的均值和方差式中:式中:式中:式中:M M M M 为样
13、本数目为样本数目为样本数目为样本数目 比较及结论:比较及结论:比较及结论:比较及结论:1.1.1.1.样本均值的均值(数学期望)等于总体均值样本均值的均值(数学期望)等于总体均值样本均值的均值(数学期望)等于总体均值样本均值的均值(数学期望)等于总体均值2.2.2.2.样本均值的方差等于总体方差的样本均值的方差等于总体方差的样本均值的方差等于总体方差的样本均值的方差等于总体方差的1/1/1/1/n n n n第18页/共87页在不重复抽样时,样本均值方差的方差:样本平均数的标准差又称为抽样平均误差(或抽样标样本平均数的标准差又称为抽样平均误差(或抽样标准差)。准差)。(一个例子)第19页/共8
14、7页样本均值的分布与总体分布的比较 =2.5 2=1.25总体分布总体分布1 14 42 23 30 0.1.1.2.2.3.3抽样分布抽样分布P P(X X)1.01.00 0.1.1.2.2.3.31.51.53.03.04.04.03.53.52.02.02.52.5X X第20页/共87页2 2、样本均值的抽样分布、样本均值的抽样分布抽样 均值均值=Xi/N第21页/共87页考察样本均值的概率分布形式。分两种况:1)总体分布已知且为正态分布;2)总体分布未知;(1 1)样本均值抽样分布的形状)样本均值抽样分布的形状wA、当总体分布已知且为正态分布或接近正态分布时,则无论样本容量大小如何
15、,样本均值都为正态分布。第22页/共87页 B、当总体分布未知时,需要用到中心极限定理(Central limit Theorem)对容量为对容量为n n 的简单随机样本,样本均值的分的简单随机样本,样本均值的分布随样本容量的增大而趋于布随样本容量的增大而趋于正态分布正态分布。经验上验证经验上验证,当样本容量等于或大于30时,无论总体的分布如何,样本均值的分布则非常接近正态分布。因此统计上常称容量在30(含30)以上的样本为大样本大样本(large-sample-sizelarge-sample-size)。第23页/共87页第24页/共87页抽 样 方 法 均 值 方 差 标 准差(1)从无
16、限总体抽 样和有限总体放回抽样(2)从有限总体不放回抽样抽样误差抽样误差样本平均数的标准差又称为抽样平均误差(或抽样标样本平均数的标准差又称为抽样平均误差(或抽样标准差)。由例准差)。由例2 2可得其计算公式:可得其计算公式:第25页/共87页样本统计量的估计值与其所要测度的总体参数值之间的绝对差距,被称为抽样误差(sampling error)。抽样分布能够用来提供抽样分布能够用来提供抽样误差抽样误差大小的可能性(概率)大小的可能性(概率)。样本均值抽样分布的实际应用样本均值抽样分布的实际应用 在例例1 1中,如果人事部经理认为在一次抽样中所得到的中层干部的平均年薪与总体均值(51800$)
17、误差在500元以内,他就可以接受样本估计值。则问题归结为在一次抽样中,误差在500元以内的可能性(概率)有多大?第26页/共87页 由于样本容量为30,可认为样本均值服从正态分布,因此,上述问题即为求一次抽样的样本均值点落在区间51300,52300内的概率,即求下图中阴影部分的面积。该例中:52300对应的标准正态分布标准正态分布中的点为:(52300-51800)/730.3=0.68 查标准正态分布表标准正态分布表:上述区间的面积为 0.2518+0.2518=0.5036 表明:在上述简在上述简单随机抽样中,只单随机抽样中,只有有50%50%的概率使得的概率使得样本均值与总体实样本均值
18、与总体实际均值的误差不超际均值的误差不超过过500500元。元。第27页/共87页3 3、样本比例的抽样分布、样本比例的抽样分布 当从总体中抽出一个容量为n的样本时,样本比例服从二项分布。当n时,二项分布趋近于正态分布。经验上,若np5且n(1-p)5,与P有关的样本为大样本下,样本比例p近似服从正态分布。比例的抽样平均误差(重复抽样)式中,P为总体比例,实际计算时通常采用以往经验数据或样本比例。第28页/共87页在例1中,由于全体中层干部接受过培训的人数比例为P=0.6,因此样本比例期望值为p=0.6;同时,由于n/N=30/2500=0.012=0.05,因此样本标准差为 又由于np=30
19、0.6=18,n(1-p)=30 0.4=12因此,样本比例服从如下正态分布:第29页/共87页例:灯泡厂从10000只灯泡中随机抽取500只检查其耐用时数,结果如下表。该厂规定耐用时数在850以下为不合格。求平均耐用时数及不合格率的抽样平均误差。耐用时数灯泡数 xxf800-850850-900900-950950-10001000-10501050-1100371291851024078258759259751025107530525112875171125994504100075253700003225000255000400000157500合计5004625001475000第30页
20、/共87页解:重复抽样条件下不重复抽样条件下第31页/共87页练习:1、从某大学学生中随机抽选100名调查体重,结果平均体重为58千克。根据过去的资料知道该校学生体重标准差为10千克。求抽样误差。2、某工厂共生产新型聚光灯2000只,随机抽选400只进行耐用时间调查,结果平均寿命为4800小时,标准差为300小时。求抽样误差。3、从某校学生中随机抽选400名,发现戴眼镜的有80人。计算求抽样误差。4、一批食品罐头60000桶,随机抽查300桶,有6桶不合格。求合格率的抽样误差。5、假设4个人工资分别为:400、500、700、800元,现随机抽选2人进行调查。(1)验证(2)计算重复抽样及不重
21、复抽样的抽样平均误差。第32页/共87页第第二二节节 参数估计的基本方法参数估计的基本方法 一、点估计一、点估计(Point estimate)(Point estimate)二、抽样误差(二、抽样误差(Sampling Sampling ErrorError)三、三、区间估计区间估计(Interval(Interval estimate)estimate)参数估计以实际观察的样本数据所计算的统计量作为未知总体参数的估计值。第33页/共87页一、一、点估计点估计(Point estimate)(Point estimate)1 1、点估计也称定值估计、点估计也称定值估计,就是直接以样本统计量作
22、,就是直接以样本统计量作为总体参数的估计值。为总体参数的估计值。如例1中,容量为30的样本所计算出的年薪样本平均数51814元、标准差2237.72元,及参加过培训计划人数的比例63%,分别代表2500名中层干部的平均年薪、年薪的标准差及受训比例。2 2、点估计的优点、点估计的优点是它提供了总体参数的具体估计值,是它提供了总体参数的具体估计值,可作为决策的依据,其缺点是不能提供有关抽样可作为决策的依据,其缺点是不能提供有关抽样误差的信息。误差的信息。第34页/共87页对同一总体参数,会有不同的估计量;作为一个好的点估计量,统计量必须具有如下性质:无偏性、有效性、一致性3、优良估计量的标准、优良
23、估计量的标准 1、无偏性(Unbiasedness):样本估计量的均值等于被估总体参数的真值;2、有效性(Efficiency):好的点估计量应具有较小的方差;3、一致性(Consistency):当样本容量增大时,估计量依概率收敛于总体参数的真值。可以证明:可以证明:样本均值样本均值、样本比例、样本标准差样本比例、样本标准差:无偏、有效、一致第35页/共87页一个样本可以得到总体参数的一个点估计,该点估计值与总体参数真值之间的差异,即为抽样误抽样误差差。有三个相互联系的概念:1 1、实际抽样误差:、实际抽样误差:二二 抽样误差抽样误差(Sampling Error)2 2 2 2、抽样平均误
24、差:、抽样平均误差:、抽样平均误差:、抽样平均误差:所有可能样本估计值与相应总体参数的平均差异程度第36页/共87页 3、抽样极限误差注意注意:1 1、统计学上往往用、统计学上往往用抽样极限误差抽样极限误差来测度抽样来测度抽样误差的大小或者说测度点估计的精度。误差的大小或者说测度点估计的精度。原因:原因:总体参数值往往并不知道,因此,实际实际抽样误差抽样误差与抽样平均误差抽样平均误差也往往无法求出,但在抽样分布大体知道的情况下,抽样极限误差是可以估计出来的。一定概率下抽样误差的可能范围(也称允许误差):第37页/共87页2 2、抽样极限误差的估计总是要和一定的概、抽样极限误差的估计总是要和一定
25、的概率保证程度联系在一起的。率保证程度联系在一起的。原因:原因:样本统计量往往是一随机变量,它与总体参数真值之差也是一个随机变量,因此就不能期望某次抽样的样本估计值落在一定区间内是一个必然事件,而只能给予一定的概率保证。因此,在进行抽样估计时,既需要考虑抽样误差在进行抽样估计时,既需要考虑抽样误差的的可能范围可能范围,同时还需考虑落到这一范围的,同时还需考虑落到这一范围的概率大小概率大小。前者是估计的准确度估计的准确度问题,后者是估计的可靠性估计的可靠性问题,两者紧密联系不可分开。这也正是区间估计所关心的主要问题。第38页/共87页三、区间估计(三、区间估计(Interval Interval
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 抽样 参数估计
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内