《(5.1.7)--第六讲 推论统计与参数估计1.ppt》由会员分享,可在线阅读,更多相关《(5.1.7)--第六讲 推论统计与参数估计1.ppt(33页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1第六讲:推论统计与参数估计第六讲:推论统计与参数估计(1)2“社会学研究关注关心的是社会学研究关注关心的是总体总体的情况,不的情况,不是是样本样本的情况。的情况。”李沛良社会研究的统李沛良社会研究的统计应用计应用n“我们真正感兴趣的是我们真正感兴趣的是总体总体,而不是,而不是样本样本。我们抽取样本,只是为了方便,而我们的目我们抽取样本,只是为了方便,而我们的目的是在于根据已知的的是在于根据已知的统计量统计量来推论各种来推论各种参数参数。”布莱洛克社会统计学布莱洛克社会统计学3一、推论统计的基本概念一、推论统计的基本概念41.1 样本与总体样本与总体 总体总体(Population)n所关心的
2、所有元素的集合所关心的所有元素的集合 样本样本(Sample)n从总体中按一定方式抽取出的一部分从总体中按一定方式抽取出的一部分 元素的集合元素的集合总体总体总体总体样本样本样本样本 51.2 统计量与参数值统计量与参数值 参数值参数值(Parameter)n总体的数字特征,通常用希腊字母表示;例总体的数字特征,通常用希腊字母表示;例如总体均值如总体均值,总体标准差,总体标准差;统计量统计量(Statistic)n样本的概括性测度值,通常用罗马字母表示;样本的概括性测度值,通常用罗马字母表示;例如样本均值例如样本均值 ,样本标准差,样本标准差S。61.3 抽样抽样 从组成某个总体的所有元素的从
3、组成某个总体的所有元素的集合中,按一定的方式选取或抽取集合中,按一定的方式选取或抽取样本(一部分元素)的过程。样本(一部分元素)的过程。简单讲,抽样就是从总体中抽简单讲,抽样就是从总体中抽取样本的过程。取样本的过程。71.3.1 抽样方法抽样方法概率抽样概率抽样:根据已知的概率(随机原则)选取样本个案 简单随机抽样:分层抽样:整群抽样:等距抽样:非概率抽样非概率抽样:不是完全按随机原则选取样本 偶遇抽样:判断抽样:配额抽样:81.4 概率概率 随机随机事件发生事件发生可能性可能性(或然性)(或然性)大小的数量表示。大小的数量表示。91.5 抽样分布抽样分布 抽样分布是根据抽样分布是根据概率原则
4、概率原则而成而成立的理论分布,显示由同一总体中立的理论分布,显示由同一总体中反复不断抽取不同样本时,各个可反复不断抽取不同样本时,各个可能出现的样本统计量的分布情况。能出现的样本统计量的分布情况。101.6推论统计(概念要点)推论统计(概念要点)1、根据样本的统计值来推测总体的、根据样本的统计值来推测总体的参数值。参数值。2、统计推论以概率论为基础,因、统计推论以概率论为基础,因此统计推论的方法主要适用于概率此统计推论的方法主要适用于概率(随机)抽样的数据。(随机)抽样的数据。3、抽样分布原理是统计推论的依、抽样分布原理是统计推论的依据。据。11二、统计推论的基础:抽样分布二、统计推论的基础:
5、抽样分布 以均值抽样分布为例以均值抽样分布为例122.1 抽样分布(概念要点)抽样分布(概念要点)n由一个总体中反复不断抽取不同样本时,由一个总体中反复不断抽取不同样本时,各个可能出现样本统计值的分布情况。各个可能出现样本统计值的分布情况。比如均值的抽样分布。比如均值的抽样分布。n抽样分布是以概率为基础的。抽样分布是以概率为基础的。n抽样分布是一种理论分布。抽样分布是一种理论分布。132.2 均值抽样分布图均值抽样分布图X Xi i f f 根据数学的中心极限定理,在大样本情根据数学的中心极限定理,在大样本情况下,均值抽样分布接近正态分布。况下,均值抽样分布接近正态分布。142.3 均值抽样分
6、布的基本特征均值抽样分布的基本特征1、大样本(通常指大样本(通常指n 50,当然越大越好当然越大越好),均均值抽样分布服从正态分布;值抽样分布服从正态分布;2、均值抽样分布之均值就是总体均值、均值抽样分布之均值就是总体均值;3、均值抽样分布的标准差,称为标准误差、均值抽样分布的标准差,称为标准误差(standard error),计算公式为计算公式为152.3 均值抽样分布的基本特征(续均值抽样分布的基本特征(续1)4、如果将均值标准化,就可得到标准正态、如果将均值标准化,就可得到标准正态分布:分布:N(0,1)此表达式是此表达式是参数估计和参数估计和假设检验的假设检验的基础基础162.3 均
7、值抽样分布的基本特征(续均值抽样分布的基本特征(续2)5、通过标准化转化,均值抽样分布中任意、通过标准化转化,均值抽样分布中任意两值之间的样本均值次数所占的比例是两值之间的样本均值次数所占的比例是可以知道的。通过查标准正态分布表,可以知道的。通过查标准正态分布表,社会学常用的有:社会学常用的有:90的面积在的面积在1.65(1.65(SE);SE);95的面积在的面积在1.96(1.96(SE);SE);99的面积在的面积在2.58(2.58(SE);SE);172.4 均值抽样分布特征的意义均值抽样分布特征的意义 统计推论,就是根据抽样分布的原统计推论,就是根据抽样分布的原理来进行的,而抽样
8、分布则与概率密切理来进行的,而抽样分布则与概率密切相关。相关。因此,只要我们是采用随机抽样法,因此,只要我们是采用随机抽样法,就可以根据抽样分布,以样本的统计值就可以根据抽样分布,以样本的统计值来推测总体参数。来推测总体参数。18三、推论统计的两种模式三、推论统计的两种模式n参数估计(参数估计(parameters estimation)n假设检验假设检验(hypothesis test)193.1 参数估计参数估计 根据随机样本的统计值对总体的参数值进根据随机样本的统计值对总体的参数值进行估计。行估计。例如,由样本算出某社区居民的每月娱乐开支平均是例如,由样本算出某社区居民的每月娱乐开支平均
9、是42.542.5元,然后以此估计某市居民总体平均的娱乐开支元,然后以此估计某市居民总体平均的娱乐开支情况是多少情况是多少?是多于是多于42.542.5,还是少于,还是少于42.5?42.5?提到支出情提到支出情况在况在42.542.5元左右的多大范围内元左右的多大范围内?基本逻辑是:先看样本情况,然后估计基本逻辑是:先看样本情况,然后估计总体的情况。总体的情况。203.2 假设检验假设检验 首先假设总体的情况(参数或分布情况)是怎首先假设总体的情况(参数或分布情况)是怎样的,然后通过随机样本的统计值来检验这个假设样的,然后通过随机样本的统计值来检验这个假设是否正确。是否正确。例如,我们先假设
10、某城市居民总体用于娱乐消例如,我们先假设某城市居民总体用于娱乐消费的费用均值是费的费用均值是40元,然后根据样本的均值来证明元,然后根据样本的均值来证明和分析,这一对总体的假设是对还是错。和分析,这一对总体的假设是对还是错。逻辑:先假设总体的情况,然后抽样调查和分析样逻辑:先假设总体的情况,然后抽样调查和分析样本的资料,进而检验假设是否正确。本的资料,进而检验假设是否正确。21四、参数估计点估计四、参数估计点估计参数估计参数估计点估计点估计区间估计区间估计用用一个数值一个数值来估来估计总体参数。计总体参数。用用一个取值范围一个取值范围(区间)(区间)来估计来估计总体参数。总体参数。224.1
11、点估计点估计常用总体参数的点估计常用总体参数的点估计n总体均值总体均值n总体方差总体方差2 n总体标准差总体标准差 234.2.总体均值总体均值 的点估计的点估计样本均值样本均值X就是总体均值的点估计值。就是总体均值的点估计值。样本均值的计算公式为:样本均值的计算公式为:244.3 总体方差总体方差2的点估计的点估计样本方差样本方差S2就是总体方差的点估计值。就是总体方差的点估计值。样本方差的计算公式为:样本方差的计算公式为:25总体标准差总体标准差的点估计的点估计样本标准差样本标准差S就是总体标准差的点就是总体标准差的点估计值。样本标准差的计算公式估计值。样本标准差的计算公式为:为:我们知道
12、,样本量越大越能反映真实的情况,而算数均值却完全忽略了这个问题,对此统计学上早有考虑,在统计学中样本的均差多是除以自由度(n-1),它是意思是样本能自由选择的程度。当选到只剩一个时,它不可能再有自由了,所以自由度是n-1。264.4 总体成数总体成数p的点估计的点估计样本成数样本成数(比例比例/比率比率)P就是总体成数的点估就是总体成数的点估计值。计值。当当Xi为定类变量时为定类变量时,其取值有:,其取值有:Xi 1 1 当观测值为所研究的当观测值为所研究的A A类类0 0 其它其它表示在样本表示在样本n n次观测中,次观测中,A A类共出现类共出现m m次。次。274.5 总体成数的点估计公
13、式总体成数的点估计公式样本成数的计算公式:样本成数的计算公式:284.6 常用总体参数点估计小结常用总体参数点估计小结n总体均值总体均值 的点估计值:样本均值的点估计值:样本均值Xn总体方差总体方差2的点估计值:样本方差的点估计值:样本方差S2n总体标准差总体标准差的点估计:样本标准差的点估计:样本标准差S294.7评价估计值的标准评价估计值的标准n所谓总体参数所谓总体参数Q的最佳估计值的最佳估计值(x x1 1,x x2 2,x x3 3)应当是在某种意义下最近应当是在某种意义下最近似似Q的值。的值。n估计值的好坏有以下标准:估计值的好坏有以下标准:301、无偏性、无偏性n作为母体均值作为母
14、体均值的点估计值时,如果我们不是做一的点估计值时,如果我们不是做一次抽样,而是做了次抽样,而是做了m m次抽样,我们将得到次抽样,我们将得到m m个样本容个样本容量为量为n n的样本,由的样本,由m m个样本所计算的个样本所计算的m m个样本的均值是个样本的均值是不会完全相同的,也就是说其均值是随机变量。不会完全相同的,也就是说其均值是随机变量。n对于一个好的估计值,对于一个好的估计值,均值的分布总是围绕着总体均值的分布总是围绕着总体参数参数的周围,也就是说各的周围,也就是说各X X分布的均值应该恰好就分布的均值应该恰好就是总体参数是总体参数。这时,我们称估计值为无偏估计值。这时,我们称估计值
15、为无偏估计值。312、有效性、有效性n有效性的标准要求估计值的抽样分布,应该有效性的标准要求估计值的抽样分布,应该具有较小的分散性。以保证一次抽样的结果具有较小的分散性。以保证一次抽样的结果能以较高的概率接近待估的总体参数。能以较高的概率接近待估的总体参数。n也就是说,如果有两个估计值也就是说,如果有两个估计值Q1和和Q2,它们,它们都满足无偏性的话,那么,如果都满足无偏性的话,那么,如果Q1的方差比的方差比Q2小时,则称小时,则称Q1比比Q2有效。有效。323、一致性、一致性 n当样本容量逐渐增大时,估计值接当样本容量逐渐增大时,估计值接近参数值的概率越大。近参数值的概率越大。334.8 参数点估计的局限性参数点估计的局限性n 参数的点估计比较简单,但参数点估计很难计算参数的点估计比较简单,但参数点估计很难计算出估计的精度(可信度),因此研究中使用不多。出估计的精度(可信度),因此研究中使用不多。n 而参数的区间估计用一个范围来估计总体参数,而参数的区间估计用一个范围来估计总体参数,而且可以指出参数所在区间里的概率,即区间估计而且可以指出参数所在区间里的概率,即区间估计的置信度。从这个意义上讲,参数的区间估计应用的置信度。从这个意义上讲,参数的区间估计应用更广。更广。
限制150内