心理统计 样本平均数的分布.pptx
第七章第七章 样本平均数的分布样本平均数的分布 一综述一综述上一章:总体中某一特定分数或一组分数出现的概率 本章: 总体中特定样本发生的概率。 与推论统计关系更密切. 深入理解:推论统计的目标? 逻辑?w从同一总体取3次不同样本。每一个都不同:不同形状, 不同均值, 不同方差。如何对总体均值作出最佳估计? 二样本均值的分布二样本均值的分布(distribution of sample mean) w所有这些可能的样本会组成一个简单、有序、可所有这些可能的样本会组成一个简单、有序、可预测的模式预测的模式 (样本分布样本分布). 因此因此, 我们可以用样本我们可以用样本平均数的分布(平均数的分布(distribution of sample mean)的特征为依据来预测。的特征为依据来预测。w样本平均数的分布样本平均数的分布(distribution of sample mean):总体中可抽取的所有可能的特定容量总体中可抽取的所有可能的特定容量(n)的随机样本的样本平均数的分布。的随机样本的样本平均数的分布。w我们所要做的就是考察所有可能的样本我们所要做的就是考察所有可能的样本 (n一一定,这点很重要;不同定,这点很重要;不同n的分布不同的分布不同) 然后根然后根据其特性对总体特性(如总体平均数)作出预据其特性对总体特性(如总体平均数)作出预测。测。一个具体例子一个具体例子: w考虑下列总体:考虑下列总体: 2, 4, 6, 8 这个总体很小,我们知道其平均数这个总体很小,我们知道其平均数 (和方和方差差): M = 5, 但假定我们不知道但假定我们不知道, 想根据样本进想根据样本进行估计。行估计。 如何作到如何作到? wstep 1: 选取样本容量。选取样本容量。 本例中n = 2 (每次抽取两个) 以后还会讨论样本容量, 而一般原则是:样本容量越大,样本间相似的机会越高(样本与总体相似的机会也越高) wstep 2: 考虑所有可能的样本考虑所有可能的样本, 并考察其并考察其分布。分布。 _ 分数分数 样本均值样本均值(平均数)(平均数) 样本样本 firfirstst secondsecond ( () ) 1 1 2 2 2 2 2 2 2 2 2 2 4 4 3 3 3 3 2 2 6 6 4 4 4 4 2 2 8 8 5 5 5 5 4 4 2 2 3 3 6 6 4 4 4 4 4 4 7 7 4 4 6 6 5 5 8 8 4 4 8 8 6 6 9 9 6 6 2 2 4 4 1010 6 6 4 4 5 5 1111 6 6 6 6 6 6 1212 6 6 8 8 7 7 1313 8 8 2 2 5 5 1414 8 8 4 4 6 6 1515 8 8 6 6 7 7 1616 8 8 8 8 8 8 样本均值的分布样本均值的分布 f 2 1 3 2 4 3 5 4 6 3 7 2 8 1 wstep 3: 现在可以回答这个问题现在可以回答这个问题: 选取一个均选取一个均值大于值大于7 p( 7)的样本的概率是多少的样本的概率是多少?w考察样本均值的分布考察样本均值的分布, 我们发现我们发现 16 个样本当个样本当中有中有1个样本其均值大于个样本其均值大于 7。w问题:从问题:从2、4、6、8四个数中每次随机抽四个数中每次随机抽2个个数作为样本,问样本均数为数作为样本,问样本均数为4的概率是多少?的概率是多少?w这样我们就可以了解样本分布的规律,从而推这样我们就可以了解样本分布的规律,从而推论总体。论总体。 样本分布与总体分布的关系 1.形状形状: w当总体分布为正态,方差已知时,样本均值的分布形状一定是正态分布。总体分布不知道,但是方差已知,只要样本容量 n 较大时(30 以上),样本均值的分布近似正态分布。这样可以用正态分布理论理解样本统计量和总体参数的关系。 2.均值(平均数)均值(平均数): w每个样本平均数总是落在总体均值的附近(或上或下),这些样本均值的平均应该等于总体均值( x= )。w(2 + 3 + 4 + 5 + 3 + 4 + 5 + 6 + 4 + 5 + 6 + 7 + 5 + 6 + 7 + 8)/16=80/16=5w如果在同一总体中选择一组样本,大部分均值如果在同一总体中选择一组样本,大部分均值应当堆积在总体均值应当堆积在总体均值附近附近(如果不是这样,取如果不是这样,取样一定有偏差样一定有偏差) 3.样本平均数的标准差:标准误(standard error of X;SE)SE=x=/n标准误的用途是:告诉我们样本均值对总体均值标准误的用途是:告诉我们样本均值对总体均值的估计是否准确。的估计是否准确。 换言之,取样误差是多大换言之,取样误差是多大。标准误(取样误差)的大小取决于:总体的标准标准误(取样误差)的大小取决于:总体的标准差和所取样本容量的大小。理论上讲,样本容差和所取样本容量的大小。理论上讲,样本容量越大,取样误差越小量越大,取样误差越小。 (画图举例)(画图举例) 样本均数分布为正态分布前面讲到: (1)当总体分布为正态,方差已知时,样本均值的分布形状一定是正态分布。(2)总体分布不知道,但是方差已知,只要样本容量 n 较大时(30或50以上),样本均值的分布近似正态分布。样本均数分布为t分布但还有其他情况:w(1)总体方差未知时,w(2)样本容量较小时(n30),这两种情况下样本平均数分布为t分布。t分布表的使用(类似Z分布)课下阅读185-188页,掌握t分布特点。样本均数分布为t分布样本平均数分布的标准误w SE=Sx=x=s / n-1 或者 Sx=x=sn-1 / nw s= x2 / n sn-1 = x2 / n-1 三、总体参数的估计(不讲)w学习样本分布可以对总体参数进行估计:由样本统计量估计总体参数(推论统计)w总体参数估计包括点估计和区间估计w点估计:总体参数通常不知道,可以用具体的某个样本统计量估计。由于样本统计量取值为数轴上某一点,故对总体参数的估计为点估计。 (1)通常用样本平均数(X),作为总体参数的估计值(理论上希望抽样没有偏差,故样本平均数代表总体平均数) 。 (2)用样本方差(sn-12 )作为总体方差的无偏估计值(即代表总体方差)。w事实上,我们很难说总体参数和某个具体的统计量恰恰一样,也就是说点估计正确的概率是有限的(实际很小)w但如果说总体参数落在以样本统计量为核心的某个区间(区值范围)内,则把握大得多,这就是区间估计。w区间估计:是根据样本分布理论,用样本分布的标准误(SE)计算区间长度,解释总体参数落入某个置信区间可能的概率。考虑下列总体分布考虑下列总体分布 w假定我们猜测均值是85。这个猜测的置信性如何? w假定我们猜测均值是在 71和99之间的某处? 这个猜测的置信性如何? w也许你觉得后者的置信度较高。 这个差异对应于点估计和区间估计间的差别。 w 1 x包含所有X 的68.26%w 1.96 x包含所有X 的95%w 2.58 x包含所有X 的99% 阅读198-203页w例例: = 85, s = 5, n = 25。请对总体请对总体平均数作点估计和区间估计平均数作点估计和区间估计 w均值的点估计均值的点估计 如何找到总体均值的最佳单一值估计如何找到总体均值的最佳单一值估计? (1)如果我们可以得到所有可能随机的样本, 那么最佳的估计就是样本均值分布的均值。 (2)假定我们只有一个样本。 最佳的猜测是什么? 当然是,样本均值当然是,样本均值。(3)这个猜测是不是最佳的猜测? 1) 这是我们已知的唯一, 最佳的猜测。 2)大部分样本均值会相当接近总体均值, 所以有很大的机会样本均值会很接近。w(4)如何有更大的机会使估计准确? 我们可以用区间估计。w = (z)( ) Z可以为可以为t(这要看分布类型),其大小取这要看分布类型),其大小取决于想要的置信度(决于想要的置信度(0.99/0.95)记住:尾部为记住:尾部为5%时,时,z分数为分数为1.65;尾部;尾部为为2.5%时,时,z分数为分数为1.96。