离中趋势的度量优秀课件.ppt
离中趋势的度量第1页,本讲稿共30页第一节 其它差异量数一、全距全距(range):一组数列中最大和最小数值之间的差。R=XH-XL其中XH为最大数值,XL为最小数值。第2页,本讲稿共30页二、平均差平均差(mean deviation,MD):各个数据与平均数差数的绝对值的平均数,称为平均差。MD=|X-Xm|/n平均差使用绝对值,没有正负,所以不便于在统计中运用。第3页,本讲稿共30页第二节 方差和标准差一、方差和标准差1、方差方差(variance,2,S2):各数据与平均数差数的平方和的平均值称为方差,也称为变异数。因此,方差的定义公式为:2=(X-)2/n S2=(X-Xm)2/n第4页,本讲稿共30页2、标准差计算方差时使用了平方,也就是夸大了数据和平均数的距离,因此需要将方差开方以还原其本来的差异,这就是标准差。即:标准差(standard deviation,S)是方差的平方根。标准差的定义公式:=2=(X)2/nS=S2=(XXm)2/n第5页,本讲稿共30页3、方差的估计值总体的参数可以用样本的统计量来加以估计,但是用一个样本的统计量来估计它所属总体的参数,可能容易发生错误。但是,如果我们用一个包含有无限多个元素的样本的统计量来估计总体的参数就不容易造成错误,这个统计量就被称为是总体参数的无偏估计值(unbiased estimate)。第6页,本讲稿共30页如果从总体中随机抽取一个样本,样本包含有无限多个个体,则计算样本平均数的公式为:Xm=X/n这就是总体平均数的无偏估计值。这样我们就可以将下列公式中的用Xm替代,作为样本估计总体方差的无偏估计值。2=(X-)2/n2=S2=(X-Xm)2/n第7页,本讲稿共30页但是,统计学家发现用这样的公式求出来的方差低估了总体的变异,因此使用(X-Xm)2/n来估计总体的方差时,分母的n必须改为(n-1)才不会低估总体的方差,这里(n-1)就叫做样本的自由度。第8页,本讲稿共30页(1)自由度自由度(degree of freedom,df)是指当以样本的统计量来估计总体的参数时,样本中独立或能自由变化的数据的个数称为该统计量的自由度。例如,在估计总体的平均数时,样本中的n个数全部加起来,其中任何一个数都和其他数据相独立,从其中抽出任何一个数都不影响其他数据(这也是随机抽样所要求的)。因此一组数据中每一个数据都是独立的,所以自由度就是估计总体参数时独立数据的数目,而平均数是根据n个独立数据来估计的,因此自由度为n。第9页,本讲稿共30页但是为什么用样本估计总体的方差时,方差的自由度就是(n-1)?2=(X-)2/n从此公式我们可以看出总体的方差是由各数据与总体平均数的差值求出来的,因此必须将固定后才可以求总体的方差。因此,由于被固定,它就不能独立自由变化,也就是方差受到总体平均数的限制,少了一个自由变化的机会,因此要从n里减掉一个。第10页,本讲稿共30页那为什么平均数被固定后会限制数据的自由变化?假设一个样本有两个数值,X1=10,X2=20,我们现在要用这个样本估计总体的方差,则样本的平均数是:Xm=X/n=(10+20)/2=15现在假设我们已知Xm=15,X1=10,根据公式Xm=X/n,则有:X2=2Xm-X1=215-10=20由此我们可以知道在有两个数据样本中,当平均数的值和其中一个数据的值已知时,另一个数据的值就不能自由变化了,因此这个样本的自由度就减少一个,变成了(n-1)。依此类推:在一组数据中,当其平均数和前面的数据都已知时,最后一个数据就被固定而不能独立变化了,因此这个样本能够独立自由变化的数目就是(n-1)个.第11页,本讲稿共30页(2)方差的估计值根据以上的讨论,总体方差的无偏估计值为:S2=(X-Xm)2/(n-1)第12页,本讲稿共30页(3)标准差的估计值由上述公式可以进一步推导出以样本标准差估计总体标准差的公式为:S=(X-Xm)2/(n-1)第13页,本讲稿共30页二、方差和标准差的计算公式前面提供的方差和标准差公式都是根据统计的数学定义列出的,因此称为定义公式(defining formulas)。这类公式在计算时比较繁琐,为计算的方便,由定义公式进一步推导出总体方差和标准差的计算公式:2=(X2-(X)2/n)/n=(X2-(X)2/n)/n以样本方差和标准差估计总体方差和标准差的公式为:S2=(X2-(X)2/n)/(n-1)S=(X2-(X)2/n)/(n-1)第14页,本讲稿共30页表:方差与标准差的公式摘要使用范围统计量定义公式计算公式总体方差(2)(X-)2/n(X2-(X)2/n)/n标准差()(X-)2/n(X2-(X)2/n)/n样本方差(S2)(X-Xm)2/(n-1)(X2-(X)2/n)/(n-1)标准差(S)(X-Xm)2/(n-1)(X2-(X)2/n)/(n-1)第15页,本讲稿共30页由表可以看出计算方差和标准差的两对公式所算出来的结果是不同的,在实际中应如何运用要根据是要计算总体的参数还是样本的统计量。如果要计算样本的统计量则用S2和S的公式。如果样本数据已经涵盖整个总体,也就是要计算总体的参数时,则用2和的计算公式。第16页,本讲稿共30页三、方差和标准差的计算下面的计算中只讨论对一组数据的描述,尚不涉及由样本统计量估计总体参数的情况,因此在这里这一组数据就是涵盖了整个总体,因此计算公式要采用总体的计算公式。在这里我们不讨论总体和样本的关系问题,因此方差和标准差的符号用S2和S。第17页,本讲稿共30页1、未分组数据求方差和标准差S2=(X-Xm)2/nS=S2=(XXm)2/n或者S2=(X2-(X)2/n)/nS=(X2-(X)2/n)/n第18页,本讲稿共30页例:XiXi-Xm=xX2Xi2600365-1125711494-24166003682464N=6,X=36x=0 x2=10Xi2=226第19页,本讲稿共30页2、已分组数据求方差和标准差S2=(fd2/N-(fd/N)2)i2S=(fd2/N-(fd/N)2)i其中:d=(Xc-AM)/i,(Xc-为各分组区间的组中值,f为各分组区间的次数,AM为估计平均数,N=f,I为组距。第20页,本讲稿共30页表2:50名高中学生数学成绩次数分布表第21页,本讲稿共30页四、方差和标准差的意义方差和标准差时表示一组数据离散程度的最好指标,是最常用的差异量数。其特点有:1、反应灵敏,每个数据变化都应在方差上体现;2、计算严密;3、容易计算;4、适合代数运算;5、受抽样变动影响小;6、简单明了;7、容易受极端数据影响。第22页,本讲稿共30页四、标准差的应用1、差异系数同一特质使用同一种测量工具得到的不同样本之间的离散度的比较可以通过直接比较标准差实现。不同特质样本之间的离散度比较可以通过比较差异系数(coefficient of variation,CV)来实现,差异系数大的则离散程度大。差异系数的公式为:CV=S/M100%其中:S为样本标准差,M为样本平均数。第23页,本讲稿共30页2、标准分数(1)定义标准分数(standard score)又称为Z分数,是以标准差为单位表示一个数在团体中所处位置的相对位置量数。计算公式为:Z=(X-Xm)/S其中:X代表原始数据,Xm平均数,S为标准差。Z分数表示其原分数在该组数据分布中,以平均数为中心时的相对位置。第24页,本讲稿共30页(2)Z分数的性质一组数据中所有由原分数转换得出的Z分数的和为零,平均数也为零。一组数据中各Z分数的标准差为1。第25页,本讲稿共30页(3)Z分数的应用可用于比较分数性质不同的观测值在各自数据分布中的相对位置高低。例如:一个20岁的大学生智力测验中作对了35个题目,一个6岁的儿童作对了9个题目,谁更聪明?当已知各不同质的观测值的次数分布为正态分布时,可用Z分数求不同观测值的总和或均值,以表示在团体中的相对位置。第26页,本讲稿共30页表:利用Z分数求总和第27页,本讲稿共30页3、异常值的取舍三个标准差的法则第28页,本讲稿共30页作业一:计算全距、平均差、方差和标准差第29页,本讲稿共30页作业二:计算下列次数分布表的方差和标准差表1表2第30页,本讲稿共30页