教育统计学考试复习资料.doc
第一章:1、何谓心理与教育统计学?学习它有何意义?教育统计学是专门研究如何运用统计学原理和方法,搜集、整理、分析教育科学研究中获得的随机性数据资料,并根据这些数据资料所传递的信息,进行科学推论找出教育活动规律的一门科学.具体讲,就是在教育研究中,通过调查、实验、测量等手段有意获取一些数据,并将得到的数据按统计学原理和步骤加以整理、计算、绘制图表、分析、判断、推理,最后得出结论的一种研究方法。意义:(1)统计学为科学研究提供了一种科学方法.(2)教育统计学是教育科学研究定量分析的重要重要工具。(3)广大教育工作者学习教育统计学既可以顺利地阅读国内外先进的研究成果,又可以提高工作的科学性和效率,同时也为学习教育测量打下基础。2、教育科学研究数据的特点 (1)教育科学研究数据与结果多用数字形式呈现;(2)教育科学研究数据具有随机性和变异性;(3)教育科学研究数据具有规律性;(4)教育科学研究的目的是通过部分数据来推测总体特征.总之,在教育科学实验或调查中,所获得的数据都具有变异性与规律性的特点。3、思考题:选用统计方法有哪几个步骤? 要分析一下实验设计是否合理,即所获得的数据是否适合用统计方法去处理,正确的数量化是应用统计方法的起步,如果对数量化的过程及其意义没有了解,将一些不着边际的数据加以统计处理是毫无意义的。 要分析实验数据的类型.不同数据类型所使用的统计方法有很大差别,了解实验数据的类型和水平,对选用恰当的统计方法至关重要. 要分析数据的分布规律,如总体方差的情况,确定其是否满足所选用的统计方法的前提条件.4、教育统计学的分类 (1)依研究的问题实质来划分,教育统计学的研究内容可划分为描述一件事物的性质、比较两件事物之间的差异、分析影响事物变化的因素、一件事物两种不同属性之间的相互关系、取样方法等等.(2)依统计方法的功能进行分类,教育统计学的研究内容可分为描述统计、推论统计和实验设计。5、描述统计:主要研究如何整理科学实验或调查得来的大量数据,描述一组数据的全貌,表达一件事物的性质. 具体内容包括:(1)数据如何分组,如何使用各种统计图表描述一组数据的分布情况;(2)怎样计算一组数据的特征值,简缩数据,进一步描述一组数据的全貌;(3)表示一事物两种或两种以上属性间相互关系的描述及各种相关系数的计算及应用条件,描述数据分布特征的峰度及偏度系数计算方法等。 6、推论统计:主要研究如何通过局部数据所提供的信息,推论总体(或称全局)的情形. 具体内容包括:(1)如何对假设进行检验,即各种各样的假设检验,包括大样本检验方法(z检验),小样本检验方法(t检验),各种计数资料的假设检验的方法(百分数检验、2检验等),变异数分析的方法(F检验),回归分析方法等等.(2)总体参数的估计方法。(3)各种非参数的统计方法等。7、思考题:描述统计、推论统计和实验设计这三部分统计内容有何关系?教育统计学的三个组成部分的内容不是截然分开的,而是相互联系的.描述统计是推论统计的基础,推论统计离不开描述统计计算所获得的特征值;描述统计只是对数据进行一般的分析归纳,如果不进一步应用推论统计作进一步的分析,描述统计的结果就不会产生更大的价值和意义,达不到统计分析的最终目的要求。同样,只有良好的实验设计才能使所获得的数据具有意义,进一步的统计处理才能说明问题.当然一个好的实验设计,也必须符合基本的统计方法的要求,否则,再好的设计,如果事先没有确定适当的统计方法处理,在处理研究结果时可能会遇到许多麻烦问题。8、教育统计与心理统计的异同 相同之处:二者的研究对象都是人,教育现象在很多情况下要通过人的心理现象去观察和分析,统计方法基本相同。不同之处: 在统计方法上:在教育方面的研究中,大样本的统计方法应用较多;而在心理学上小样本的方法较多。 在实验设计的水平上:教育实验中控制因素较难,采用自然实验、准实验设计方式较多,对统计结果的解释需要特别谨慎;而心理学实验则在实验室条件下进行较多,对各种实验变量的控制相对容易,统计处理结果的解释也较易进行。9、数据的类型(一)从数据的观测方法和来源划分,研究数据可区分为计数数据和测量数据两大类。 计数数据是指计算个数的数据,一般属性的调查获得的是此类数据,它具有独立的分类单位,一般都取整数的形式。测量数据是借助于一定的测量工具或一定的测量标准而获得的数据.(二)根据数据反映的测量水平,可把数据区分为称名数据、顺序数据、等距数据和比率数据四种类型。 称名数据只说明某一事物与其它事物在属性上的不同或类别上的差异,它具有独立的分类单位,其数值一般都取整数形式,只计算个数,并不说明事物之间差异的大小。 顺序数据是指既无相等单位,也无绝对零点的数据,是按事物某种属性的多少或大小,按次序将各个事物加以排列后获得的数据资料。 等距数据是具有相等单位,但无绝对零点的数据。 比率数据既表明量的大小,也有相等单位,同时还具有绝对零点的数据。(三)按照数据是否具有连续性,把数据划分为离散数据和连续数据。 离散数据一般取整数,在两个单位之间不能再划分细小单位。 连续数据的单位可以划得很细微,细微的程度能达到只可想象而不能看见的程度。10、思考题:统计量与参数之间有何区别和联系?区别: 参数是从整个总体中计算得到的量数,通常是通过相应样本特征值来预测得到;统计量是从一个样本中计算出来的一些量数,它可以描述一组数据的情况。 参数代表总体的特性,它是一个常数;统计量代表样本的特性,它是一个变量,随着样本的变化而变化。 参数与统计量之间最明显的区别是参数常用希腊字母表示,而统计量常用英文字母表示。联系:从数值计算上讲,当总体大小已知并与实验观测的总次数相同时,统计量与参数是同一统计指标;当总体为无限时,统计量与总体参数不同,但统计量可在某种程度上作为总体参数的估计值。通过样本统计量,对总体参数做出预测和估计。第二章:1、统计分组应注意的事项 (1)统计分组前的准备 。将数据进行分组前,先要对观测数据做进一步的核对和校验。校核数据的目的是为了尽可能地消去记录误差,以便后续的统计分析建立在一个坚实的基础上。(2)统计分组时应注意的问题。 分组要以被研究对象的本质特性为基础; 分类标志要明确,要能包括所有的数据.2、分组次数分布表的意义与缺点 意义:编制分组次数分布表,可将一堆杂乱无序的数据排列成序.从表中可以发现各个数据的出现次数是多少,其分布的状态如何。缺点:分组次数分布表也有缺点,仅从这张表看,原始数据不见了,只见到各分组区间及各组的次数.根据这样的统计表提供的数据资料计算得到的平均值,会与用原始数据计算的值有一定的出入。3、思考题:直方图、条形图、圆形图、线性图、散点图等这些常用的统计图,根据它们表现的作用和内容,把它们可分为哪几类? 根据它们表现的作用和内容,把它们可分为五类。第一种是表现分布的图,比如直方图。第二种是表现内容的图,如条形图和圆形图。第三种是表现变化的图,这种图形的代表是线性图。第四种是表现比较的图,这几种图形都能采用。第五种是表现相关的图,如散点图。4、条形图和直方图的区别.(1)描述的数据类型不同.(2)表示数据多少的方式不同.(3)坐标轴上的标尺分点意义不同。(4)图形直观形状不同.第三章:1、算术平均数的优缺点算术平均数具备一个良好的集中量数所应具备的一些条件: 反应灵敏; 严密确定; 简明易懂; 计算简单; 适合代数运算; 较少受抽样变动的影响.除此之外,算术平均数还有以下一些特殊的优点: 只知一组观察值的总和及总频数就可以求出算术平均数; 用加权法可以求出几个平均数的总平均数; 用样本数据推断总体集中量数时,算术平均数最接近总体集中量数的真值,它是总体平均数的最好估计值; 在计算方差、标准差、相关系数以及进行统计推断时,都要用到它。缺点: 易受极端数据的影响; 若出现模糊不清的数据时,无法计算平均数.2、算术平均数的意义、适用条件及应用原则意义:算术平均数是应用最普遍的集中量数,它是“真值”渐近、最佳的估计值.适用的条件:一组数据是比较准确,可靠又同质,而且需要每一个数据都加入计算,同时还要作进一步代数运算时,这时就需要用算术平均数表示其集中趋势。原则: 同质性原则; 平均数与个体数值相结合的原则; 平均数与标准差、方差相结合的原则.3、中数适用的情况(1)当一组观测结果中出现两极端数目时;(2)当次数分布的两端数据或个别数据不清楚时;(3)当需要快速估计一组数据的代表值时。4、众数适用的情况(1)当需要快速而粗略地寻求一组数据的代表值时;(2)当一组数据出现不同质的情况时;(3)当次数分布中有两极端的数目时;4)当粗略估计次数分布的形态时。第四章:1、思考题:为什么要引入差异量数来描述一组数据的特征? 在教育研究中,要全面描述数据的特征,不但要了解数据的典型情况,而且还要了解特殊情况。这些特殊性常表现为数据的变异性。因此,只有集中量数不可能真实地反映它们的分布情况.为了全面反映数据的总体情况,除了使用集中量数外,还需要引入差异量数。2、思考题:为什么说标准差是重要而完善的差异量? (1)标准差具有简单明了,反映灵敏,严密确定,容易计算,适合代数运算,受抽样变动的影响较少等优点.(2)标准差在避免两极端数值影响方面大大超过全距、百分位差和四分位差;在避免绝对值方面,优于平均差;在考虑单位方面,优于方差。3、差异系数的应用 (1)同一团体不同观测值离散程度的比较(即不同单位资料差异程度的比较);(2)对于水平相差较大,但进行的是一种观测的各种团体,进行观测值离散程度的比较(即单位相同而平均数相差较大的两组资料差异程度的比较).应用差异系数比较相对差异大小时,应注意以下几点: 测量的数据要保证具有等距尺度; 观测工具应具备绝对零; 差异系数只能用于一般的相对差异量的描述,至今尚无有效的假设检验方法.第五章:1、思考题:如何理解相关系数?相关系数是两列变量间相关程度的数字表现形式.对于这一概念,我们可以从以下几个方面来理解: (1)相关系数的取值在1。00和+1。00之间;(2)相关系数的绝对值表示两个变量之间的相关强度,绝对值越接近1表示相关越强,越接近0表示相关越弱;(3)相关系数的正负号表示相关的方向,相关系数为正的表示正相关,相关系数为负的表示负相关;(4)相关系数可以比较大小,但不能进行加减乘除运算。 2、如何选择合适的相关系数?选择计算相关系数的方法主要取决于要处理的数据的性质类别以及某一相关系数需要满足的假设条件.具体来说,为了选择一个合适的相关系数进行相关分析,要分以下几个步骤考虑:(1)考虑每种测量所产生的数据属于什么类别,测查被试的哪种心理属性,是分类,还是排序,还是评定等级?是否给出确定的分数?(2)要对第一种测量数据和第二种测量数据的类别做出判断。是二分数据、等级数据,还是等距数据?(3)确定采用哪一种相关系数。3、积差相关的适用资料(1)要求成对的数据,即若干个体中每个个体都有两种不同的观测值。(2)计算相关的成对的数据的数目不宜少于30对。(3)两列变量各自总体的分布都是正态分布,至少两个变量服从的分布是接近正态的单峰分布。(4)两个相关的变量是连续变量,也即两列数据都是测量数据.(5)两列变量之间的关系应是直线性的第六章:1、测验分数的正态化步骤如下:(1)将原始分数整理成次数分布表;(2)计算各分组上限以下的累加次数cf ;(3)计算每组中点的累加次数,即前一组上限以下的累加次数加上该组次数的一半;(4)各组中点以下的累加次数除以总数求累积比率;(5)将各组中点以下的累积比率视为正态分布的概率,查正态表,将概率转化为Z 分数;(6)将正态化的Z 值利用公式( T=10Z+50 )加以直线转化。2、概率分布的类型 (1)按随机变量是否具有连续性来分类,可分为离散分布与连续分布。(2)按分布函数的来源来分类,可分为经验分布(是指根据观察或实验所获得的数据而编制的次数分布或相对频数分布)与理论分布(一是指随机变量概率分布的函数数学模型,二是指按某种数学模型计算出的总体的次数分布)。(3)按概率分布所描述的数据特征来分类,可分为基本随机变量分布与抽样分布。第七章:1、总体参数估计(简称参数估计)是指根据样本统计量对相应总体参数所作的估计。总体参数估计可分为点估计和区间估计。2、点估计是指用样本统计量的值来估计相应总体参数的值。点估计的优点在于它能够提供总体参数的估计值;缺点在于它总是以误差的存在为前提,但又不能提供正确估计的概率。良好估计量的标准:无偏性、有效性、一致性、充分性区间估计是指以样本统计量的样本分布为理论依据,按一定的概率要求,由样本统计量的值估计总体参数值的所在范围。优点是不仅给出一个估计的范围,是总体参数包含在这个范围之内,而且还能给出估计精度并说明估计结果的有把握的程度。缺点是无法具体指出总体参数等于什么。第八章1、思考题:假设检验这种反证法与一般的数学反证法有什么不同?(1)数学反证法最终推翻假设的依据一定是出现了百分之百的谬误,因此推翻假设的决策无论是决策逻辑还是从决策内容看都是百分之百正确的。而假设检验的反证法最终推翻零假设的依据是一个小概率事件,从决策逻辑角度看是百分之百正确的,但其决策的内容却是有可能出错的.(2)数学中使用反证法,其最终结果一定是推翻原假设,而假设检验这种反证法的最终结果却有可能无充分理由推翻零假设。2、在统计学中,通过样本统计量得出的差异做出一般性结论,判断总体参数之间是否存在差异,这种推论过程称作假设检验。第九章:1、思考题:为什么不能用t检验对多个平均数的差异进行比较?这是因为在假设检验中作统计决策冒有犯错误的风险.在对两个总体平均数作检验时,我们犯拒真错误的概率为,结论正确的概率为1。而在对多个总体平均数作检验时,采用两两比较的方法,比较的次数会随总体的增多而迅速增多,假设共要比N次,那么连续次结论都正确的概率就是(1)N ,结论出错的概率为1(1-)N ,这个值会随着N的增大而迅速增大,这就不符合我们希望在一次检验中犯拒真错误的概率为的要求了.所以,在对多个平均数作显著性检验时,不能用t检验对多个平均数的差异进行比较。第十一章:1、非参数检验的特点 (1)非参数检验一般不需要严格的前提条件;(2)非参数检验特别适用于顺序资料(等级变量);(3)非参数检验很适合于小样本,且方法简单;(4)非参数检验最大的不足是未能充分利用资料的全部信息;(5)非参数检验目前还不能处理“交互作用"。2、适用资料 秩和检验法与参数检验中独立样本的t 检验相对应。当“总体正态"这一前提不成立,不能使用t检验时以秩和检验法代替t 检验.当两个样本都为顺序变量时,也需使用秩和检验法来进行差异检验。中数检验法与秩和检验法的适用条件基本相同,而且在非参数检验法中的地位也同秩和检验法相当,对应着参数检验中两独立样本平均数之差的t 检验。所谓符号检验法是以正负号作为资料的一种非参数方法,它适用于相关样本的差异检验,与参数检验中相关样本差异显著性t 检验相对应。符号检验法也是将中数作为集中趋势的度量,主要用来检验与某些差值的中数有关的零假设.符号等级检验法又称添号秩和检验法,其适条件与符号检验法相同,也适合配对比较,但它的精确度比符号法高。克瓦氏单向方差分析也称H 检验,作为非参数方法,它与参数方法中的完全随机资料方差分析相对应.弗里德曼双向等级方差分析可解决随机区组实验设计的一些非参数检验问题.适合于配对组(随机区组)设计的多个样本进行比较。第十二章:1、回归分析与相关分析的区别和联系是什么?联系:它们通常都是基于两正态连续变量的假设,都是处理两变量间相互关系的统计方法,通常两种方法不同时出现在文章中。区别:作为相互关系分析的方法,相关分析师通过提供一个相关系数来考察两变量间的联系程度,二回归分析则是重在建立两变量间的函数关系式,因此通常可以先考察相关系数的显著型,如果显著则可以进一步考虑建立变量间的回归方程。此外,相关分析和回归分析又各有一些具体方法用于处理不同的情况,如相关分析还包括等级相关、质量相关和品质相关,回归分析还包括非线性回归等.2、线性回归的基本假设:(1)线性关系假设(2)正态性假设(3)独立性假设(4)误差等分散性假设3、回归分析与相关分析的综合应用的具体步骤:(1)将成对资料绘制散点图,从散点图中点子的分布形状判断和是否有线性关系;(2)建立回归方程;(3)回归方程显著性检验;(4)计算回归估计标准误差;(5)根据建立的回归模型进行预测,估计真值预测区.4、回归分析与相关分析的关系:回归分析和相关分析均为研究及度量两个或两个以上变量之间关系的方法.从广义上说,相关分析包括回归分析,但严格地讲,二者有区别.当旨在分析变量之间关系的密切程度时,一般使用相关系数,这个过程叫相关分析.倘若研究的目的是确定变量之间数量关系的可能形式,找出表达它们之间依存关系的合适的数学模型,并用这个数学模型来表达这种关系形式,则叫做回归分析。第十三章:1、因子分析的类别:(1) R型因子分析和Q型因子分析(2)探索性因子分析与验证性因子分析2、多重回归方程中自变量的选择 (1)最优方程选择法(2)同时多重回归法(3)逐步多重回归法(4)层次多重回归法第十四章:1、思考题:两阶段随机抽样与分层抽样有何区别?从形式上看,两阶段抽样与分层抽样似乎都分成两步:第一步将总体分成若干部分,第二步再分别从部分中抽取个体,但二者在第一步中有着根本区别。在分层抽样中,对于每一个部分总体(即“层”)均需从中抽取个体,因而没有第一阶段样本的问题;而在两阶段抽样中,将总体分成若干个“集团”后,并不是对每一个集团都再进行第二阶段抽样,而是从所有的“集团”中先抽取一部分“集团”,这里实际上进行了第一阶段的抽样,构成了第一阶段样本,然后再对所选“集团”作第二阶段抽样.2、抽样研究的特点和作用(1)节省人力及费用;(2)节省时间,提高研究的时效性;(3)保证研究结果的准确性.3、随机化是抽样研究的基本原则。最主要的抽样方法:简单随机抽样、分层抽样、等距抽样。