SPSS 在英语试卷统计分析中的应用.doc
SPSS 在英语试卷统计分析中的应用刘宝权 席仲恩上海外国语大学 研究生部,上海 摘要:本文旨在通过演示,使没有系统学过教育统计学的外语研究者和广大外语教师能够借助SPSS对日常考试试卷进行必要的分析。重点介绍SPSS在项目分析和试卷整体定量统计分析中的应用,包括原始数据的输入、项目难度、项目区分度以及试卷信度内容,以消除外语研究者及广大外语教师对于试卷定量分析的神秘感和恐惧感,从而使我们的学校考试或者课堂考试更科学,更好地服务于外语教学,最终大面积地提高我国的外语教学质量和效率。关键词:SPSS; 英语试卷分析;项目分析;信度分析Analyzing English Language Test with SPSSLIU Bao-quan, XI Zhong-enGraduate School, Shanghai International Studies UniversityAbstract: This paper demonstrates to the foreign language researchers and teachers how they, who have had no systematic training in educational statistics, can analyze their classroom or school-based tests with SPSS. A step-by-step approach is taken, starting from variable definition, inputting data, analysis to understanding the result. Our focus is on the interpretation of SPSS printout concerning item difficulty and item discrimination. Our aim is to demystify quantitative item and test analysis for humanistic-minded foreign language teachers so as to make it possible for them to make classroom test and school-based test more scientific and better serve foreign language education. Ultimately, the quality and efficiency of foreign language teaching in China will be improved. Key words: SPSS; Analysis of English Test; Item Analysis; Reliability Study1 引言测试既是教育系统的有机组成部分,又是教育系统中不可缺少的“魔鬼”。然而,显而易见,在当今社会教育资源相对落后的现实情况下,谁掌握着测试,谁就掌握着学校的课程安排和教学情景。于是,怎样驯服测试这个“魔鬼”,让其更好地服务于我们的教育和社会,就是一个摆在每一位政治家和教育工作者面前的既现实而又棘手的问题。由于测试目标的隐蔽性、模糊性以及对于测量对象测量的不完备性,使得测试工具(即考试试卷)的开发/制作、分析评价以及测量结果的报道不得不依赖一定的统计学理论。于是,就给测试涂上了一层神秘的色彩,使得一般的教师特别是外语老师对科学的测试理论望而却步。一方面,由于几乎完全凭借自己的经验出题而不能保证试卷应有的质量,对学生有欠公正;另一方面,由于缺乏必要的简单统计知识,使考试结果中蕴藏的大量信息白白浪费,或者对考试结果做出不够正确的解释。本文的目的就是帮助广大的外语教学研究者和工作在教学第一线的外语教师消除对于测试,特别是对于试卷定量分析的神秘感和恐惧感,使最广大的外语教学研究者和老师了解、并进而掌握试卷的定量分析技术,提高自己的课堂考试试卷的质量,增强科学解释考试结果以及从考试结果中提取有用信息的能力。SPSS是一种在世界社会科学范围内应用最为广泛的统计软件之一,其界面的友好性和操作的简便性,使得它备受广大社会科学工作者的青睐。因此,本文拟运用SPSS软件,对一份想象的客观考试试卷进行全程定量分析和评价,包括数据输入、项目分析和整卷分析等,目的是让有意学习试卷定量分析的读者,按照本文中的操作示例学会对自己的试卷进行独立分析,至于这份微型试卷的具体质量并没有任何实际意义。我们假定读者已经熟悉Windows 95及以上版本操作系统和Word字处理软件以及EXCEL统计软件的界面及其操作。2 具体操作2.1 数据输入本文中,我们假定试卷中的所有题目都是多项选择题或者有具体唯一客观答案的填空题,并假定每道题都被赋予相同的分数值,这样,答对一道题计1分,答错一道题计0分。于是,我们的原始数据就都是 0 、1 数据。象启动Word一样启动SPSS,于是我们就进入SPSS的数据编辑器界面,如图1所示。SPSS的数据编辑器界面酷似EXCEL的界面。当看到SPSS processor is ready (SPSS 处理器已经就绪)字样时,说明启动成功。这时便可以命名并定义变量。用鼠标左键单击数据编辑器下方的Variable View(变量表)字样,就进入变量命名及定义界面。在第一列输入变量名:在第一行的第一个单元格中输入“姓名”,在第二行的第一格输入第一个题目名(本文用v1),余此类推。单击第二列的相应单元格,选择适当的变量类型,和学生名字或者代号对应的变量类型为String(字符串),和题目名对应的为Numeric(数值类型)。第三列可以不管,第四列Decimals(小数点后的位数)选择0。最后一列Measure(量表水平),对应于学生姓名的选择Nominal(称名),对应于题目的选Scale(规度)。其余均用SPSS的默认值。变量一一定义完毕,左键点击下面的Data View (数据),返回数据编辑器界面,开始输入数据。输入数据时,第一列输入考生的名字或者编号,从第二列起直接输入题目成绩,以后依次每列输入一个题目的成绩,答对这个题目输入1,答错输入0。为了方便,本文假定考生的人数为22,题目(词汇)的个数为20。实际分析题目时,学生的人数一般要远远多于22人,题目的个数也多于20个。我们的原始数据表如图1。 图1. SPSS原始数据表 2.2 试卷分析2. 2. 1试卷分析的操作步骤原始数据准备就绪后,我们便可以进行项目(题目)分析。左键单击数据编辑器上面菜单栏的Analyze(分析),将鼠标移动到下拉菜单的Scale(量表)处,左键单击更下一级菜单的Reliability Analysis(信度分析),进入项目分析和信度分析对话框。在左框中选中要进入分析的项目(本例为v1v20),左键单击左右框之间的箭头,将选中的项目移至右边的框中。左键单击右框下面的Statistic(统计)钮,进入项目及试卷统计对话框。选中其中的Item,Scale,Scale if item deleted, Means,Variance,左键单击Continue钮,返回项目分析和信度分析对话框。左键单击OK钮,计算机就完成了所有的项目和信度分析。其输出结果如下。剩下的工作就是解释分析结果,提取必要的信息。2. 2. 2试卷分析结果的解读 用SPSS进行试卷分析,一次性可以提供大量的信息。下面,我们逐个解读几个分析结果输出表。图2.项目难度分析结果 R E L I A B I L I T Y A N A L Y S I S - S C A L E (A L P H A) Mean Std Dev Cases 1. V1 .2273 .4289 22.0 2. V2 .5909 .5032 22.0 3. V3 .3182 .4767 22.0 4. V4 .6818 .4767 22.0 5. V5 .6364 .4924 22.0 6. V6 .5000 .5118 22.0 7. V7 .4091 .5032 22.0 8. V8 .4545 .5096 22.0 9. V9 .3182 .4767 22.0 10. V10 .2727 .4558 22.0 11. V11 .6364 .4924 22.0 12. V12 .5000 .5118 22.0 13. V13 .0909 .2942 22.0 14. V14 .5000 .5118 22.0 15. V15 .1364 .3513 22.0 16. V16 .5909 .5032 22.0 17. V17 .5455 .5096 22.0 18. V18 .1364 .3513 22.0 19. V19 .4545 .5096 22.0 20. V20 .1818 .3948 22.0图2向我们提供的是项目难度(也就是通常所说的p)的信息。第一列是项目的序号,第二列是项目的名称,第三列(Mean)就是项目的难度(实际上是易度),第四列是项目的标准差,第五列是考生的人数。这里,我们只需要第三列-项目的难度就可以了。对于四选一的项目,其难度取值一般在0.475-0.85之间。低于0.475和高于0.85的题目一般认为不合适,应舍弃。图3.试卷统计结果Statistics for Mean Variance Std Dev N of Variables SCALE 8.1818 7.5844 2.7540 20 图3向我们提供的是整卷的总结信息。也就是说,这22个考生的平均分为8.1818,他们分数分布的标准差为2.7540,这份试卷由20个项目组成。如果我们用这份试卷测量任何一组和这22个考生能力分布一样的其他考生,得到的结果也应该是这样。值得注意的是,在项目分析阶段,试卷的统计结果是没有多大意义和用处的,因此可以忽略。但是,如果是用通过分析筛选过的合格项目构成的试卷做施测前的试测,则这部分关于整卷的总结信息就至关重要了。图4.项目区分度及试卷的信度 R E L I A B I L I T Y A N A L Y S I S - S C A L E (A L P H A)Item-total Statistics Scale Scale Corrected Mean Variance Item- Alpha if Item if Item Total if Item Deleted Deleted Correlation Deleted V1 7.9545 8.0455 -.2651 .5061V2 7.5909 7.6818 -.1257 .4896V3 7.8636 6.5996 .3093 .3926V4 7.5000 6.5476 .3318 .3873V5 7.5455 7.0216 .1228 .4347V6 7.6818 6.4177 .3489 .3795V7 7.7727 7.2316 .0368 .4543V8 7.7273 7.3506 -.0094 .4650V9 7.8636 7.5519 -.0743 .4762V10 7.9091 7.2294 .0600 .4475V11 7.5455 6.1645 .4816 .3484V12 7.6818 6.7987 .1963 .4174V13 8.0909 7.6104 -.0693 .4611V14 7.6818 6.7987 .1963 .4174V15 8.0455 7.8550 -.2001 .4846V16 7.5909 7.3009 .0111 .4600V17 7.6364 6.6234 .2673 .4001V18 8.0455 7.1883 .1448 .4316V19 7.7273 6.0173 .5229 .3341V20 8.0000 6.8571 .2764 .4065 Reliability CoefficientsN of Cases = 22.0 N of Items = 20Alpha = .4458 图4向我们提供项目区分度的各种信息和试卷的信度信息。第一列是项目名称,第二、三、四、五列全部是关于项目区分度的信息。通常,我们根据第四列判断项目区分度的优劣。具体的标准要根据考试的重要性决定。如果是非常重要的考试,例如高考和硕士入学考试,一个合格的项目,其区分度不应该低于0.3,最好在0.4以上。如果是一般的考试,区分度也不应该低于0.2。如果我们的标准定为0.4,根据我们的分析结果,只有v11和v19两个项目合格,其余都不合格,因此应该淘汰,不能进入正式的试卷。图4下面提供的便是试卷的信度信息。一般说来,在项目分析阶段,信度信息自身是没有多大用处的,可以不去理会它。因为,项目分析的目的是选出优秀的项目,剔除不合格的项目。如果我们经过多次的项目分析,将每一次选择的合格项目连同它们的难度和区分度参数(即数值)汇集起来,就构成一个题库。考试前,从题库中提取足够量的项目组成试卷。将构好的试卷施测于一组代表样本的学生。对这个考试结果再进行试卷分析,这时得到的试卷信度才是试卷的信度,才有意义。3结语考试是一种测量,试卷就是进行测量的工具。要提高测量的精度,就得在测量工具上下大功夫,我们用科学的测量理论对组成试卷的一道道题目进行分析,取优弃劣。即使由于各种原因在考试前不能做项目分析,在每次考试后也应该进行项目分析。这样做,虽然对于本次考试已经没有多大意义,但是,如果通过分析,把每一次考试的优秀项目累积起来,慢慢地,就构成自己系或者学校,甚至一门课程的题库。对由题库中的项目构成的试卷进行分析的过程与以上的过程完全相同。过去由于计算机不普及,统计软件不普遍,进行试卷分析有技术上的困难。可是,到了今天,计算机已走进千家万户,象SPSS这样的专业统计软件已经非常流行,而且它的使用并不比Word或者EXCEL复杂。我们没有理由不利用现代科学技术的成果服务于我们的外语教学和研究。对于一份试卷的分析到此还没有完成,我们以后将继续介绍用SPSS如何分析试卷的构建效度,以及如何用微软公司推出的EXCEL应用软件进行项目和试卷分析。通过专业软件学习试卷分析,是我们的一种新的学习方式,也是一种尝试,既然是学习和尝试,就难免有缺点和错误,敬请广大专家、学者、同行及其他读者批评指正。 一个量表的效度可以定义为观察值之间的差异所反映的物体之间被测特性的真实差异的程度,而不是系统误差或者随机误差。 1、内容效度 有时也叫做表面效度,是对量表的内容表现特定测量任务的优劣程度的一个主观而系统的评价,研究人员或其他人检测量表项目是否充分地覆盖了被测构想的全部范围。因此一个测量商店形象的量表如果忽略了任何主要的尺度(商品的质量、种类以及分类等),将被看做是不充分的。由于其主观的本质,单独的内容效度不是量表效度的充分指标,然而它有助于对量表分值的常识性解释。更为正式的评价可以通过检测标准效度获得。 2、标准效度 指一个量表是否像预期的那样反映与被选做标准的其它变量(标准变量)之间的关系。标准变量可以包括人口统计和心理特性、态度和行为测量值,或者从其他量表得来的分值。根据所涉及的时间阶段,标准效度可以采取两种形式:平行效度和预测效度。 当被评价的量表上的数据和标准变量上的数据同时收集时,所评价的是平行效度。为了评价平行效度,研究人员可以开发标准个性测量工具,比如Beaumont情感系统的简略形式。原始的测试工具和简化形式将被同时用以对一组调查对象进行测量,并比较其结果。为了评价预测效度,研究人员在一个时间点收集了量表上的数据,而在后面一个时间收集标准变量上的数据。例如,一个扫描仪样本组的成员对谷物品牌的态度可以被用来预测未来的谷物购买情况。态度数据从样本组成员处获得,然后他们未来的购买情况用扫描仪数据进行跟踪。将预测的购买和实际的购买相比较,从而评价出态度量表的预测性效度。 3、建构效度 致力于解决量表时间正在测量的是那些构想或特性的问题。当评价建构效度时,研究人员试图回答关于量表为什么有用,以及根据相应的理论可以得到哪些推论的理论问题,因此建构效度要求对被测的构想的本质及其他构想之间的关系有一个合理的理论。建构效度是要确认的效度之中最复杂、最困难的一种类型。建构效度包括收敛效度、判别效度和法则效度。 收敛效度指的是量表与同一构想的其他指标确实相互关联的程度,这些指标并不都要求使用常规的量表技术来获得。 判别效度指的是一个测量值与其他应该有所不同的构想之间不相互关联的程度,包括证明不同构想之间缺乏相互关联性。 法则效度指的是量表以在理论上可以预测的方式,与不同但相关的构想的测量值之间相互关联的程度,这样构成一个导致进一步演绎、测试和推理的理论模型,从而建立了一张法则表,其中几个构想系统的相互关联。基本方法:1.确定内容效度的方法 2.确定结构效度的方法 3.确定实证效度的方法 4.提高测量效度的方法 1.确定内容效度的方法: (1)逻辑分析法 内容效度的确定方法主要是逻辑分析法,其工作思路是请有关专家对测验题目与原定内容范围的吻合程度作出判断。其具体步骤是: 明确欲测内容的范围 明确欲测内容的范围包括知识范围和能力要求两个方面。这种范围的确定必须具体、详细,并要根据一定目的规定好各纲目的比例。 确定每个题目所测的内容 确定每个题目所测的内容,并与测验编制者所列的双向细目表(考试蓝图)对照,逐题比较自己的分类与制卷者的分类,并做记录。 制订评定量表 制订评定量表,考察题目对所定义的内容范围的覆盖率、判断题目难度与能力要求之间的差异,还要考察各种题目数量和分数的比例以及题目形式对内容的适当性等等,对整个测验的有效性作出总的评价。 (2) 克龙巴赫的统计分析方法 克龙巴赫还提出过内容效度的统计分析方法。其具体方法是:从同一个教学内容总体中抽取出两套独立的平行测验,用这两个测验来测同一批被试,求其相关。若相关低,则两个测验中至少有一个缺乏内容效度;若相关高,则测验可能有较高的内容效度(除非两个测验取样偏向同一个方面)。 (3) 再测法 再测法的操作过程是:在被试学习某种知识之前作一次测验(如学习电学之前考电学知识),在学过该知识后再作同样的测验。这时,若后测成绩显著优于前测成绩,则说明所测内容正是被试新近所学内容,进而证明该测验对这部分内容而言具有较高的内容效度。 2.确定结构效度的方法: (1)测验内部寻找证据法 首先,我们可以考察该测验的内容效度,因为有些测验对所测内容或行为范围的定义或解释类似于理论构想的解释,所以,内容效度高实质上也说明结构效度高。 其次,我们可以分析被试的答题过程。若有证据表明某一题的作答除了反映着所要测的特质外,还反映着其他因素的影响,则说明该题没有较好地体现理论构想,该题的存在会降低结构效度。 再次,我们足可以通过计算测验的同质性信度的方法来检测结构效度。若有证据表明该测验不同质,则可以断定该测验结构效度不高。当然,测验同质只是结构效度高的必要条件。 (2)测验之间寻找证据法 首先,我们可以去考察新编测验与已知的能有效测量相同特质的旧测验之间的相关。若二者相关较高,则说明新测验有较高的效度。这种方法叫相容效度法。 其次,我们也可以去考察新编测验与某个已知的能有效测量不同特质的旧测验间的相关。若二者相关较高,则说明新测验效度不高,因为它也测到了其他心理特质。需要注意的是,二测验间相关不高只是新测验效度较高的必要条件,并不是充分条件。这种方法也叫区分效度法。 再次,我们还可以通过因素分析的方法来了解测验的结构效度。其原理是:通过对一组测验进行因素分析,找出影响测验的共同因素。每个测验在共同因素上的负荷量(即测验与各因素的相关)就是测验的因素效度,测验分数总变异中来自有关因素的比例即是该测验结构效度的指标。 (3)考察测验的实证效度法 如果一个测验有实证效度,则可以拿该测验所预测的效标的性质与种类作为该测验的结构效度指标,至少可以从效标的性质与种类作为该测验的结构效度指标。 其做法有两种:一是根据效标把人分成两类,考察其得分的差异。例如,一组被公认是性格外向的人在测验中得分较高,另一组被公认为是性格内向的人在测验中的得分较低,则什么说明该测验能区分人的内向与外向特征,进而说明该测验在测量的性格内外向方法有较高的结构效度。 二是根据测验得分把分成高分组和低分组,考察这两组人在所测特质方面是否确有差异。若两组人在所测特质方面差异显著,则说明高测验有效,具有较高的结构效度。此外,对于一些被认为是较稳定的特质,若在短期内两次施测的结果差异不大,则说明该测验符合理论构想。 (4)多种特质-多种方法距阵法 该方法实质是相容效度和区分效度的综合运用,其原理是若用多种极不相同的方法测量同一种特质相关很高(用极为相似的方法测量不同特质相关很低),则说明测量效度较高。 例如,若有多种特质(如A、B、C)都接受了多种方法(如1、2、3、4)的测查,就可以分别计算出任意两种方法测量同一特质的相关和测量不同特质的相关,以及任意两种特质接受同一方法和不同方法的相关,并以这些相关系数为元素构成一个距阵,如下图所示:(扫描书99页表5.1) 在上表中,位于主对角线上的数值,是用同样的方法测相同特质所得的相关,是信度指标;在实三角形内的数值,是用同样方法测不同特质所得之相关。此相关若高,则说明方法间共同点较多;在虚线三角形内的数值,是用不同方法测量不同特质所得的相关,它一般较低,是特质与方法间交互影响的反映;在虚线三角形之间的两条对角线上的数值,是用不同方法测相同特质的相关,它是测验效度的指标。 3.确定实证效度的方法: (1)相关法 实证效度的一种常用估计方法是计算测验分数与效标测量的相关系数(积差相关法、等级相关法、二列相关法、四分相关法等等)。 (2)区分法 该方法的思路是,被试接受测验后,让他们工作一段时间,再根据工作成绩(效标测量)的好坏分成两组。这时再回过头来分析这两组被试原先接受测验的分数差异,若这两种人的测验分数差异显著,则说明该测验有较高的效度。 (3)命中率 当用测验作取舍决策时,决策的正命中率和总命中率是测验有效性的较好指标。 其中,总命中率是指根据测验选出的人当中工作合格的人数,以及根据测验淘汰的人当中工作不合格的人数之和与总人数之比。若总命中率高,则说明测验的效度高。这种测验在区别合格者与不合格者方法是有效的。 正命中率是指用测验选出的人中合格者所占的比例。这个比例越高,测验越有效。这类测验只关心被选中合格者有多少,而不关心被淘汰者中是否有合格者。这时测验的效度应该用测验的正命中率来评价。 另外,在评价一个测验的效度时,还要注意测验使用的功利率比例,即:使用测验所带来的好处应大大高于使用测验所耗费的时间、精力和经费,还要比较用测验与不用测验的效益之差,若差别不大,则没有使用测验的必要。 4.提高测量效度的方法: 要想提高测量效度民间必须设法控制随机误差、减小系统误差,同时,还要选择好特别恰当的效标,把效度系数准确地计算出来。具体来说提高测量效度的方法有: (1)精心编制测验量表,避免出现系统误差。 这就要求题目样本要能较好说代表欲测内容或结构,要避免出现题目偏倚。 同时,题目的难易程度、区分读也要恰当,题目的数量也要适中。太难、太易、太多、太少都是有损测量效度的。 此外,测验试卷的印刷,题目作答的要求,评分计分的标准,题目意思的表述等等,都必须严格检查,避免一切可避免的误差的出现。 (2)妥善组织测验,控制随机误差。 在测验实施过程中,系统误差一般不太明显,但随机误差却有可能失控。这就要求测验实施者一定要严格按手册指导语进行操作,要尽量减少无关因素的干扰。 (3)创设标准的应试情境,让每个被试都能发挥正常的水平。 在各种测验中,有些被试往往因各种原因而发挥不出应有水平(比如过分焦虑致使水平失常等),因此,我们应让被试调整好应试心态,让他们从生理上、心理上、学识上等做好应有的准备。否则,焦虑因素和其他无关影响过大,必然会降低测量效度,测不到欲测的内容或结构效度。 (4)选好正确的效标、定好恰当的效标测量,正确地使用有关公式。 在评价一个测验是否有效时,效标的选择是一个重要方面。假若所选效标不当,或所选效标无法量化,则很难正确地估计出测量的实证效度。如果效标及效标测量都合乎要求,则公式的选择也是影响效度估计的重要方面。一、 测量误差的计算: 误差理论也称变异理论,它是测量理论的基础。 也就是说,我们的测量是建立在“任何观察值(测量分值或结果)都有误差”这一前提假设之下的。总的测量误差包括系统误差和随机误差。 公式X=T+B+E+O 一般来说,我们所测观测值X由四个要素构成:一是真实值T,二是系统误差B,三是随机误差E,四是其他变量的影响O。 真实值:真实值T是观察值中如实、准确反映所测研究变量的那一部分。 系统误差:系统误差B是由测量工具、评分标准等直接与测量方法相关的因素引起的。它代表了每次测量中以同一方式影响观测值的稳定因素,如机械因素,是一种有规则的变异。 如每个人去称体重都发现自己轻了两斤,那很可能就是秤这个测量工具出现了偏差。 减少或消除系统误差的方法。 减少或消除系统误差的方法是在正式测量前,最好对测量工具进行检测和修正,尽量保证采用标准化的测量工具。如以标准尺度来评估。 不过也有些系统误差很难用一个统一的标准来消除。 随机误差法。 随机误差E通常由一些无法预知的因素引起的,如受访者的疏忽、情绪波动、瞬间的场景变换等。它代表了每次测量中以不同方式影响观测值的暂时因素,是一种非系统性的变异。 减少或消除随机误差的方法通常是重复多次测量或抽取大量样本。 其他变量的影响O是内含于测量工具之中的一种有规则的变异。 测量是对调查对象的特性即研究变量的测量,而我们设计的量表中往往会包含对其他变量的测量,因而我们的测量结果中就包含了其他变量的影响因素。 减少或消除随机误差的方法是对研究变量进行严格的操作化,提高测量指标的效度。 二、评估信度的方法 我们通常用相关度-即用同一量表多次测量过程中所得结果的相关性来评估信度。 相关度高,则测量获得了一致的结果,是可信的。相关度低,则测量结果不稳定,是不可靠的。评估信度的方法主要有复测信度、复本信度、和折半信度。 1、 复测信度 复测信度是什么:是指我们用同一份量表,对同一群受访者,在两次不同的时间进行调查,根据两次测量结果,计算相关系数,以此来评估测量信度。 相关系数是指两次观测值之间的相似程度,相关系数越高,信度越高。 复测信度作用:能够检测出受访者是否正确的理解所测问题,做出真实稳定的回答。如果两次测量结果出入很大,那么测量方法就一定有问题。 所以,我们在复测的同时,最好能配合复本信度来使用。 2、 使用复测信度的技巧 由于复测信度是调研人员在获得受访者对研究变量回答之后的再提问的过程,很可能会引起受访者的不快或怀疑。而且由于受访者的时间、精力有限,调研的开销有限,一般也不会对全部问题重复测量。 技巧1、我们通常会选取少数重要的问题由调研人员通过电话、邮件或再上门拜访等方式进行复测。 技巧2、在面对面的访谈中,我们可以在受访者做答完完毕后,进行补充式复测。同时,要注意一些发问技巧,以掩盖我们刻意的检验受访者答案可靠性的动机。 技巧3、在长期的跟踪调查中,我们可以考虑采用完全重复测量。并辅以电话,电邮,电脑等建立大型的数据库管理系统,定期更新、修补数据。 3、 复本信度 复本信度是什么:我们用两个等价的量表形式(原本和复本),对同一群受访者进行两次调查,然后根据测量结果,比较两次答案的相似性,计算相关系数,评估测量信度。 关键 使用复本信度最关键在于复本的质量,也就是说,复本必须是真正的复本。 与原本相比,复本要在内容、形式、难度及鉴别力等方面与原本完全一致,有的只是遣词造句上的出入。 我们需考察两份量表之间的等效程度,避免因为等效程度的不同而导致结果前后不一的情形。 不过,在实际调查中,真正完美的复本设计几乎是不可能的。 复本信度可以连续使用,也可相距一段时间进行。如有时间间隔,建议也控制在2-4周内。 复本信度的不足。 一是构建一个完全等价的量表技术上非常困难,或者说几乎是不可能的。 二是复本的设计耗时、耗力,且成本昂贵。 建立复本信度的技巧。 由于复本与原本在内容、形式等方面高度保持一致,我们在保证复本指涉同一主题时,可以适当将原本中的某些问题或陈述,反过来表达即可。 如原本中,让受访者对“A商店的服务员态度热情”发表意见,答案选项设“非常不赞同,不赞同,不确定,赞同,非常赞同”五项。则在复本中,我们可以这样提问,“A商店的服务员给人高傲的感觉”,答案依然设“非常不赞同,不赞同,不确定,赞同,非常赞同”五项。 如此两份量表如果测得的结果相同或高度相似,我们就可以说测量是不可靠的,反之,则是不可靠的。 4、 折半信度 折半信度是什么:是指信度的测量集中在构成一份量表的项目体系的内部一致性上。它是在我们无复本又不准备复测的情况下,通常采用的最简单的估计信度的方法。 折半信度是指由调研人员将测量结果按测量题目的单、双号或随机分成两组计分,然后将两组的分值进行比较,计算相关系数。通常会假定两组在构成和性质上都十分相似。 当然也可将复本信度中的所准备的原本和复本合在一份问卷中,然后比较这两份的测量结果之间的一致性。 折半法的作用。 折半法可用来检测问卷或量表中的各项问题是否针对同样的研究内容。如果测量结果高度相关,测量就是可靠的,否则就是不可靠的。 系数 测量结果主要取决于量表或问卷项目是如何被拆分的,我们通常用系数来检测。 系数是来自分割量表项目的不同方法的所有可能的折半系数的平均数。 它的一个重要特性就是往往随量表项目数的增加而增大。也因而可能因多余的量表项目的存在,被人为夸大。 系数一般介于0-1之间,0代表测量不可信,1代表测量完全可信,当系数小于或等于0.6时,表明内部一致性很低。 系数常与系数配合使用,以帮助确定在计算系数时所用的拆分方法是否掩饰了任何不一致的项目。 建立可靠的测量标准。 可靠的测量标准是指持有相同看法或感受的受访者在接受对同一研究变量的测量时,会产生相同或相近的答案。 不可靠测量标准的产生原因 如问题的提示语或解说词不够明确;