《考试抄袭识别的心理测量学研究-韩丹.docx》由会员分享,可在线阅读,更多相关《考试抄袭识别的心理测量学研究-韩丹.docx(48页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、辽宁师范大学 硕士学位论文 考试抄袭识别的心理测量学研究 姓名:韩丹 申请学位级别:硕士 专业:基础心理学 指导教师:郭庆科 20080511 内容摘要: 考试抄袭是最难识别的作弊方式。抄袭统计量 ( ACS)和人员拟合统计量 (PFS)是识别抄袭的两类主要统计方法。 ACS是根据被怀疑抄袭者与被抄袭者 实际得分模式相似的概率来识别抄袭者。 PFS则把一个观察的项目得分模式与 一定的测量模型相对比,来检验被试得分模式是否与测量模型预测的模式相 吻合。其中, PFS由于在识别异常得分模式时存在一些干扰因素,所以对结果 的解释存在多样性,应用较少。 ACS是专门用于识别抄袭的统计方法,以往研 究表
2、明其识别率更高 .目前 ACS统计量在美国的 SAT和一些资格认证考试中已 经得到广泛应用。 研究采用 Monte Carlo模拟数据方法生成模拟数据。考察了测验长度、样 本量、抄袭比率、被抄袭者能力水平对抄袭统计量 K*、 Kl、 K2、 Sl、 S2与人 员拟合统计量 lz的识别率、经验 I型错误率的影响。模拟研究结果表明, K系 列指数和 S1统计量能把 I型错误率控制在理论水平之下, S2和 lz的 I型 错误率 浮动比较大, )能很好的把 I型错误率控制在理论水平;随着测验长度和抄袭 比率的增加,各统计量的识别率都逐渐提高; lz和的识别率不受样本量影 响,其余各指数都随样本量的增加
3、而有不同程度的提高;在抄袭比率低时 , S 的能力水平不影响各统计量的识别率,但在抄袭比率高时,识别率会有所提 高;在各种条件下, K系列指数的识别率要低于其它统计量,其中 K2好于 K*和 Kl, S2和 )统计量的识别率比较高;人员拟合统计量 lz的识别率低于 S1的识 别率,但大于 K2,只有个别条件下小于 K2。 关键词:考试抄袭;抄袭统计量;人员拟合统计量 ; Abstract Content: Answer copying is the hardest form of cheating to detect. There are two types of statistical me
4、thods to detect it: answer-copying statistics (ACS) and person-fit statistics (PFS). In ACS the likelihood of two examinees to give same answer pattern is calculated, the copier is detected if the likelihood is rather small. PFS compares an observed item score pattern with a test model predicted, ex
5、aminees who give aberrant item pattern arc suspected to be the copier. Many other factors besides answer copying can give rise to inflated PFS. ACS is especially presented to detect answer copying and has been broadly used to detect answer copying in SAT, Licensure and certification examinations in
6、America. Many researches were found that the detection rate of ACS was higher than PFS. The research simulated the data in the way of Monte Carlo and investigated the infulences of the test length, sample size, percentage of items copied and ability level of source to the empirical type I error, the
7、 detection rate of the ACS and PFS. The results of the simulation study showed that the statistics of K*, Kl, K2 and SI were able to hold the type I error rates below the a nominal level, S2 and lz were liberal and above the nominal a level in most situation, ( could maintain its type I e订 or on or
8、slightly below the nominal a level. Futhermore, the detection rate were enhanced with the increase of the number of items and percentage of items copied. Results futher showed that K*, K1, K2, SI resulted in higher detection rates for large sample size except lz and G, the detection rate of lz and c
9、o were similar for different sample sizes. When the rate of copying was lower(10%,20%) , the ability level of source hadnt effect on detection rate, but when the rate of copying was higher(30%,40%), the detection rate was improved with the increase of ability level of source. In all, the series of K
10、 had lower detection rate compared to other stastics, but K2 was better than K*and Kl, the S2 and co showed significant improvement in detection rate. The detection rate of lz was higher than SI, and lower than K2. Key Words: answer copying; answer-copying statistics; person-fit statistics; 学位论文独创性声
11、明 本人承诺:所呈交的学位论文是本人在导 师指导下所取得的研究成果。 论文中除特别加以标注和致谢的地方外,不包含他人和其他机构已经撰写或 发表过的研究成果,其他同志的研究成果对本人的启示和所提供的帮助,均 已在论文中做了明确的声明并表示谢意。 本学位论文作者完全了解辽宁师范大学有关保留、使用学位论文的规定, 及学校有权保留并向国家有关部门或机构送交复印件或磁盘,允许论文被查 阅和借阅。本文授权辽宁师范大学,可以将学位论文的全部或部分内容编入 有关数据库并进行检索,可以釆用影印、缩印或扫描等复制手段保存、汇编 学位论文。保密的学位论文在解密后使用本授权书。 学位论文作者签名 : m: 学位论文版
12、权的使用授权书 第一部分文献综述及问题提出 1.1引言 测验中有许多干扰因素会影响测验分数,使测验结果偏离真实。其中一 个因素就是作弊 ( cheating)。 在成就测验和能力测验中作弊非常普遍,如果 没有采取有效的预防措施,就会发生不同程度的作弊行为,它已经严重影响 测验的有效性和公平性。 Webste认为作弊是 用不诚实的方式获得好处和利 益 1。 Cizek把作弊定义为:任何偏离测验实施规则的行为,任何提供不公 平的有利条件的行为,任何降低测验推论精确性而提髙测验分数的行为 2。 作弊的方法多种多样, Cizek概括了三大类共 59种作弊的方法,其中包括 携带禁止使用的材料,通过现代通
13、讯工具传送信息,代考等 3。抄袭答案 (answer copying)是众多作弊方法中的一种,也是文献中经常提到的一种 作弊方式,它指的是一个被试 ( copier)从另一个被试 ( source)那里得到 全部或部分答案 4。被试可以从邻近的被试那里抄袭答案;也可以用传输各种 代码的方式抄袭答案,如使用钢笔时的咔嗒声、跺脚声等等。因此即使座位 不接近也可以进行抄袭。抄袭答案是最难识别的一种作弊方式 5,被试没有携 带任何禁止使用的材料,即使监考者看见被试偷看旁边被试的答案,因为仅 有视觉证据缺乏实物证据,所以不易举证被试抄袭答案。 识别和减少作弊发生的方法非常少。 Cizek总结 了识别抄袭
14、答案的不同方 法,包括自我报告法、观察法、精确的实验设计法和概率统计法。其中比较 有效是观察法和统计法 3。 观察法指在测验实施的过程中,要么通过观察被试的行为(如一个被试 看另一个被试的答题纸、一个被试同另外一个被试谈话、两个被试在测验期 间交换考试试卷),要么通过一些实物证据(已经被没收的作弊纸)来识别抄 袭答案 6。虽然这个方法能产生有说服力的证据,但它严重依靠于主观判断和 解释,因此并不可靠 7。而且我们必须对证据仔细检查之后才能断定是否有作 弊发生。 用统计方法来识别考试抄袭可以追 溯到 20世纪 20年代。近 30年来,大量 的抄袭统计量 (answer-copying stati
15、stics, ACS)被提出来并得到广泛的研 究和应用 U5U78。 从 20世纪 20年代开始,美国高等教育考试机构就己经开始 使用统计方法识别抄袭。 ETS曾资助过许多抄袭统计量的研究,目前 ETS已在 SAT测验中引入 K指数作为作弊识别指标 3。此后 Wollack将 )统计量用于 MBE (Multistate Bar Exam)和 MPRE (Multistate Professional Responsibility Exam i na t i on)考试中抄袭行为的识别 2。 一部分研究者认为用统计方法识别作弊是非常合理、有效和可靠的,但 另一些人则持强烈的反对意见,认为统计的
16、方法可能会把那些没有作弊的人 (仅仅由于偶然因素 ) 识别为作弊者。因此,研究各统计量的识别率, I型错 误率,并探讨其适用条件将是非常有意义的。 1.2抄袭统计量 ( ACS)的基本原理 抄袭统计量的统计原理是:在没有抄袭的假设条件下建立被试反应概率 的模型,在此基础上得到被试之间存在相似回答模式的概率,进而发现异常 的相似回答模式,存在这一模式的被试就被认为是可能的作弊者 6。 任何两个独立的被试都存在一些匹配反应。选择相同的正确答案是非常 普遍的,尤其是高能力被试,即使对低能力被试,他们也非常有可能正确回 答一些比较简单的项目。相似地,任何两个被试都可能做出匹配的错误反应, 每个项目一般
17、都会有一些错误选项来吸引能力比较低的被试。尤其是那些比 较难的项目,错误选项要比正确选项更容易被选择,因此两个被试选择共同 的错误选项也是正常的。虽然在一些项目上做 出匹配回答是可以接受的,但 某种类型的匹配回答却是异常的。两个能力比较高的被试不可能选择相同的 低频错误选项,相似地,低能力被试也不可能正确回答非常难的项目,也就 是说,如果低能力被试在较简单的项目上答错,那么他在难项目上就不容易 答对。这种匹配回答较少时并没有统计意义,但如果有许多这样的匹配发生, 就有统计学意义 2。 抄袭统计量就是在以上假定的基础上提出的。在计算时,所有的 ACS统计 量依据的都是被怀疑抄袭者与被抄袭者实际得
18、分模式相似的概率。 ACS 般被 分为两类 3,一类是把观察到的被怀疑抄袭者和被抄袭者匹配的反应模式与一 个已知的理论分布(如标准正态分布)进行对比 9111;另一类则是首先要建 立参加相同测验的被试 ( examinees)与被抄袭者 ( source)作出匹配反应模 式的分布 ( 经验分布或者经验分布的近似估计 ), 然后把观察到的被怀疑抄袭 者和被抄袭者作出相同反应模式的概率与之进行对比 ( 转引自 4),将理论上 出现概率小的匹配模式确定为可能的作弊模式。 抄袭统计量是识别抄袭中应用最广泛的方法,它除了帮助识别作弊者外, 还可以威慑潜在的作弊者。 1.3抄袭统计量 ( ACS)的发展
19、1.3. 1早期的经验方法 识别抄袭的统计方法最早源于 Bird在 1927 1929年间先后提出的三种经 验方法。他从一个大样本中随机抽取总分相近的被试,对比两两被试间匹配 的错误回答数目,并建立匹配错误回答数目的分布,把抄袭者与被抄袭者匹 配的错误回答的数目与之进行对比。因为匹配错误回答的数目依赖于被试的 能力水平,所以样本中所有被试的匹配错误回答数目应该相近。如果超出 常,就可以认为该被试为抄袭者。随后他验证了自己提出的统计方法, 测验 中观察者识别出 4个可能作弊的被试, Bird计算出没有作弊的被试匹配错误回 答数目的平均数为 4. 0,而被怀疑抄袭的四个被试在 149项目的测验中匹
20、配错 误回答数分别为 17、 25、 28和 31 转引自 12。随后 Crawford根据被怀疑抄袭者 和被抄袭者匹配错误回答的百分比来识别抄袭者 转引自 13。 1.3.2以概率模型为基础的统计量 Dickenson不再局限于经验方法,而是把真实的匹配错误回答数目与期望 的匹配错误回答数目进行对比,用 V表示对每个项目的选项数目, ( V-l)/V2 表示匹配错误回答的期望值,假设每一个被试都可能选择一个错误的回答, 如果观察的匹配错误回答的比率大于期望值的两倍就可以认为发生抄袭 转 引自 I,该统计量表示由于偶然因素导致的匹配错误回答的概率。 随后大量的研究者把二项分布引入抄袭统计量中,
21、 Anikeeff首先提出了 用二项分布来估计两个被试间匹配错误回答的概率。在被试不知道答案的时 候,就可以假设他们在选项中猜测答案,这时这个统计量就遵循平均数为 N, 标准误为的二项分布。其中, N为被怀疑抄袭者错误反应的数目, P表示每个项目选项数目的倒数。研究表明,该统计 量识别抄袭效果不好,只 有当被试抄袭的数目超过 16时有效 转引自 14。虽然 Anikeef提出的假设存在 不足,但他最早提出用二项分布来识别抄袭答案,而且还考虑到选项数目对 被试作出反应的影响。此方法对于识别作弊者是有效的,并为以后的研究奠 定了基础。这些方法由于当时计算资源匮乏,计算起来比较困难,所以它们 的使用
22、也受到限制。 Cody也是用二项分布来近似估计所有被试与 s匹配的错误回答数目的分 布,并用所有被试和 s作出匹配错误反应的比率来估计 (:和 5作出匹配错误反应 的概率 1S,但他没有对该统计量的有效性进行检验,而且文献中也没有报告 统计量和其它统计量的对比研究。 Hanson等对 Cody的统计量进行了改进。把 被怀疑抄袭者所在得分层中所有被试和 s作出匹配错误反应的概率作为抄袭 者和被抄袭者作出匹配反应的概率 15。 Belleza和 Belleza于 1989年提出 ESA统计量,与 Cody提出的方法相似,都 是以二项分布为基础,来识别被试在一个项目上与 s作出匹配的错误反应的概 率
23、,但 ESA统计量通过一个临界值识别是否发生作弊。但该统计量没有根据被 试的反应来估计二项分布中的成功参 数 ( P)值。它假设对于所有的被试和所 有的项目, P值都一样。研究表明该统计量的识别率比较低,如果要识别出抄 袭,在有五个选项的的测验中平均至少有 15个错误匹配项,即使这样,如果 被试抄袭的项目数比较少,抄袭也很难被识别出来 16。 Scrutiny!对 ESA统计 量进行调整,把匹配的错误回答数目 ( c和 s的错误回答不一定匹配)和由于 偶然因素导致的匹配错误回答数目的期望值进行对比。把所有项目 ( C和 S匹 配错误回答的项目)上正确得分的平均比率作为 P值。 Chason指出
24、该统计量的 识别率较低(与 g2和相比) 1 1966年, Holland提出的 K指数是当时使用最普遍的统计量,广泛应用于 ETS测验。该指数使用二项分布,通过估计由于偶然因素导致两被试匹配错误 回答的概率,来估计两个被试异常匹配回答的概率。随后 Sotaridona提出了 两个新指数 S1和 S2l8,这两个指数与 K指数相似,不同的是用泊松分布來建构 被试间匹配反应的概率。 1.3.3信息整合的抄袭统计量 上述方法都只分析匹配的错误回答。 I960年, Saupe概括了识别抄袭统计 量的发展,并提出了自己的 方法。他利用 optical mark reader程序来分析被 试的反应,根据
25、被试匹配正确回答和匹配错误回答,用线性回归的方法得到 了两个识别统计量。他指出分别分析匹配正确和匹配错误回答的好处主要在 于两个统计量提供的证据不会交迭,而且互相补充。他运用自己的模型识别 出150个样本中的 6个抄袭者。 Saupe指出此方法主要的缺点是应用随机模型, 但假设被试随机的回答测验题目是不合理的。他第一个使用计算机来识别作 弊,第一个以匹配错误反应和正确反应为基础来识别抄袭。 Angoff提出了八个统计量来识别抄袭。这些统计量是以共同的正确反应 的数目和匹配的错误反应的数目为基础。研究结果表明只有 B指数的识别效果 比较好,该指数是用匹配错误反应数目来识别抄袭,它是通过一个没有作
26、弊 的标准样本来预测由于偶然因素导致的匹配错误反应,预测值为两个被试错 误数目的乘积。如果两个被试观察的匹配错误数和预测的匹配错误数相差很 多就说明存在抄袭。研究结果表明,简单的记录被试匹配错误的数目可以灵 敏地检测出被试之间是否抄袭,匹配的错误回答越多就越可能发生抄袭 IW。 他同时提出匹配的正确回答可能是由于被试间 拥有相同的知识。 Frary根据估计被试的正确反应、错误反应和遗漏反应的概率,提出了两 个统计量。在否定第一个统计量之后,提出了 g2统计量。但该方法存在三个局 限:第一,为了使用这个方法,必须事先知道一个被试为可能的抄袭者,另 一个被试为被抄袭者,但一般在实践中难以实现;第二
27、,该统计量假设一个 被试在一个项目上作出某一个反应的概率是个常数,而不考虑被试的能力; 第三,在比较容易的测验中有效性会降低,他说: 如果被试正确回答的项 目数低于 90%,将会提高识别率 121。 由于经典测验理论存在的不足,项目 反应理论的研究越來越受到重视, 在考试抄袭的识别中也开始引入 IRT模型。由于以 IH为基础的统计量没有考 虑到被试间反应的相似性,而以 CCT为基础的统计量又严重依赖于被试样本。 因此, Wollack把项目反应理论和经典测验理论进行整合提出了 w抄袭统计 量。 当前考试抄袭的研究已经不仅仅局限于心理测量理论,开始融合更多的 学科和技术,如神经网络技术,并且更智
28、能化。 1.4主要的抄袭统计量及其性能 所有的抄袭答案统计量 4912都是以被怀疑抄袭者和被抄袭者匹配的 反应数目为基础,但存在一些差异。 ESA、 K、 Kl、 K2和 S1等统计量是根据匹 配错误数目来定义并建立抽样分布的 41621。而 Bm, g2, ( 和 S2等统计量则即 考虑匹配的错误回答数,也要考虑匹配的正确回答数 11121。 1.4.1以匹配错误回答数目为基础的抄袭统计量 研究者认为如果两个被试匹配正确回答的数目很大,可以有两种解释: 一是这对被试的能力都很高;二是一个低能力的被试从一个高能力的被试那 里抄袭答案 |2。由于不可能推测出哪种解释是正 确的,所以一些抄袭统计量
29、 主要集中在对匹配错误回答的识别。 早期的研究者如 Bird(转引自 22)所提出的统计量多数基于经验方法,统 计量的概率分布难以确定,参数估计不准确,识别率不高,因此没有得到广 泛应用。针对早期统计量的不足 ,Holland提出了 K指数 (转引自 4), Sotaridina 和Meijer改进其不足提出了 Kl、 K2和 SI、 S2指数 4H21。这些统计量表示由于偶 然因素导致的匹配回答的概率。其中,除了 S2之外都是以匹配错误反应为基 础来识别抄袭答案的统计量。这些统计量的区别主要在于变量 M (各被试与被 抄者的匹配的错误回答的数目)的虚无分布和参数估计方法的不同。 1.4.1.
30、1 K系列指数 在识别抄袭者时,我们把其中一个被试叫做抄袭者 c pier(C),指的是被 怀疑抄袭答案的被试。另一个被试叫做被抄袭者 source(s)。 c被怀疑从 s那抄 袭答案。则 K指数可表示为: 此公式是 Holland最先提出的 K指数,它以经验数据为基础。其原理是: 在 I个项目的测验中让 J个被试回答,根据被试错误回答的数据对被试进行分 组,把与抄袭者具有相同数量错误得分的被试作为一组,记为 c“ 。然后确定子 组 C|中每个被试 j 与 s相匹配的错误回答数,记为向量岣。叫的分布构成经验 一致性分布 ( the empirical agreement distributio
31、n)。 对于被试 c, 定义 met 为 C和 s匹配的错误回答数目。 K指数被定义为:与 C具有相同错误得分数目的 被试 j 与 s匹配的错误选项数目大于等于 (:与 5匹配错误数目的比率 8。 上 式 中 ne, niq.表示子组 C 中被试 j“ 与 s匹配错误回答的项目 数。 Ie5,表示一个指标变量 ( indicator variable),如果 meT s me.e, Ie5,就记 为 1 ,如果 meTme,e, 就记为 0 。 当 K非常小时,表明被试 c从 s那抄袭答案。一般情况 t, 实际计算 K 指数(子组 c ) 时,由于只用匹配错误的回答, “ 导致 c 组中的被试的数目变 得非常小,这样经常达不到事先确定的 I型错误率 0.01。而且 K指数受样本 量影响比较大。 为克服 K指数的缺点, Holland对 K指数进行修正。方法是用二项分布近似 估计 M的 分 布 , 再 用 作 为 对 P的估计,所得到的指数称为 K*。 4,分别用 和 &来表示,由此产生了两个版本的 K指数 Kl、 K2,其 (每个被试与 s匹配错误回答项目数的平均数 ) K = P(M,C (p:)?(i-p:.r g
限制150内