关于某竞赛网评结果的建模与分析论文.doc
《关于某竞赛网评结果的建模与分析论文.doc》由会员分享,可在线阅读,更多相关《关于某竞赛网评结果的建模与分析论文.doc(35页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、关于某竞赛网评结果的建模与分析摘 要本文建立了某竞赛网评结果的数学模型,分析了网评成绩与最终成绩的关系,提出了评价评委的相关指标体系,考察了各竞赛试题间评委的差异性。对于问题1,要求给出网评成绩与最终成绩的相关性。注意到网评成绩中每份论文有四个评委的具体分数,而最终成绩只有该试卷的获奖等级。为了使得网评成绩和最终成绩具有可比性,我们首先将每份试卷的网评成绩的标准分求平均值,并根据网评成绩的平均标准分进行排序;然后根据获奖的比例将网评成绩转换成获奖的等级;最后将网评成绩的获奖等级与最终获奖等级进行比对,计算出网评成绩和最终成绩的绝对差值,并构造一个吻合度指标和差异性指标对网评成绩与最终成绩的相关
2、性进行度量,另外计算了Person相关系数、Spearman相关系数以及Kendall tau-b相关系数等统计学指标,从另外一方面来度量网评成绩与最终成绩的相关度。对于问题2,要求给出评价评委基本素质的指标体系。由于我们可用的数据仅为各评委所评试卷的分数以及该试卷的最终成绩,为了度量该评委的基本素质,我们从三方面提出评价评委的指标体系:评委评分的宽严度;评委所评试卷与他人评卷的评分偏离度;该评委所评试卷的网评成绩与终评成绩的差异度。由于标准分的折算已经对评委评分宽严度进行了修改,因此我们提出三个指标来评价评委的评卷质量:评委评分偏离度,评委吻合度指数和评委差异度指数。对于问题3,我们根据问题
3、2的三个评价指标建立数学模型,利用附件中的评审数据计算每个评委的评分偏离度,评委吻合度指数和评委差异度指数等三个指标值。根据这三个指标值对评委进行排序,并根据排序结果进行聚类分析,并评选出优秀评委。对于问题4,为了分析不同题目之间评委的整体表现的差异程度,我们根据评价评委的指标值进行方差分析,从方差分析的结果分析出现差异的主要原因。对于问题5,由于现有方案的终评成绩是网评成绩与集中评审成绩的加权平均,其权重为,我们提出一般的网评和集中评审分数的加权平均公式,并分析了网评成绩的权重系数对终评成绩的影响。最后建立了最优权重系数的贝叶斯模型,讨论了最优权重的确定方法,并给出了相关结论。最后,我们对全
4、文进行了总结。关键词:网评成绩,差异度指数,吻合度指数,评分偏离度,方差分析。 目 录一、问题重述与分析1二、模型的假设与符号说明3三、模型的建立及求解43.1 问题一模型建立与求解43.2 度量评委基本素质指标体系的建立93.3 问题三的模型建立与求解113.4 问题四模型建立与求解153.5 问题五的数学模型19四、模型的推广及优缺点分析23参考文献24附录25一、问题重述与分析某竞赛的评阅过程分两阶段进行,分别称为网评阶段与集中评审阶段。在网评阶段,竞赛论文被随机平均分配给每位评委,每份竞赛论文由四位评委评阅,每位评委以“百分制”记分,通过标准分计算公式将评委的“原始分”转换成“标准分”
5、,按照标准分总分排序,前55%的论文进入集中评审。集中评审阶段每份论文由三位评委按“百分制”独立评审,所有评委评审结束后,换算成标准分,最后将每份论文的三个标准分与网评中该论文的平均标准分一起求平均分,即为该论文的最终成绩。请完成以下建模任务:1. 竞赛组织者希望知道网评成绩与最终成绩的相关性,请根据附件中的评审结果,给出相应的结论,并对网评结果作出评价。2. 从不同角度出发,对竞赛评委有不同的基本素质要求,请给出合理的度量评委基本素质的指标体系。3. 建立评价评委基本素质的数学模型,并将其运用于附件中的评审数据,给出相应的结论。4. 附件中ABCDE表示不同题目,试分析不同题目的评委的整体表
6、现之间是否存在显著差异?如果存在,分析出现差异的可能原因。5. 试分析将网评成绩加入总成绩的利弊,并对如何更有效地利用网评成绩给出相应的建模结论。对于问题1,要求给出网评成绩与最终成绩的相关性,注意到网评成绩中每份试卷有四个评委的具体分数,而最终成绩只有该试卷的获奖等级。为了使得网评成绩和最终成绩具有可比性,我们首先将每份试卷的网评成绩的标准分求平均值,并根据网评成绩的平均标准分进行排序;然后根据获奖的比例将网评成绩转换成网评获奖的等级;最后将网评成绩的获奖等级与最终获奖等级进行比对,计算出网评成绩和最终成绩的绝对差值,并构造一个吻合度指标和差异性指标对网评成绩与最终成绩的相关性进行度量。此外
7、我们计算了网评成绩和最终成绩的Person相关系数、Spearman相关系数以及Kendall tau-b等级相关系数,从另外一方面来度量网评成绩与最终成绩的相关度。有关相关系数的定义,可参考文献1。对于问题2,要求给出评价评委基本素质的指标体系。由于我们可用的数据仅为各评委在网评阶段对每份试卷所评的具体分数以及该试卷的最终成绩,为了度量该评委的基本素质,我们从三个方面提出评价评委的指标体系:(1)评委评分的宽严度,度量每位评委的对论文的评阅时偏松还是偏严,有关评卷宽严度的度量可参考文献2;(2)评委所评试卷与他人评卷的差异。考虑每个评委所评的所有试卷,由于每份试卷在网评阶段是有四个评委评分,
8、因此该评委所评试卷与其他三位评委所评试卷的分数差异大小反映了该评委的评卷质量;(3)该评委所评试卷的网评成绩的获奖等级与终评成绩的获奖等级的差异也反应了该评委评阅试卷的质量。这里又包括两个指标:吻合度指数和差异度指数。吻合度指数是指该评委所评试卷的网评获奖等级与最终获奖等级相吻合的所占其所评试卷的比例。但由于该评委所评试卷的网评成绩和终评成绩可能相差不同的等级,因此差异度指标反映了该评委的总体得分。由于标准分的折算已经对评委评分宽严度进行了修改,因此我们提出三个指标来评价评委的评卷质量:评委评分偏离度,评委吻合度指数和评委差异度指数。对于问题3,我们根据问题2的评价指标体系建立数学模型,利用附
9、件中的评审数据计算每个评委的评分偏离度,吻合度指数和差异度指数三个指标值。根据这三个指标值对评委进行排序,并根据排序结果进行聚类分析,并评选出优秀评委。有关模型的建立,我们可参考文献3-5。对于问题4,为了分析不同题目之间评委的整体表现的差异程度,我们根据评价评委的指标值进行方差分析,从方差分析的结果分析出现差异的主要原因。我们可用SPSS统计软件进行方差分析,有关软件的运用可参考文献6。对于问题5,为了度量网评成绩加入总成绩的利弊,根据现有评分方案,计算网评成绩在最终成绩中所占的作用,另外,我们可提出一般的网评和集中评审分数的加权平均公式,建立最优权重系数的数学模型,从而给出相关结论。二、模
10、型的假设与符号说明为了对网评成绩建立更合理的数学模型,我们提出下面的假设。假设1:每个评委所评分数都是自身基本素质的体现;假设2:集中评审的评委都是优秀评委,所评分数是考生真实分数的反映;假设3:标准分折算公式是科学合理的;假设4:每道题的评价难度基本相等;假设5:所有评委评分都是独立进行的,即各评委评出的论文分数是相互独立的。为了书写的方便,我们引入下面的记号:符号符号说明总的论文份数总的评委位数第位评委对第份论文的网评原始分第位评委对第份论文的网评标准分第位评委网评的论文份数第份论文的网评平均标准分 第份论文的最终标准分 第份论文的集中评审的平均标准分 论文的网评标准分在最终成绩中考虑的权
11、重因子三、模型的建立及求解3.1 问题一模型建立与求解为了分析网评成绩与最终成绩的相关性,使两者具有可比性,我们首先要对最终成绩进行量化,并对网评原始分进行数据处理。对最终成绩进行量化处理如下:由于网评成绩是每位评委的具体分值,而终评成绩是获奖等级,为了使网评成绩与终评成绩进行比较,我们的思想是将网评的平均标准分也换算成获奖等级。然后根据网评等级和终评等级进行比对,差异小则表明网评成绩与终评成绩相关度高;反之则说明网评成绩与终评成绩相关度低。具体的步骤分为以下几步。()将网评原始分换算成标准分。设表示第位评委所评试卷份数,而为总试卷数,则第位评委所评份试卷的原始分求出相应的均值和标准差分别为:
12、, (1)其中为第位评委对第份论文的网评原始分,这里。()根据标准分计算公式,得到第位评委对第份论文的评审标准分为.(2)()由于每份论文仅有4位评委对其评阅,因此中仅有4个数不为零,根据每个网评成绩的标准分,可得到第份论文的网评平均标准分为。(3)()根据附件中每份论文的最终成绩,可得到各题获奖各奖项的获奖比例及获奖份数,如表3.1-表3.5:表3.1 A题获奖比例与试卷数A题获奖等级一等奖二等奖三等奖不获奖获奖比例4.225%16.34%21.69%57.745%获奖试卷数155877205表3.2 B题获奖比例与试卷数B题获奖等级一等奖二等奖三等奖不获奖获奖比例2.0498%17.789
13、1%22.4012%57.7599%获奖试卷数28243306789表3.3 C题获奖比例与试卷数C题获奖等级一等奖二等奖三等奖不获奖获奖比例3.6885%18.0318%21.3115%56.9682%获奖试卷数1888104278表3.4 D题获奖比例与试卷数D题获奖等级一等奖二等奖三等奖不获奖获奖比例1.9895%17.9637%23.0544%43.0076%获奖试卷数34307394974表3.5 E题获奖比例与试卷数E题获奖等级一等奖二等奖三等奖不获奖获奖比例2.5052%17.9541%22.3382%42.7975%获奖试卷数24172213549()根据网评成绩平均标准分可对
14、试卷进行排序,并根据该题的获奖比例确定网评成绩的获奖情况,得到网评成绩的向量,其中 ()根据网评成绩向量和终评成绩向量进行比对,若与吻合度高,则说明网评成绩与终评成绩相关度高,否则说明网评成绩与终评成绩相关度低。为了更加客观全面地度量网评成绩与终评成绩的相关性,我们分别定义了吻合度指数和差异度指数,统计学相关性指标:Person相关系数、Spearman相关系数以及Kendall tau-b相关系数等,并分别就五道题的网评数据进行计算。(1)吻合度指数与差异度指数为了度量网评成绩与最终成绩的相关性,我们需要对网评成绩与终评成绩进行比对。对每道题的网评成绩与终评成绩,定义向量:,则向量中分量的数
15、值表示网评成绩和终评成绩的差异值,可能取值为0,1,2,3,其中表示第份试卷的网评成绩与终评成绩的等级差值。统计中0,1,2,3的个数和比例,得到下面的结果:表3.6 网评成绩与终评成绩的绝对差值所占比例等级差值绝对吻合相差一级相差二级相差三级A题比例0.67330.30420.02250B题比例0.74380.24160.01460C题比例0.70290.25210.04300.0020D题比例0.42360.34640.21120.0187E题比例0.74740.23900.01360根据上面表格中的比例,做出A题网评成绩与终评成绩的吻合度比例的饼图如下:图3.1 A题网评与终评吻合度分析
16、图类似地,画出其他各题的吻合度比例图如下:图3.2 各题网评与终评吻合度分析图从上面的饼图可以看出,蓝色区域表示绝对吻合占有最大的比例,说明网评成绩与终评成绩具有较强的相关性。记表示的分量中0的个数,定义吻合度指数和差异度指数分别为:,以及= (4)显然,越大反映网评成绩与终评成绩相关度越大,且;而越大则反映网评成绩与终评成绩的相关性越低。另外,值仅反映了网评成绩与终评成绩的一致性,而没有度量网评成绩与终评成绩的差异度;但差异度指数正好补充了这一缺点,不仅反映了网评成绩与终评成绩的不一致性,而且在数值上度量了网评成绩与终评成绩的差异度。我们分别计算各题的吻合度指数和差异度指数得到下面的表3.7
17、:表3.7各题的吻合度指数和差异度指数题目A题B题C题D题E题吻合度指数67.33%74.38%70.29%42.36%74.74%差异度指数34.93%27.09%34.43%82.50%26.62%根据吻合度指数,我们得到各题的网评成绩与终评成绩的排序为:E题B 题C题A题D题。即E题的网评成绩与终评成绩的相关性是最高的,D题的网评成绩与终评成绩相关度最低。根据差异度指数对各题的网评成绩与终评成绩的排序为:E题B 题C题A题D题。即E题的网评成绩与终评成绩的相关性是最高的,D题的网评成绩与终评成绩相关度最低。与根据吻合度指数得到的相关性结果相同。(2)统计学相关性指标为了从统计学上度量网评
18、成绩与终评成绩的相关性,我们定义一些相关性统计指标:Person相关系数、Spearman以及Kendall tau-b等级相关系数。Person相关系数是度量两个向量线性相关程度的指标,定义为:,(5)其中。Person相关系数的取值在-1和1之间,度量了向量和的相关性,当为正且越大则表明网评成绩与终评成绩相关度越高;而越小并近似为零时,说明网评成绩与终评成绩相关度很低;当为负数越大,说明网评成绩与终评成绩呈现负相关。若把向量和的分量进行排序后得到秩向量,并根据秩向量定义相关系数,这种相关系数称为Spearman相关系数,定义为:,(6)其中分别为的秩。因为Spearman相关系数是根据秩定
19、义的,因此不受量纲的影响。 另外,我们定义Kendall tau等级相关系数为,(7)其中为次序一致的个数。根据上述三种相关系数的定义,我们得到A、B、C、D、E题的结果如下表:.表3.8 不同方法下的相关性检验结果题目PearsonSpearmanKendall tau-bA0.75390.75200.6939B0.78830.80700.7524C0.71960.76210.7001D0.03730.03140.0284E0.8004081410.7586由表3.8可看出网评成绩与最终成绩呈正相关,且A题、B题、C题和E题的相关系数都大于0.5,说明两者有较强的相关性,其中B题的相关度最大
20、。而D题的相关度最小。3.2 度量评委基本素质指标体系的建立本小节我们将建立评价评委的指标体系。由于我们可用的数据仅为各评委所评论文的分数以及该试卷的最终成绩,为了度量评委的基本素质,我们从两方面提出评价评委的指标体系:评委所评试卷与他人评卷的差异,提出评阅宽严度指标和评分偏离度指标。该评委所评试卷的网评成绩的获奖等级与终评成绩的差异,提出评委吻合度指数及评委差异度指数。(1)评阅标准的宽严度集中趋势和离散趋势是数据分布的两个基本特征。集中趋势反映了一组数据的中心位置,即一组数据的代表值。在专家网评过程中,集中趋势反映的是评委对评分标准把握的宽严程度,即总的说来,其对论文的评定是偏松还是偏严,
21、但对宽严问题,我们首先要找到一个参照点,然后把评委的评分与这个参照点比较,才可能确定其宽严程度。这里我们采取区间估计和假设检验的思想,若将所有评委对第份论文的评分看为一个总体,可假设该总体是服从正态分布的,且均值为该论文的实际成绩。此时某个评委对该论文的评定成绩可看为个体。若该个体与总体均值相差很大,则认为该评委对论文的评定不是很准确。因此,给定一个标准,若,则表示该评委对论文的评审过宽;若,则表示该评委对论文的评审过严,且越小代表该评委对论文的评审结果越准确。定义为评委对第份论文网评结果的偏差。由于每位评委不只评一份论文,因此可用其平均偏差来度量评委的宽严度。因此给定标准,若,则认为评委偏松
22、;若,则表示评委偏严;若,则表示评委评阅宽严度适中。由于未知,我们若用除去评委的其他三位评委的平均分来估计,令,其中表示除去评委的其他三位评委的平均分。因此,若,则可认为评委相对其他评委偏松,若,则表示评委相对其他评委偏严,若,则表示评委评阅宽严度适中。(2)评委评分偏离度根据评阅标准宽严的分析,绝对值度量了第个评委相对其他评委评分的偏离度。定义称为评委的平均偏离度。该数值度量评委与其他评委评阅的差异。的值越小,表示评委相对其他评委的离差越小,可作为一个度量评委基本素质的指标体系。(3)评委吻合度指数根据问题1吻合度的定义,我们可对每位评委定义其评定吻合度,即可定义第位评委的吻合度指数为该评委
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 关于 竞赛 结果 建模 分析 论文
限制150内