中国知网学术不端文献检测系统(含检测原理),本科论文写作.docx
-
资源ID:73310842
资源大小:20.58KB
全文页数:9页
- 资源格式: DOCX
下载积分:12.8金币
快捷下载
![游客一键下载](/images/hot.gif)
会员登录下载
微信登录下载
三方登录下载:
微信扫一扫登录
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
中国知网学术不端文献检测系统(含检测原理),本科论文写作.docx
中国知网学术不端文献检测系统含检测原理,本科论文写作本篇论文目录导航:【】【1.1】【1.2.1】【1.2.2】【2.1.1】【2.1.2】【2.1.3】【2.1.4】【2.2.1】【2.2.2】【2.2.3】【2.3.1】【2.3.2】【2.3.3】【2.4.1】【2.4.2】【2.4.3】【2.4.4】【2.4.5】【3.1.1】【3.1.2】【3.1.3】【3.2.1】【3.2.2】【3.2.3】【3.3.1】【3.3.2】【3.3.3】【3.4.1】【3.4.2】【3.4.3】【3.5.1】【3.5.2】【3.6.2】【3.6.3】【3.7.1】【3.7.2】【3.7.3】【3.8.1】【3.8.2】【3.9.1】【3.9.2】【4.1.1】【4.1.2】【4.2.1】【4.2.2】【4.2.3】【4.2.4】【4.3.1】【4.3.2】【4.3.3】【4.4.1】【4.4.2】【4.5.1】【4.5.3】【4.6.1】【4.6.2】【4.6.3】【5.1.1】【5.1.2】【5.1.3】【5.2.1】【5.2.2】【5.2.3】 中国知网学术不端文献检测系统含检测原理【5.3】预防论文中的学术不端,除了提高认识、熟悉禁止事项外,还能够借助技术手段进行检测,提早发现论文中可能出现的问题,并及时纠正,确保正式提交的论文符合学术道德和学术规范的要求,以免影响论文答辩和期刊投稿。当前,很多大学的学位论文管理机构和期刊编辑部都已经配置了中国知网CNKI和中国学术期刊(光盘版)编辑部联合开发的学术不端检测系统(简称TMLC) ,用以对本校学生的学位论文和本刊投稿论文进行学术不端检测。本文对该系统作简单介绍。一、系统简介学术论文学术不端行为检测系统由中国知网和中国学术期刊(光盘版)编辑部2008年12月底推出,2018年3月开场应用。当前,已涵盖上千家期刊编辑部,360多家高校,基本覆盖了全国重点院校。到当前为止,光是研究生学位论文检测,TMLC的检测量就已到达了20万篇次。TMLC采用CNKI自主研发的自适应多阶指纹(AMLFP)特征检测技术,具有检测速度快、准确率和召回率高、抗干扰性强等特征。不仅支持篇章、段落、句子的各层级检测,也支持文献改写、多篇文献组合等各种文献的变形检测。TMLC以(中国学术文献网络出版总库为全文比对数据库,实现了对抄袭与剽窃、伪造、篡改等学术不端行为的快速检测,可供用户检测学位论文、学术论文及着作等长文献,并支持用户自建比对库。对任意一篇需要检测的文献,系统首先对其进行分层处理,根据篇章、段落、句子等层级分别开创建立指纹,而比对资源库中的比对文献,也采取同样技术开创建立指纹索引。这样的分层多阶指纹构造,不仅能够知足对超长文献的快速检测,而且由于最小指纹粒度为句子,因而也知足了系统对检准率和检全率的高要求。理论上,只要检测文献与比对文献存在一个一样的句子,就能被系统发现。系统主要功能包括已发表文献检测、论文检测、问题库查询、自建比对库管理等。华而不实,已发表文献检测,指检测系统能够自动将属于用户的已正式发表的论文检索出来,并对每一篇已发表 文献进行实时检测,快速给出检测结果;论文检测,主要实现论文的实时在线检测;问题库查询,指用户能够将检测结果中确认有问题的文献放入问题库,便于用户集中管理;自建比对库,指管理人员能够选择将检测文献放入个人比对库或者批量上传文献作为个人比对库,该个人比对库即可作为以后学术不端文献检测的比对数据库。TMLC的目的是辅助各研究生培养单位对学位论文质量进行评估,为审查论文提供技术服务。检测系统在对论文进行检测之后,生成检测报告,为判定论文性质提供相关根据。在对用户提交的检测文献检测之后,系统生成的检测结果包括:1)重合文字来源文献信息。系统具体列出重合文字来源文献信息,这些文献都是真实存在,而且应是公开发表或得到发表确认的。2)比对信息。检测文献和来源文献的具体比对信息,用户能够快速选择重合文字部分查阅。3)总检测指标。该指标体系从多个角度对检测文献中的文字复制情况进行了概括性描绘叙述。4)子检测指标。由于学位论文一般较长, 因而,系统一般按章检索,并且每一章给出子检测指标,该检测指标从多个角度对该章内容的检测情况进行具体描绘叙述。5)诊断类型。系统根据指标参数以及其他元数据相关信息,自动给出一个预判的诊断类型,供审查人员参考。6)检测报告。检测系统自动生成一个检测报告单,具体列出检测文献的学术不端行为检测情况,用户能够对该报告单进行修改,生成终审报告。系统只对疑似存在学术不端行为的论文生成检测报告。二、检测原理CNKI当前已经拥有具有国际或国内领先水准的全面的数字出版相关技术,包括资源采集技术、文本数据库加工技术、文本数据库技术、数字资源版权保卫技术、知识挖掘技术、自然语言处理技术、快速比对技术等。上述技术是在海量的全文数据基础上实现快速准确检测的基本保证。TMLC需要一个尽可能完备的全文数据比对资源库,而CNKI的(中国学术文献网络出版总库正好知足这一要求。 在收录资源种类.上,CNKI在国内具有明显优势,收录了期刊、学位论文、会议论文、报纸、年鉴、工具书、专利、外文文献、学术文献引文等与科学研究、学习相关的主要资源。在资源收录数量上,CNKI明显优于同类产品,各个资源库收录年限长,期刊等主要资源库回溯到创刊。在资源更新速度上,CNKI产品除了,文献收录完好率大于99.9%,文献量居国际国内同类产品之首;出版503家硕士学位点的72万篇优秀硕士学位论文,368家博士学位点的9.6万篇博士学位论文; 1 286种重要会议论文106万篇; 515家重要报纸500多万篇; 1 376种重要年鉴787万篇; 600多种工具书220多万条;学术引文索引数据600多万条。这些出版物平均日更新2万条记录。另外,出版平台还集成整合出版了各类幅大,少则3 5万字,多则十多万字,若以文字复制比来衡量一篇论文的文字重合情况,则不太适宜。如一篇十几万字的博士论文,10%就已到达1万字,文字复制情况已经非常严重。因而,对于博硕士论文检测,检测系统使用绝对字数即总重合字数作为检测结果的核心指标。2)总文字复制比:总文字复制比是指论文中总的重合字数在总的论文字数中所占的比例。通过该指标,能够直观地了解到重合字数在该检测论文中所占的比例情况。3)总文字数:总文字数是指该检测论文所有包含的字数,文字复制比与总文字数的乘积即为重合字数。4)疑似章节数、总章节数:疑似章节数是检测论文疑似存在学术不端行为的章节的数量;总章节数则是指学位论文总的章节数。5)首部重合文字数、尾部重合文字数:首部重合文字数指论文前1万字中重合的文字数量;尾部重合文字数是指除去前1万字,剩下的部分中重合的文字数量。对于学位论文,一般开始部分均是综述性的介绍,其重要性远低于论文尾部。2.子检测指标对于一篇论文,每一章的内容各异,重点也不一样,其核心内容一般存在于某几章中,子检测指标能够让用户迅速了解每一章节的检测情况。子检测指标包括:文字复制比(TR) 、重合字数(CNW)、最大段长 (LPL) 、平均段长(APL) 、段落数(PN)、段文字比(PR) 、首部复制比(HR) 、尾部复制比(ER) 、引用复制比(RR) 。这些指标从多个角度反映了检测文献的检测情况,便于用户进行针对性审核。1)文字复制比:若用户提交的论文是Word格式, 检测系统会自动辨别论文章节,按论文实际章节信息显示论文内容。若论文不存在明显的章节信息,或非Word格式,则系统根据每段1万字符自动切分学位论文,并按切分后的结果显示。文字复制比即指论文的某-章节与比对文献比拟后,重合文字部分在该章节中所占的比例。比例越高,反映该章节越多的文字来自于其他已发表文献,存在学术不端行为的可能性越大。2)重合字数:重合字数指论文章节与比对文献比拟后,重合部分的字数。一般来讲,不管文字复制比方何,重合字数越多,存在学术不端行为的可能性越大。3)最大段长、平均段长、段落数:在论文检测中,当连续文字超过一定比例时,称之为段。在本系统中,一般以为,连续200字以上即为段。与比对文献重合的最大段长度即为最大段长。最大段长反映成段抄袭特征。连续的文字越长,抄袭的可能性越大。在学位论文中,所有段的长度平均值即为平均段长,所有段的数量为段落数。平均段长和段落数反映了重合文字在学位论文中的分布情况。一般来讲,指标参数越高,存在学术不端行为的可能性越大。4)段文字比:在论文的某一章节中,所有该章节文字重合段的字数之和占该章节文字数的比例为段文字比。段文字比反映了抄袭的连续特征。一般来讲,连续文字出现越多,比文字分散出现时更可能存在学术不端行为。5)首部复制比、尾部复制比:论文某一章节的前20%称之为章节首部,首部的文字复制比为首部复制比。就中文文献来讲,一般每一章节正文开始部分出现的是综述性语言,重要性相对偏低。后80%称之为章节尾部,尾部的文字复制比为尾部复制比。通常情况下,尾部文字内容重要性比前部文字要高。尾部文献是阐述自个研究工作的目的和意义,应该是作者个人工作的具体表现出。在这部分直接抄袭他文,性质要严重得多。6)引用复制比:引用复制比指与存在引证关系的文献的文字重合部分的比例。对于学位论文来讲,存在引|证关系与不存在引证关系的复制部分应区别对待。复制了他文内容,而不注明引用,性质要更,加严重。同时,不是所有的注明了引用的就不存在抄袭,引用也应有一个度和范围的限制。在每一次检测经过中,该系统将待检论文首先根据篇章、段落、句子等层级分层处理,然后开创建立指纹,而比对资源库中的比对文献,也采取同样技术开创建立指纹索引。通俗来讲,就是将论文和数据库进行比对,根据其重合的比例,判定该论文能否存在抄袭行为。在国际上,为应对近年来频频发生的学术丑闻,由国际出版链接协会(PILA) 牵头、数家全球出版集团共同介入实验的一个世界范围内防止学术剽窃的功能性的国际项目CrossCheck已经开场施行。它由于具有保卫原创作者的着作权、严正学术道德、杜绝学术剽窃等功能,一举博得2008年度全球最佳出版创新奖。国内已有学术期刊参加这个计划,并开场把它作为学术审稿的 第三只眼睛 ,获得了良好的效果。从趋势上看,在全球范围内加强合作,打击学术不端,将最大限度地遏制学术腐败的产生。