大学生论文抄袭检测系统
发布日期:2012-04-23 13:19
来源:研究小组
作者:admin
浏览次数:
大学生论文抄袭检测系统出自论文知网,可通过链接进行访问http://check.cnki.net/bachelor/。
目前国内各高校及科研单位所使用的论文抄袭检测系统主要用于各学位论文的检测,检测基本原理是将现有文章与数据库中的大量论文数据进行比对,给出重复率及具体来源,这套系统在一定程度上可以方便地检测出论文的抄袭程度。
以抄袭为例,根据重合字符数量与文字复制比,就分为轻度句子抄袭、句子抄袭、轻度段落抄袭、段落抄袭、整体抄袭5类。另外,还有针对数据篡改、内容伪造、引用杜撰等方面的多个检测指标。
以下内容来源于网络
基本原理:反剽窃软件自动将文档切割为多个50到200字(可自定义)的小文本,通过混合引擎将其与188亿个网页和490万篇文献进行模糊匹配,标示出 每个文本块与文献库中的某些文献的最大相似度。由此软件统计出相似度≥95%(基本原封不动抄袭)与相似度≥80%(略作修改后抄袭)的字数所占总字数比 例。我们把这个比例作为剽窃(相似)程度衡量指标。
优点
覆盖面广,通过混合引擎覆盖约188亿个网页和490万篇论文。
模糊检测,柔性匹配,为防止抄袭者替换部分字符,删除部分标点符号,系统通过相似度来进行判定。
本软件检测结果只能作为一个参考,可以使用表格右键导出详细检查结果发送给被检查本人,本软件不对是否剽窃做结论,只是告诉你与现存文献相似度高于80%的文字比例所占文章总数比例是多少。高于80%相似度的文字才是需要关注的,低于此值可以完全无视。
规范引文及参考文献去除,降低误判可能性。
自定义分块检测机制,将文章的每一文本块与其他文档的相似度都精确的表示出来了,每一文本块约为 50字至200字不等(可自定义),以红色表示极度相似(相似度大于80%),一目了然,清晰醒目。当设为50个字一块时,可以在较低信息粒度上查找出可 能抄袭或相似的文献。
相似文档模块跟踪技术,可以通过简单操作直接定位相似文档中哪些内容被抄袭或者拷贝,直观明了。
结果分析功能,自动分析文档相似结果,给出评价意见。
多种文件格式支持,包括PDF、DOC、PPT、XLS、TXT等文档。
专有数据文件保存,不用反复检测,浪费时间。
缺点
本反剽窃系统不能覆盖世界上所有中英文文献,关于覆盖率与查全率的相关性问题正在研究中。
检测时间略长,一篇8000字的文档至少耗费约5分钟。
本软件检测结果存在一个小的误差,用更小的文档块进行检测,可以减少误差,但需要的时间会相应增加,经过我们在多家编辑部的试用情况,块数大小定为200字较为合适,此时误差率也是可以接受的,文档相似率一般是比实际的要低。