文档介绍:(简称“AMLC”)以《中国学术文献网络出版总库》为全文比对数据库,实现了对抄袭与剽窃、伪造、篡改等学术不端行为的快速检测,可供用户检测学位论文,并支持用户自建比对库。其系统示意图如图1所示。(AMLFP)特征检测技术,具有检测速度快,准确率,召回率较高,抗干扰性强等特征。支持篇章、段落、句子各层级检测;支持文献改写,多篇文献组合等各种文献变形检测;支持论文、KI自适应多阶指纹技术原理如图2所示:KI自适应多阶指纹技术原理图对任意一篇需要检测的文献,系统首先对其进行分层处理,按照篇章、段落、句子等层级分别创建指纹,而比对资源库中的比对文献,也采取同样技术创建指纹索引。这样的分层多阶指纹结构,不仅可以满足我们对超长文献的快速检测,而且,因为我们的最小指纹粒度为句子,因此,也满足了系统对检准率和检全率的高要求。原则上,只要检测文献与比对文献存在一个相同的句子,就能被检测系统发现。:已发表文献检测、论文检测、问题库查询、自建比对库管理等。◆已发表文献检测:指检测系统能够自动将属于用户的已正式发表的学位论文检索出来,并对每一篇已发表文献进行实时检测,快速给出检测结果。◆论文检测:主要实现论文实时在线检测功能。◆问题库查询:指用户可以将检测结果中确认有问题的文献放入到问题库,便于用户集中管理。◆自建比对库:指管理人员可以选择将检测文献放入个人比对库或者批量上传文献作为个人比对库,该个人比对库即可作为以后学术不端文献检测的比对数据库,该自建个人比对库完全属于用户,其他用户无权使用。,为审查论文提供技术服务。检测系统在对论文进行检测之后,生成检测报告,为判断论文性质提供相关依据。,目前已经拥有了具有国际或国领先水准的全面的数字出版的相关技术,包括资源采集技术,文本数据库加工技术,文本数据库技术,数字资源保护技术,知识挖掘技术,自然语言处理技术、快速比对技术等。在海量的全文数据的基础上实现快速准确的检测,上述技术是基本的保证。,而CNKI的《中国学术文献网络出版总库》则正好满足这一要求。KI拥有学术期刊7000余种,期刊全文文献2480万篇,%,文献量居国际国同类产品之首;出版503家硕士学位点的72万篇优秀硕士学位论文,;1286家重要会议论文106万篇;515家重要报纸500多万篇;1376种重要年鉴787万篇;600多种工具书220多万条;学术引文索引数据600多万条;这些出版物做到平均日更新20000条记录台中;另外,出版平台还集成整合出版了各类第三方数据库资源1020种。KI在国具有明显优势,收录了期刊、学位论文、会议论文、报纸、年鉴、工具书、专利、外文文献、学术文献引文等与科学研究、学习相关的主要资源。KI明显优于同类产品,各个资源库收录年限长,期刊等主要资源库回溯到创刊。KI产品除了第三方合作的外文文献以外,其他资源都做到了日更新,单日更新数量大,这是推行产业化、标准化运作的结果。,KI中心,用户将待检测的学位论文通过网络在线提交到中心服务器,服务器在检测完成后,自动将检测结果返回给用户。整套系统架构为B/S结构,客户端不需要安装任何软件。其系统示意如图4所示:,用户需要提供的资源包括:。本检测系统是对提交的论文全文容进行分析,在容分析的基础上,生成各项检测指标。因此,全文数据是系统所需要的必要资源。、作者单位、发表时间、支持基金项目等信息。元数据是检测系统对学术不端类型进行判断所需的基础数据,为了更准确的便于系统做出预判,用户可以在提交检测文献的同时,一并提交文献的元数据信息。特别提到的是:在进行论文检测的时候,作者信息是非常必要的。输入作者信息,在后续的检测过程中,系统能够自动根据作者信息区分比对资源中的文献是属于该作者已发表的文献,还是他人的文献,为用户快速甄别论文是否存在学术不端行为提供更直观的印象。因为在学位论文中,引用自己以前发表过的文献是合理的。注意:元数据不是系统必