文档介绍:№.8(增刊) 一种基于提取指纹方法的数字文档拷贝检测模型 Fingerprint Extraction Method 李旭余靖(燕山大学信息科学与工程学院秦皇岛066004) Abstract Copy detection fordigiml documents provides thenecessary safeguarantees forpublishers ofinforma,. ,we present acopy detection model fordigitaldocuments based on fingerprint extraction meth— od。The model detects copy paring fingerprints putes similarity ofthedocument,and pro— duces thedistributionofoverlap thatexistsbetweerloverlapping documents Keywords Digitaldocuments,Copy detection,Fingerprint,Similarity,Plagiarism 1 引言随着计算机技术、通信技术和网络技术的迅速发展,数字图书馆、互联网和数字化分布式媒体为信息高速公路提供了必需的信息资源,并已经成为知识经济社会中主要的信息资源载体。在这些系统中,数字形式的文档很容易被拷贝,所以经常会产生剽窃和侵犯知识产权的问题。这些剽窃的文档会增加系统的存储代价,造成信息冗余,并且会给信息所有者带来巨大的经济损失,因此对数字文档拷贝检测的研究具有重要的意义。拷贝检测服务主要采用以下两种方法:一种是把数字文档分解成若干个单元(段、句子等),通过串匹配算法,比较查询文档与数据库/数据仓库中已有文档单元的内容,从而确定文档的相似性,最后得出结论——查询文档是否拷贝(剽窃)了数据库中已有文档的内容。这种方法的缺点是如果在分解单元中增加或删除一些内容的时候,将严重地影响检测的精确程度。另一种是采用矢量空间模型(Vector SpaceModel),基本思想是用向量来表示数字文档: (W。,W2,W。,?,W。),其中Wi为第i个特征项的权重,选取词作为特征项。工作过程是首先要将数字文档分词,然后计算出查询文档中每个词出现的频率矢量,然后把这个矢量与数据库/数据仓库中已有文档的矢量相比较,得出文档的相似性,从而判断出查询文档是否拷贝了数据库中已有文档的内容。现在国内外很多的数字文档拷贝检测系统都采用了这种方法[1’2],但是这种方法的缺点是使用文档中出现的词集合来代替文档,没有考虑文档的语义和结构,丢失了大量关于文档内容的信息。目前,国内外的许多研究人员对拷贝检测服务进行了研究,提出了一些相关的系统[3一},但是这些系统都具有以下一些缺点:每一个系统仅仅考虑了两篇文档之间的相似程度,没有研究一篇文档剽窃多篇文档的情况,并且对于有剽窃内容的文档,没有给出任何的描述信息。本文作者在深入研究了前人的工作以后,提出了一种基于提取指纹方法的数字文档拷贝检测模型。同其他模型相比,这个模型能够检测出一篇文档剽窃多篇文档的情况,并且对于剽窃的内容能够给出相关的描述信息。 2