文档介绍:中文文档相似度检测技术的研究及应用
黄玲莉 1,吴国新 2
,江苏南京,210096
hllseu@
摘要:在对现现有的文档相相似度算法等等技术研究的的基础上,本本文提出一种中文文档相似度相
算法法,主要通过过利用同义词词库将词进行标标准化以及分层相似度比分比较对文档进进行相似性验验证。
关键字:相相似度算法分分词同义词文档剽窃
中图分类号:TP
随着网络的发展,人们可以便捷的从网络中得到想要的信息,但同时也带来了诸如非法
复制、非法分发等文档侵权等问题。为了用户的文档版权,在制定网络版权法的同时更需要
技术上的支持。网络中的文档侵权主要体现在非授权的文档分发,而保护版权的关键是版权
验证,验证的核心是文档内容的相似度检测,现今已经有很多针对剽窃的方法被开发出来和
投入使用[1]。在允许用户获得需要的信息的同时防止对信息的违法拷贝和发布是文档版权管
理技术发展中的一个重要问题[2]。常规的版权验证方法是设置版权验证服务器,对提交的文
档进行相似检测,合法的文档将注册、存档和统一分发。
文档的相似检测技术利用文档相似度算法进行内容的相似度验证[1]。现有的文档相似度
检测算法都针对一个相对固定的文档集合[3],如向量空间模型(VSM)中,文档集合中文档
的总数是固定的。通过对文档集合的分析,统计词的权重,进而将文档表示成一个以词的权
重为元素的空间向量。由于版权验证服务器中注册的文档具有递增性,因此,利用一般的文
档相似度算法具有一定的困难。为了使得文档的增长不会或尽量少的影响到算法的执行,本
文提出一种针对这个问题的文档相似度计算方法,利用引入的同义词库来确定词与词之间的
关系,而不需要再通过一个文档集合来计算词频。文档版权管理系统保护已经收录在数据库
中的有版权文档不被剽窃,文档版权所有者可以设定一个等级(如以段落为单位,允许该文
档被拷贝的段落数)。现有的文档相似度算法,如基于VSM的相似度算法等,关注的是整个
文档的相似程度,但是部分的高相似度和整个文档的相似度之间并不存在必然的联系。所以
需要引入探测部分相似度的技术,以更高效的识别剽窃行为。本文提出的算法通过分层验证
文档的相似度。在段落相似度比较层次记录相似度高于某个阈值的段落的个数。将这个值和
文档版权所有者设定的值做比较,来确定是否存在剽窃行为。
中文分词
- 1 -
由于汉语自身的特点,词与词之间没有明显的分割符号,中文文档处理的第一步就是进
行分词处理。词是最小的能够独立活动的有意义的语言成分,是自然语言处理系统中重要的
知识载体与基本操作单元。中文分词就是由计算机自动识别文本中词边界的过程,它是中文
信息处理最重要的预处理。汉语分词是中文信息处理的基础。汉语分词系统的实现及效果依
赖于分词理论与方法。目前国内分词系统所采用的或者正在研究的方法基本上分为以下几类
[4]:
(1)机械分词法。机械分词法主要有最大匹配法(MM 法)、逆向最大匹配法(RMM、OMM、
IMM)、逐词匹配法、部件词典法、词频统计法、设立标志法等。
(2)语义分词法。语义分词法引入了语义分析,对自然语言自身的语言信息进行