1 / 14
文档名称:

一种基于LCS的相似网页检测算法.doc

格式:doc   页数:14
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

一种基于LCS的相似网页检测算法.doc

上传人:策划大师 2011/11/13 文件大小:0 KB

下载得到文件列表

一种基于LCS的相似网页检测算法.doc

文档介绍

文档介绍:一种基于LCS的相似网页检测算法
摘要:网页的相似性检测长期以来是一个研究的热点,shingling和simhash被认为是当前最好的两个算法,然而它们存在着一定的不足:一方面,高的分数意味着高的相似概率,但并不必然意味着高的相似度;另一方面,哈希代码的长度和多样性之间的冲突决定了难以同时获得高的准确率和覆盖率。本文提出了一种新型的相似网页检测算法,同时具备高准确率与高覆盖率的优点。该算法采用基于LCS(mon subsequence)的相似性度量方法,它可以更好地度量网页之间的相似度和包含关系,并获得高的准确度。同时,本文设计了一个包含了三个步骤的检测过程框架,以保证算法的效率。综合实验表明本文的算法同时获得了高准确率与高覆盖率并具有较好的效率。,,整个过程使用6台Linux服务器仅花费了5天的时间。
关键词: 相似性检测; 消重; 最长公共子序列; 相似性度量
Achieving both High Precision and High Recall in Near-duplicate Detection
Abstract: To Find near-duplicate documents, fingerprint-based paradigms such as shingling and simhash have been recognized as effective approaches and are considered the state-of-the-art. Nevertheless, we see two aspects of these approaches which may be improved. First, high score under these algorithms' similarity measurement implies high probability of similarity between documents, which is different from high similarity of the documents. Second, there has to be a tradeoff between hash-code length and hash-code multiplicity in fingerprint paradigms, which makes it hard to maintain a satisfactory recall level while improving precision. In this paper we propose a new approache of near-duplicate detection for web pages, which has both merits of high precision and high recall. Technically, our approache is based on LCS (mon subsequence) measurement, together with a 3-step framework, which is carefully designed to ensure high efficiency. prehensive experiment was conducted, which shows our method achieves both high precision and high recall. Also, the method has been essfully used to partition a set of 430 million web pages into 68 million subsets of similar pages. The process of partition took only 5 days plete, using a cluster of 6 linux boxes, which demonstrates its effectiveness.
Key words: near-duplicate detection; replica detection; mon subsequence; similarity measurement
引言
Web上相似网页的检测方法长期以来一直都是一个研究的热点。它在很多与Web信息相关的应用中扮演着重要的角色,包括:检索结果的聚类和排序、Web搜集、信息提取、Spam检测等等。
正是因为

最近更新

2024年昌吉职业技术学院单招职业适应性测试题.. 39页

2024年晋中职业技术学院单招职业技能测试题库.. 41页

2024年晋城职业技术学院单招职业适应性考试模.. 41页

2024年曲阜远东职业技术学院单招职业倾向性考.. 41页

2024年曹妃甸职业技术学院单招职业适应性测试.. 39页

2024年杭州职业技术学院单招职业适应性测试模.. 41页

2024年柳州城市职业学院单招职业适应性测试模.. 41页

2024年株洲师范高等专科学校单招职业技能测试.. 40页

2024年桂林师范高等专科学校单招职业倾向性测.. 41页

2024年桂林生命与健康职业技术学院单招职业倾.. 41页

2024年梅河口康美职业技术学院单招职业适应性.. 41页

2024年梧州职业学院单招职业倾向性测试模拟测.. 41页

2024年正德职业技术学院单招职业适应性考试题.. 40页

2024年武威职业学院单招职业倾向性考试模拟测.. 40页

2024年武汉信息传播职业技术学院单招职业技能.. 39页

2024年武汉海事职业学院单招综合素质考试模拟.. 40页

2024年毕节医学高等专科学校单招职业适应性测.. 40页

2024年民办四川天一学院单招职业倾向性考试模.. 39页

2025年国家开放大学《建筑力学》章节测试参考.. 13页

【人教版英语字帖】七年级下册单词表衡水体字.. 42页

国开《建筑力学》期末机考答案 15页

介绍医院门诊ppt 28页

农村人才流失国外研究报告 2页

栏杆计算书 2页

黄酒评分、扣分标准表(共1页) 1页

曾仕强易经六十四卦解 68页

GA T 1585-2019《法庭科学 尸体检验摄像技术规.. 8页

G303国道集阿公路驼腰岭平交道口改造工程施工.. 13页