文档介绍:盎撬晗缭口日∞%学位论文使用授权声明声明本学位论文是我在导师的指导下取得的研究成果,尽我所知,在本学位论文中,除了加以标注和致谢的部分外,不包含其他人已经发表或公布过的研究成果,也不包含我为获得任何教育机构的学位或学历而使用过的材料。与我一同工作的同事对本学位论文做出的贡献均已在论文中作了明研究生签名:南京理工大学有权保存本学位论文的电子和纸质文档,可以借阅或上网公布本学位论文的部分或全部内容,可以向有关部门或机构送交并授权其保存、借阅或上网公布本学位论文的部分或全部内容。对于保密论文,按保密的有关规定和程序处理。旯耣日确的说明。
/㈣煳摘要关键词:网页去噪,段落指纹,近似检测,⑿屑扑随着信息技术的飞跃式发展,互联网进入了一个信息爆炸的时代,搜索引擎成为了人们获取信息最主要的途径。然而,互联网上存在很多近似网页,一方面加重了用户从中寻找有价值信息的负担,另一方面,为近似网页建立索引消耗了大量不必要的存储和计算资源,进而影响整个搜索引擎的质量和性能。可见,对网页进行近似检测不仅能够提高索引效率,节约存储资源,同时能够显著地提升搜索引擎的用户体验。本文首先对近似网页检测的研究现状做出综述,并对现有算法做出深入分析。随后,提出了一种基于加权鞯耐痴奶崛∷惴ǎü笛檠橹ち烁盟惴在各类网页集上均获得高的正文提取准确率,并将其应用于本文的近似网页检测算法。接着,提出了一种基于段落指纹的近似网页检测算法,该算法充分利用了中文语言的语法结构、文章主题语义和’标签语义,实验数据表明,本文算法能够获得高的准确率和召回率。实现了三种已有的优秀近似网页检测算法,实验数据表明,本文算法在准确率、召回率、效率和指纹占用的存储资源这些关键方面均有优势。最后,基于扑隳P停员疚慕仆臣觳馑惴ǖ牟⑿谢龀隽松钊研究,给出了详细的并行化设计方案,并在分布式平台上实现了该方案。在不同的集群规模下进行实验,数据表明,本文算法经过并行化设计后,效率得到了显著提升,很好地突破了单机处理的资源瓶颈,是一种能够适用于海量数据规模的且实际可行的方案。硕士论文基于段落指纹的大规模近似网页检测算法研究
,鷕甒甒:瑀:琍琈,,琧..:’Ⅱ
目录髀郏仆臣觳馑惴ㄗ凼觥诩尤―树的网页正文提取算法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯摘要...............................................................................................................研究背景⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯研究意义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯本文研究内容⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯本文组织结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯近似网页的定义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..近似网页检测研究现状⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..近似网页检测算法通用模型⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。.卣魈崛∷⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯现有近似网页检测算法分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯网页噪声概述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯网页正文提取算法分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯基于加权鞯耐痴奶崛∷⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯................................................................................................................硕士论文基于段落指纹的大规模近似网页检测算法研究:
诙温渲肝频慕仆臣觳馑惴ā贛的近似网页检测算法并行化设计⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..算法的提出⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.算法的描述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.ê诵奈侍夥治觥基于加权长句的段落特征提取算法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.