1 / 63
文档名称:

中文重复网页的检测算法研究.pdf

格式:pdf   大小:5,150KB   页数:63页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

中文重复网页的检测算法研究.pdf

上传人:zhufutaobao 2021/10/30 文件大小:5.03 MB

下载得到文件列表

中文重复网页的检测算法研究.pdf

文档介绍

文档介绍:密级 保密期限
烤玄钾雷 李
硕士研究生学位论文
题目 中文重复网页的检测算法研究
学 号
姓 名
专学导 业师院
年 月 日
密级 保密期限
玄钾全 李
硕士研究生学位论文
题 目 中文重复网页的检测算法研究
专学导 师业院
口 口己 王苏
****月 〕``户尹
年 月 日

独创性 或创新性 声明
本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究
成果 。尽我所知 , 除了文 中特别加 以标注和致谢 中所罗列 的内容 以外 , 论文 中不
包含其他人已经发表或撰写过的研究成果 , 也不包含为获得北京邮电大学或其他
教育机构的学位或证书而使用过的材料 。与我一同工作的同志对本研究所做的任
何贡献均 已在论文 中作 了明确 的说明并表示了谢意 。
申请学位论文与资料若有不实之处 , 本人承担一切相关责任 。
本人签名声辉 日期。口`冲月口,日
关于论文使用授权 的说 明
学位论文作者完全 了解 北京 邮 电大学有关保 留和使用学位论文 的规定 , 即
研究生在校攻读 学位期 间论文工 作的知识产权单位属北京 邮电大学 。学校有权 保
留并 向国家有关部 门或机 构送交 论文 的复 印件和磁盘 , 允许 学位论文被查阅和借
阅 学校可以公布学位论文的全部或部分内容 , 可以允许采用影印 、缩印或其它
复制手段保存 、 汇编学位 论文 。 保 密的学位论文在解密后遵 守此规 定
保密论文注释 本学位论文属 于保密在 年解密后适用本授权书 。非保密 论
文注释 本学位论文不属 于保 密范围 , 适用本授权书 。
本人签名 日期 如砖 咖****br/>导师签名 日期
北京邮电大学硕士学位论文 中文重复网页的检测算法研究
中文重复网页的检测算法研究
任石
摘 七
随着互联网的日益普及和迅猛发展 , 网络上的信息量呈现爆炸式
的增长 , 搜索引擎成为人们获取信息的主要方式 , 而且越来越受到重
视 。重复网页检测一直 以来都是搜索引擎研究的重点 。本文就如何提
高中文重复网页的检测算法效率进行研究 。
通过比较目前国内外重复网页检测的若干方法 , 本人发现基于内
容的重复网页检测算法有较好的效果 , 而且加入链接和链接信息并没
有 明显改善算法性能