文档介绍:密级——滗理歹大署劣学位文论周彩兰——职称副塾援研究生姓名指导教师姓名申请学位级别硕;蔓一学科专业名称邮编垒圣分类号学校代码胡伟计算机应用技术
:蜘期:趔,坦难导师┟丛堡型垒:圭:独创性声明学位论文使用授权书取得的研究成果。尽我所知,除了文中特矧员曜⒑椭滦坏牡胤酵猓本人声明,所呈交的论文是本人在导师指导下进行的研究工作及论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。签名:日期:本人完全了解武汉理工大学有关保留、使用学位论文的规定,即学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权武汉理工大学可以将本学位论文的全部内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段保存或汇编本学位论文。同时授权经武汉理工大学认可的国家有关机构或论文数据库使用或收录本学位论文,并向社会公众提供信息服务。C艿穆畚脑诮饷芎笥ψ袷卮斯娑研究生┟:
摘要互联网的信息在过去几年爆炸式的快速增长,这种快速增长和亩变化特性使得我们在贤瓿捎行У男畔⒒袢”涞檬种匾!M缗莱媸且个自动程序,它能有条不紊地通过扫描网页然后下载经由这些网页链接到达的所有页面。当用户只需要一些面向主题的信息时,通用网络爬虫往往显得力不从心,因此如何让用户只获取自己感兴趣的主题信息变得非常重要。在这种形式下,面向特定主题的主题爬虫成为了研究热点。本论文的研究就是围绕这些热点技术展开的。本文首先简单介绍了搜索引擎的分类以及通用搜索引擎的组成部分,论述了主题爬虫的工作原理以及与通用爬虫的区别,研究并探讨了主题爬虫的关键技术以及常用的解决方法。由于主题爬虫的搜索策略是实现主题搜索引擎的一个重要模块,它直接决定爬虫的爬行方向,制约着搜索引擎的工作质量和效率问题,所以本文主要讨论主题爬虫的搜索策略。考虑到互联网上存在的“隧道现象’’所导致的很难兼顾查全率和查准率的问题,本文在详细研究现有搜索策略和算法的基础上,把现有的个性化算法和下界值等概念运用到主题爬虫中,提出了一种基于锚文本内容和算法的搜索策略。通过该算法主题爬虫能够尽可能多的爬取主题相关且值高的网页,即在查全率与查准率之间达到较好的平衡。’最后应用本文提出的搜索策略实现了一个简单的主题爬虫系统并进行了实验分析,以开放式分类目录搜索系统兴婊≡竦闹魈庾魑J笛榛肪常广度优先搜索策略、基于锚文本内容的搜索策略以及本文提出的基于锚文本内容和算法的搜索策略进行了测评比较,实验结果表明本文提出的搜索策略在大部分主题上拥有很好的性能,即较好的兼顾了查全率和查准率,使主题爬虫在保证查全率的同时采集主题相关的高质量网页。关键词:主题爬虫,个性化,下界值,搜索策略,隧道现象武汉理:工大学硕十学位论文一
.,,”,甌瑃”產.
.武汉理笱妒宦畚篺琣甌,,..瑃琒,,
目录摘第绪论⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯研究背景⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.主题爬虫国内外研究现状⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.论文的研究意义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.研究内容与论文的安排⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.网络爬虫研究综述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯搜索引擎简介⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯...⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..主题爬虫相关介绍⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯主题爬虫关键技术的研究⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.主题描述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.魈馔承畔⒊槿》⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.武汉理笱妒垦宦畚⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.
.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯第禄赑惴ǖ闹魈馀莱嫦低成杓啤算法综述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯算法的分析⋯⋯⋯⋯