文档介绍:(南京邮电大学计算机学院,江苏南京210003)摘要:在信息化爆炸的时代,一般搜索引擎的搜索结果已经满足不了人们的需要,能获得更准确全面信息的垂直搜索引擎越来越受到关注。其中,主题爬虫作为垂直搜索引擎的核心部分一直是搜索方向的研究热点。文中在分析主题爬虫的结构及特征的基础上,通过引入自己的主题相关度评价方法以及HITS网页排序算法,构建了一个主题爬虫。文中给出了爬虫实现的具体步骤,以云计算为主题,进行了实验。实验结果较好地反映了主题爬虫的实用性。关键词:主题爬虫;HITS算法;主题相关度中图分类号:TP31文献标识码:A文章编号:1673—629X(2014)08—0099—04doi:.1673--focusedCrawlerLINZi-hao(puter,NanjingUniversityofPosts&munications,Nanjing210003,China)Abstract:Intheeraofinformationexplosion,thegeneralcrawlercannotmeettherequirementsofpersonalizedsearchinspecificareas,prehensiveinform~,,rawlerbyintroducingitsownmeasurementoftopicsimilarityandpagerankingalgo-,:rawler;HITSalgorithm;topicsimilarityO引言随着信息爆炸式的发展,用户对于信息搜索的需求越来越多。由于一般搜索引擎查询结果广而不精的现状满足不了用户需求,查询更精确、分类更细致、数据更全面的主题搜索引擎应运而生。主题爬虫是主题搜索引擎的关键和基础,它是根据某一特定的主题,在因特网上能自动抓取和主题相关网页的程序。主题爬虫的主要目标是以特定的方式,高效地抓取Web中与主题相关的网页,尽可能过滤与主题无关的链接,实现搜索的专、深、精。它与传统的通用爬虫相比,减少了对资源的利用并且支持扩张性的检索处理。对于主题爬虫而言,最重要的是如何过滤网页中的前向链接,使得爬虫聚焦在一个特定主题的Web子集中。,并且根据分析、筛选的结果继续爬取合理网页。对比普通爬虫J,需要在原来基础上进行扩充,特别是网页处理部分。整体结构可以看作:初始模块进行初始爬行,主题相关度分析模块进行相关度分析并行适当筛选页面,排序模块对网页的重要性进行一个排