文档介绍:主题爬虫论文:基于隐马尔科夫模型的主题爬虫性能提高与应用【中文摘要】互联网在不断的飞速发展,然而利用爬虫在浩瀚如海的网络世界里对高效提取相关的目标网页信息显得越来越力不从心。为解决通用搜索引擎可扩展性限制,主题爬虫是有效的解决方案。主题爬虫可以预测并提取相关URL链接,并有效地抓取与目标主题网页内容高度相关的网页。文章通过和分析比较几种爬虫的收获率,用收获率作为性能指标来评价主题爬虫的性能,并结合分析研究与开发之间的偏差可以得到它的最优性能。本文还分析了各种不同类型的爬虫算法,且讨论了他们的性能表现。近年来,隐马尔科夫模型的应用范围越来越广,且有先驱拿该模型来指导主题爬虫的爬行过程。前人已将隐马尔科夫模型应用于主题爬虫,取得了一定的效果,实践证明,将隐马尔科夫模型应用于主题信息采集领域是可行的。在此基础上,本文对现有隐马尔科夫模型主题爬虫进行了详细的分析,且和现在流行的一些主题爬虫做了性能对比,由此发现了隐马尔科夫模型主题爬虫的很多不足。所以提出了几个改进的方法来改进隐马尔科夫模型主题爬虫的性能,此性能主要指收获率的提高。实践证明改进后的爬虫收获率有很大的提高。将改进后的隐马尔科夫模型主题爬虫和Nutch搜索引擎结合使用,替换掉Nutch系统原有的爬虫系统,得到一个主...【英文摘要】,...【关键词】主题爬虫学****型爬虫隐马尔可夫模型万维网【英文关键词】FocusedCrawlerLearningCrawlerHiddenMarkovModelWorldWideWeb【索购全文】联系Q1:138113721Q2:【目录】基于隐马尔科夫模型的主题爬虫性能提高与应用摘要4-5Abstract5目录6-71绪论7----142爬虫的理论基础及相关技