文档介绍:摘 要
随着网络的飞速发展,互联网成为大量信息的载体,如何有效地采集并利用
这些信息成为一个巨大的挑战。通用搜索引擎己经不能满足人们对个性化信息检
索服务日益增长的需要。近年来,面向主题的搜索引擎应运而生,以提供分类更
细致精确、数据更深入、更新更及时的因特网搜索服务。本文着重研究聚焦网络
爬虫中网页分类和搜索策略相关算法。
本文首先介绍了垂直搜索引擎中聚焦爬虫的发展概况和相关技术,对聚焦爬
虫关键技术进行分析和评价,重点介绍了聚焦爬虫中网页分类算法和网页搜索策
略,为本文所设计的聚焦爬虫 IL-Crawler(Incremental Learning Crawler)提供理论
基础。
对于网页分类,针对中文分词和向量空间模型导致计算量大、效率低等问题,
本文从增量学习的角度出发,提出了一种网页识别算法。算法通过分析网页的特
征,从 HTML 标签、URL 字符、文本内容等方面获取网页特征属性值,采用机器
学习算法建立决策树模型,从而避免中文网页处理中的中文分词问题。当算法的
识别精度低于预设阀值时,在原有网页特征中加入误判网页特征,从而更新决策
树模型以提高模型识别精度。本文以博客网页作为实验对象,结果表明,所提出
的算法具有较高的网页识别精度,能够有效识别主题网页。
对于网页搜索策略,针对 Web 的动态性、异构性和复杂性而要求高效搜索策
略的问题,本文在分析传统基于重要度优先的搜索策略和基于相关度优先的搜索
策略基础上,提出了一种基于多元信息加权协调的搜索策略。由于网页的多样化
和灵活性,在有限时间和硬件资源约束下,采集最大量的主题相关且重要的网页,
成为聚焦爬虫最核心的技术之一。本文在上述网页分类算法的基础上,利用网页
相关度预测值与网页重要度预测值进行加权平均,提出了一种主题相关度优先兼
顾网页重要度的网页搜索策略。实验结果表明,相对于单独利用重要度或相关度
优先的搜索策略,多元信息加权协调的搜索策略具有更好的收获率。
鉴于以上工作, 技术,设计并实现了面向博客领域的聚焦
爬虫 IL-Crawler,该爬虫具备分布式数据采集和增量学习能力。实验表明,
IL-Crawler 具有较高的数据采集精度。
关键词:聚焦爬虫;网页分类;搜索策略;增量学习;决策树
I
Abstract
With the development of network, internet becomes the carrier of large amount
of information. How to gather and utilize the information effectively becomes a great
challenge. Traditional search engine can't keep up with the more and more rigorous
and prolific search requirements from different , topic-driven search
engine come into existence as the situation requires, which is better classified,
containing more profound and focused data, and being updated in time. This thesis
mainly studies some related algorithms on hypertext classification and search strategy
of focused crawler.
This thesis firstly introduces general development and some techniques of
focused crawler. Then, some analyses and remarks are made to core techniques of
focused crawler, this thesis major focuses on hypertext classificatio