文档介绍:维普资讯
第卷第期计算机工程与设计年月
. .
主题爬虫的搜索策略研究
刘汉兴, 刘财兴
华南农业大学信息学院,广东广州
摘要:主题爬虫收集主题相关信息时,需要评价网页的主题相关度,并优先爬取相关度较高的网页,在决定了搜索路径的
同时也决定了主题爬虫的搜索效率。针对不同的网页评价算法,对现有的主题爬虫的搜索策略进行分类,指出了各类搜索
策略的特点和优缺点,总结了能够提高主题爬虫搜索效率的几方面内容。
关键词:主题爬虫;搜索策略; 页面评价;搜索引擎;优化
中图法分类号: 文献标识码: 文章编号:——
—, —
,,
: , ,
, .
.
, .
: ; ; ; ;
链接出发,下载页面并提取其中的子链接,然后再访问子链
引言
接对应的内容,如此不断重复即可实现遍历信息。网络
目前的谷歌、百度等搜索引擎,自动搜集整理互联网上的爬虫的搜索策略与搜索引擎的性质和任务密切相关,为了获
信息,为一般用户提供检索服务,可以称为通用搜索引擎。但得较高的覆盖率,通用搜索引擎网络爬虫通常采用图的
对于专业用户及研究人员来说,他们的查询往往是针对某遍历算法搜索,如图所示,其中白框代表主体无关页
个领域或面向特定主题,使用通用搜索引擎进行检索效果面,黑框代表主体相关页面,虚线代表链接,实箭头代表访
不理想,准确率和召回率都很低,因此就出现了主题搜索引问顺序。
擎.,又称专业搜索引擎。主题搜索引擎索引的内容只限于特定主题或专门领域,
网络爬虫,或程序是一个自动下载因而在搜索的过程中无须对整个进行遍历,如图所
网页的程序,是搜索引擎的基础与核心。主题搜索引擎中的示,它只需选择与主题页面相关的页面进行访问。
主题爬虫,首先需要定义“主题概念”,明确“主题”的范围和内网络爬虫对网页的抓取策略分为广度优先和最佳优先两
容,即对“主题”进行描述或定义。主题概念可以用主题词集种,主题爬虫主要采用后者“。广度优先能较快找到高质量
来表示,也可以表示为示例文档由用户选定的种子样本,也的网页,同时页面覆盖率较高,但随着爬虫“爬行”的深入,抓
可来源于某一领域概念。主题爬虫在工作时,只抓取与主题取页面的相关度也随之降低。最佳优先策略的基本思想是按
相关的网页或内容。为了保证采集到的信息的主题相关性, 照一定的网页评价算法,计算网页与主题的相关性,选取“价
以何种策略来决定访问的搜索路径,是主题爬虫研究的值”最高的网页中的链接进行抓取。因此,如何评价页面价值
焦点“。该文根据网页评价算法的不同,对比分析了主题爬虫成为研究主题爬虫搜索策略的关键。
的几种搜索策略,总结了提高主题爬虫搜索效率的几个方面。
网页评价算法研究
主题爬虫的工作原理
上的页面分布表面看似杂乱无章,但主题页面的分
网络爬虫在采集信息时,通常从一个“种子集”种子布却有一定的规律,可总结为个特征。⋯:①站点主题特征,
收稿日期:—. :.
基金项目:国家高技术研究发展计划基金项目。
作者简介:刘汉兴一,男,湖北鄂州人,硕士,讲师,研究方向为智能检索、自然语言处理; 刘财兴一,男,副教授,研究方向
为无线传感器网络、计算机网络。
· ——