1 / 7
文档名称:

蜘蛛爬虫.doc

格式:doc   页数:7页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

蜘蛛爬虫.doc

上传人:fy3986758 2016/6/15 文件大小:0 KB

下载得到文件列表

蜘蛛爬虫.doc

文档介绍

文档介绍:蜘蛛爬虫关于搜索引擎的大话还是少说些, 下面开始正文搜索引擎蜘蛛爬虫原理: 1 聚焦爬虫工作原理及关键技术概述网络爬虫是一个自动提取网页的程序,它为搜索引擎从 网上下载网页, 是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的 URL 开始, 获得初始网页上的 URL , 在抓取网页的过程中, 不断从当前页面上抽取新的 URL 放入队列, 直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂, 需要根据一定的网页分析算法过滤与主题无关的链接, 保留有用的链接并将其放入等待抓取的 URL 队列。然后, 它将根据一定的搜索策略从队列中选择下一步要抓取的网页 URL ,并重复上述过程,直到达到系统的某一条件时停止,另外, 所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引, 以便之后的查询和检索; 对于聚焦爬虫来说, 这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。相对于通用网络爬虫,聚焦爬虫还需要解决三个主要问题: (1) 对抓取目标的描述或定义; (2) 对网页或数据的分析与过滤; (3) 对 URL 的搜索策略。抓取目标的描述和定义是决定网页分析算法与 URL 搜索策略如何制订的基础。而网页分析算法和候选 URL 排序算法是决定搜索引擎所提供的服务形式和爬虫网页抓取行为的关键所在。这两个部分的算法又是紧密相关的。 2 抓取目标描述现有聚焦爬虫对抓取目标的描述可分为基于目标网页特征、基于目标数据模式和基于领域概念 3 种。基于目标网页特征的爬虫所抓取、存储并索引的对象一般为网站或网页。根据种子样本获取方式可分为: (1) 预先给定的初始抓取种子样本; (2) 预先给定的网页分类目录和与分类目录对应的种子样本, 如 Yahoo! 分类结构等; (3) 通过用户行为确定的抓取目标样例,分为: a) 用户浏览过程中显示标注的抓取样本; b) 通过用户日志挖掘得到访问模式及相关样本。其中, 网页特征可以是网页的内容特征, 也可以是网页的链接结构特征,等等。现有的聚焦爬虫对抓取目标的描述或定义可以分为基于目标网页特征,基于目标数据模式和基于领域概念三种。基于目标网页特征的爬虫所抓取、存储并索引的对象一般为网站或网页。具体的方法根据种子样本的获取方式可以分为:( 1 )预先给定的初始抓取种子样本;( 2 )预先给定的网页分类目录和与分类目录对应的种子样本,如 Yahoo! 分类结构等;(3) 通过用户行为确定的抓取目标样例。其中, 网页特征可以是网页的内容特征, 也可以是网页的链接结构特征,等等。基于目标数据模式的爬虫针对的是网页上的数据, 所抓取的数据一般要符合一定的模式,或者可以转化或映射为目标数据模式。另一种描述方式是建立目标领域的本体或词典, 用于从语义角度分析不同特征在某一主题中的重要程度。 3 网页搜索策略网页的抓取策略可以分为深度优先、广度优先和最佳优先三种。深度优先在很多情况下会导致爬虫的陷入(trapped) 问题,目前常见的是广度优先和最佳优先方法。 广度优先搜索策略广度优先搜索策略是指在抓取过程中,在完成当前层次的搜索后,才进行下一层次的搜索。该算法的设计和实现相对简单。在目前为覆盖尽可能多的网页, 一般使用广度优先搜索方法。也有很多研究将广度优先搜索策略应用于聚焦爬虫中。其基本思想是认为与初始 U