文档介绍：摘要随着互联网的日益壮大,搜索引擎技术飞速发展。搜索引擎已成为人们在浩瀚的网络世界中获取信息必不可少的工具,利用何种策略有效访问网络资源成为专业搜索引擎中网络爬虫研究的主要问题。,对新一代搜索引擎的发展趋势进行了展望。
关键词网络爬虫;策略;搜索引擎
概念:
网络爬虫也叫网络蜘蛛,它是一个按照一定的规则自动提取网页程序,其会自动的通过网络抓取互联网上的网页,这种技术一般可能用来检查你的站点上所有的链接是否是都是有效的。当然,更为高级的技术是把网页中的相关数据保存下来,可以成为搜索引擎。
搜索引擎使用网络爬虫寻找网络内容,网络上的HTML文档使用超链接连接了起来,就像织成了一张网,网络爬虫也叫网络蜘蛛,顺着这张网爬行,每到一个网页就用抓取程序将这个网页抓下来,将内容抽取出来,同时抽取超链接,作为进一步爬行的线索。网络爬虫总是要从某个起点开始爬,这个起点叫做种子,你可以告诉它,也可以到一些网址列表网站上获取。
网络爬虫的构成及分类
网络爬虫又被称为做网络蜘蛛、网络机器人,主要用于网络资源的收集工作。在进行网络舆情分析时,首要获取舆情信息内容,这就需要用到网络爬虫(蜘蛛程序)这个工具,它是一个能自动提取网页内容的程序,通过搜索引擎从互联网上爬取网页地址并抓取相应的网页内容,是搜索引擎(Search Engine)的重要组成部分。
一个典型的网络爬虫主要组成部分如下:
1. URL 链接库,主要用于存放爬取网页链接。
2. 文档内容模块,主要用于存取从 Web 中下载的网页内容。
3. 文档解析模块,用于解析下载文档中的网页内容,如解析 PDF,Word,HTML 等。
4. 存储文档的元数据以及内容的库。
5. 规范化 URL 模块,用于把 URL 转成标准的格式。
6. URL 过滤器,主要用于过滤掉不需要的 URL。
上述模块的设计与实现,主要是确定爬取的内容以及爬去的范围。最简单的例子是从一个已知的站点抓取一些网页,这个爬虫用少量代码就可以完成。然而在实际互联网应用中,可能会碰到爬去大量内容需求,就需要设计一个较为复杂的爬虫,这个爬虫就是N个应用的组成,并且难点是基于分布式的。
网络爬虫的工作原理
传统网路爬虫的工作原理是,首先选择初始 URL,并获得初始网页的域名或 IP 地址,然后在抓取网页时,不断从当前页面上获取新的 URL 放入候选队列,直到满足停止条件。
聚焦爬虫(主题驱动爬虫)不同于传统爬虫,其工作流程比较复杂,首先需要过滤掉跟主题不相关的链接,只保留有用的链接并将其放入候选 URL 队列。然后,根据搜索策略从候选队列中选择下一个要抓取的网页链接,并重复上述过程,直到满足终止条件为止。与此同时,将所有爬取的网页内容保存起来,并进行过滤、分析、建立索引等以便进行性检索和查询。
总体来讲,网络爬虫主要有如下两个阶段:
第一阶段,URL 库初始化然后开始爬取。
第二阶段,爬虫读取没有访问过的 URL,来确定它的工作范围。
其中,对于所要抓取的 URL 链接,进行以下步骤:
1. 获取 URL 链接。
2. 解析内容,获取 URL 及相关数据。
3. 存储有价值的数据。
4. 对新抓取的 URL 进行规范化。
5. 过滤掉不相