1 / 37
文档名称:

网络爬虫de基础知识.ppt

格式:ppt   页数:37页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

网络爬虫de基础知识.ppt

上传人:今晚不太方便 2016/4/5 文件大小:0 KB

下载得到文件列表

网络爬虫de基础知识.ppt

相关文档

文档介绍

文档介绍:网络爬虫 1、网络爬虫简介 2、通用网络爬虫和聚焦爬虫 3、网络爬虫的抓取策略 4、几种常见的网络爬虫 5、演示 1、网络爬虫简介 定义 用途 原理 网络爬虫定义网络爬虫( Crawler )又被称为网页蜘蛛, 网络机器人,在 FOAF ( Friend-of-a-Friend ) 社区中,更经常的被称为网页追逐者,它是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁,自动索引,模拟程序或者蠕虫。 用途很多站点,尤其是搜索引擎,都使用爬虫提供最新的数据,它主要是提供它访问过页面的一个副本,然后,搜索引擎就可以对得到的页面进行索引,以提供快速访问。爬虫可以在 web 上用来自动执行一些任务,例如检查链接,确认 html 代码;也可以用来抓取网页上某种特定类型信息,例如抓取电子邮件地址(通常用于垃圾邮件)。 原理一个网络爬虫就是一种机器人,或者软件代理。大体上,它从一组要访问的 URL 链接开始,可以称这些 URL 为种子。爬虫访问这些链接,它辨认出这些页面的所有超链接,然后添加到这个 URL 列表,可以称作检索前沿。这些 URL 按照一定的策略反复访问。 2、通用网络爬虫和聚焦爬虫 前言 通用网络爬虫 聚焦爬虫 两种爬虫比较 前言随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine) ,例如传统的通用搜索引擎 AltaVista , Yahoo! 和 Google 等,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性:通用网络爬虫的目标就是尽可能多地采集信息页面, 在采集时只关注网页采集的数量和质量, 并不考虑网页采集的顺序和被采集页面的相关主题。为了解决通用搜索引擎的局限性,定向抓取相关网页资源的聚焦爬虫应运而生。聚焦爬虫与通用爬虫不同,聚焦爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。 通用网络爬虫通用网络爬虫从种子链接开始,不断抓取 URL 网页,将这些 URL 全部放入到一个有序的待提取的 URL 队列里。 Web 信息提取器从这个队列里按顺序取出 URL ,通过 Web 上的协议,获取 URL 所指向的页面,然后从这些页面中分析提取出新的 URL ,并将它们放到等待提取的 URL 队列里。通用爬虫就是通过这样一种方式来不断遍历整个互联网,一直到等待提取的 URL 队列为空或者达到系统给定的停止条件为止。