1 / 5
文档名称:

网络爬虫技术分析.doc

格式:doc   页数:5页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

网络爬虫技术分析.doc

上传人:xxj16588 2016/6/2 文件大小:0 KB

下载得到文件列表

网络爬虫技术分析.doc

文档介绍

文档介绍:网络爬虫技术分析与研究搜索引擎 1. 概念: 从网络上获得网站网页资料,能够建立数据库并提供查询的系统。 2. 分类(按工作原理): 全文搜索引擎、分类目录。 1> 全文搜索引擎数据库是依靠网络爬虫通过网络上的各种链接自动获取大量网页信息内容,并按一定的规则分析整理形成的。(百度、 Google ) 2> 分类目录:按目录分类的网站链接列表而已,通过人工的方式收集整理网站资料形成的数据库。( 国内的搜狐) 网络机器人 1. 概念: 它们是 Web 上独自运行的软件程序, 它们不断地筛选数据, 做出自己的决定, 能够使用 Web 获取文本或者进行搜索查询, 按部就班地完成各自的任务。 2. 分类: 购物机器人、聊天机器人、搜索机器人(网络爬虫)等。网络爬虫 1. 概念: 网络爬虫也叫网络蜘蛛, 它是一个按照一定的规则自动提取网页程序, 其会自动的通过网络抓取互联网上的网页, 这种技术一般可能用来检查你的站点上所有的链接是否是都是有效的。当然, 更为高级的技术是把网页中的相关数据保存下来, 可以成为搜索引擎。搜索引擎使用网络爬虫寻找网络内容,网络上的 HTML 文档使用超链接连接了起来, 就像织成了一张网, 网络爬虫也叫网络蜘蛛, 顺着这张网爬行, 每到一个网页就用抓取程序将这个网页抓下来, 将内容抽取出来, 同时抽取超链接, 作为进一步爬行的线索。网络爬虫总是要从某个起点开始爬, 这个起点叫做种子, 你可以告诉它, 也可以到一些网址列表网站上获取。 2. 区别: 网络爬虫分类通用爬虫聚集爬虫工作原理从一个或多个初始网页的 URL 开始,获取初始网页的 URL ,抓取网页的同时,从当前网页提取相关的 URL 放入队列中,直到满足程序的停止条件。根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接( 爬行的范围是受控的) 放到待抓取的队列中,通过一定的搜索策略从队列中选择下一步要抓取的 URL ,重复以上步骤,直到满足程序的停止条件。不同点 1. 增加了一些网页分析算法和网页搜索策略 ,进行一定的分析、过滤,并建立索引,以便之后的查询和检索, 这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。缺点 1. 不同领域、不同背景的用户有不同的检索目的和需求, 通用搜索引擎所返回的结果包含大量用户不关心的网页。 2. 通用引擎的目标是大的网络覆盖率。 3. 只支持关键字搜索, 不支持根据语义的搜索。 4. 通用搜索引擎对一些像图片、音频等信息含量密集且具有一定结构的数据无法获取。 1. 对抓取目标的描述或定义。 2. 对网页和数据的分析和过滤。 URL 的搜索策略。以上三个是需要解决的问题。算法广度优先算法现有聚焦爬虫对抓取目标的描述可分为基于目标网页特征、基于目标数据模式和基于领域概念 3 种。基于目标网页特征的爬虫所抓取、存储并索引的对象一般为网站或网页。根据种子样本获取方式可分为: (1 )预先给定的初始抓取种子样本; (2 )预先给定的网页分类目录和与分类目录对应的种子样本,如 Yahoo! 分类结构等; (3 )通过用户行为确定的抓取目标样例,分为: a) 用户浏览过程中显示标注的抓取样本; b) 通过用户日志挖掘得到访问模式及相关样本。其中,网页特征可以是网页的内容特征,也可以是网页的链接结