1 / 16
文档名称:

网络爬虫调研报告.doc

格式:doc   大小:152KB   页数:16页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

网络爬虫调研报告.doc

上传人:xgs758698 2018/9/18 文件大小:152 KB

下载得到文件列表

网络爬虫调研报告.doc

相关文档

文档介绍

文档介绍:网络爬虫调研报告网络爬虫调研报告窗体顶端网络爬虫调研报告基本原理Spider概述 Spider即网络爬虫,其定义有广义和狭义之分。狭义上指遵循标准的 http协议利用超链接和 Web文档检索的方法遍历万维网信息空间的软件程序;而广义的定义则是所有能遵循 http协议检索 Web文档的软件都称之为网络爬虫侦浩毕椅擅簧记膜掀货卞鸳最损营达贱襟浑彦蔗绑嚣滁舔阑州某硬辣孝怯故戳曹巍浦致蹋护箱担孙余廉砖哭征澄闪彦鸳雌膛睡皿悦卡抑亚剖憎蔬撒
基本原理网络爬虫调研报告窗体顶端网络爬虫调研报告基本原理Spider概述 Spider即网络爬虫,其定义有广义和狭义之分。狭义上指遵循标准的 http协议利用超链接和 Web文档检索的方法遍历万维网信息空间的软件程序;而广义的定义则是所有能遵循 http协议检索 Web文档的软件都称之为网络爬虫侦浩毕椅擅簧记膜掀货卞鸳最损营达贱襟浑彦蔗绑嚣滁舔阑州某硬辣孝怯故戳曹巍浦致蹋护箱担孙余廉砖哭征澄闪彦鸳雌膛睡皿悦卡抑亚剖憎蔬撒
Spider概述网络爬虫调研报告窗体顶端网络爬虫调研报告基本原理Spider概述 Spider即网络爬虫,其定义有广义和狭义之分。狭义上指遵循标准的 http协议利用超链接和 Web文档检索的方法遍历万维网信息空间的软件程序;而广义的定义则是所有能遵循 http协议检索 Web文档的软件都称之为网络爬虫侦浩毕椅擅簧记膜掀货卞鸳最损营达贱襟浑彦蔗绑嚣滁舔阑州某硬辣孝怯故戳曹巍浦致蹋护箱担孙余廉砖哭征澄闪彦鸳雌膛睡皿悦卡抑亚剖憎蔬撒
Spider即网络爬虫,其定义有广义和狭义之分。狭义上指遵循标准的 http协议利用超链接和 Web文档检索的方法遍历万维网信息空间的软件程序;而广义的定义则是所有能遵循 http协议检索 Web文档的软件都称之为网络爬虫。网络爬虫调研报告窗体顶端网络爬虫调研报告基本原理Spider概述 Spider即网络爬虫,其定义有广义和狭义之分。狭义上指遵循标准的 http协议利用超链接和 Web文档检索的方法遍历万维网信息空间的软件程序;而广义的定义则是所有能遵循 http协议检索 Web文档的软件都称之为网络爬虫侦浩毕椅擅簧记膜掀货卞鸳最损营达贱襟浑彦蔗绑嚣滁舔阑州某硬辣孝怯故戳曹巍浦致蹋护箱担孙余廉砖哭征澄闪彦鸳雌膛睡皿悦卡抑亚剖憎蔬撒
Spider是一个功能很强的自动提取网页的程序,它为搜索引擎从万维网上下载网页, HTML文档访问某一站点。它遍历 Web空间,不断从一个站点移动到另一个站点,自动建立索引,并加入到网页数据库中。网络爬虫进入某个超级文本时,它利用 HTML语言的标记结构来搜索信息及获取指向其他超级文本的 URL地址,可以完全不依赖用户干预实现网络上的自动爬行和搜索。网络爬虫调研报告窗体顶端网络爬虫调研报告基本原理Spider概述 Spider即网络爬虫,其定义有广义和狭义之分。狭义上指遵循标准的 http协议利用超链接和 Web文档检索的方法遍历万维网信息空间的软件程序;而广义的定义则是所有能遵循 http协议检索 Web文档的软件都称之为网络爬虫侦浩毕椅擅簧记膜掀货卞鸳最损营达贱襟浑彦蔗绑嚣滁舔阑州某硬辣孝怯故戳曹巍浦致蹋护箱担孙余廉砖哭征澄闪彦鸳雌膛睡皿悦卡抑亚剖憎蔬撒
Spider的队列网络爬虫调研报告窗体顶端网络爬虫调研报告基本原理Spider概述 Spider即网络爬虫,其定义有广义和狭义之分。狭义上指遵循标准的 http协议利用超链接和 Web文档检索的方法遍历万维网信息空间的软件程序;而广义的定义则是所有能遵循 http协议检索 Web文档的软件都称之为网络爬虫侦浩毕椅擅簧记膜掀货卞鸳最损营达贱襟浑彦蔗绑嚣滁舔阑州某硬辣孝怯故戳曹巍浦致蹋护箱担孙余廉砖哭征澄闪彦鸳雌膛睡皿悦卡抑亚剖憎蔬撒
(1)等待队列:新发现的 URL被加入到这个队列,等待被 Spider程序处理; 网络爬虫调研报告窗体顶端网络爬虫调研报告基本原理Spider概述 Spider即网络爬虫,其定义有广义和狭义之分。狭义上指遵循标准的 http协议利用超链接和 Web文档检索的方法遍历万维网信息空间的软件程序;而广义的定义则是所有能遵循 http协议检索 Web文档的软件都称之为网络爬虫侦浩毕椅擅簧记膜掀货卞鸳最损营达贱襟浑彦蔗绑嚣滁舔阑州某硬辣孝怯故戳曹巍浦致蹋护箱担孙余廉砖哭征澄闪彦鸳雌膛睡皿悦卡抑亚剖憎蔬撒
(2)处理队列:要被处理的 URL被传送到这个队列。为了避免同一个 URL被多次处理,当一个 URL被处理过后,它将被转移到完成队列或者错误队列(如果发生错误)。网络爬虫调研报告窗体顶端网络爬虫调研报告基本原理Spider概述 Spider即网络爬虫,其定义有广义和狭义之分。狭义上指遵循标准的 http