1 / 4
文档名称:

网络爬虫技术分析.doc

格式:doc   大小:60KB   页数:4页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

网络爬虫技术分析.doc

上传人:ttteee8 2019/10/24 文件大小:60 KB

下载得到文件列表

网络爬虫技术分析.doc

文档介绍

文档介绍::..:从网络上获得网站网页资料,能够建立数据库并提供查询的系统。(按工作原理):全文搜索引擎、分类目录。1>全文搜索引擎数据库是依靠网络爬虫通过网络上的各种链接自动获収大量网页信息内容,并按一定的规则分析整理形成的。(百度、Google)2>分类目录:按目录分类的网站链接列表而已,通过人工的方式收集整理网站资料形成的数据库。(国内的捜狐):它们是Web±独口运行的软件程序,它们不断地筛选数据,做出口己的决定,能够使用Web获取文木或者进行搜索杏询,按部就班地完成各自的任务。:购物机器人、聊天机器人、搜索机器人(网络爬虫)等。:网络爬虫也叫网络蜘蛛,它是一•个按照一定的规则H动提取网页程序,其会白动的通过网络抓取互联网上的网页,这种技术一般可能用来检查你的站点上所有的链接是否是都是冇效的。当然,更为高级的技术是把网页中的相关数据保存下來,町以成为搜索引擎。搜索引擎使用网络爬虫寻找网络内容,网络上的HTML文档使川超链接连接了起來,就像织成了-•张网,网络爬虫也叫网络蜘蛛,顺着这张网爬行,每到一个网页就用抓取程序将这个网页抓下來,将内容抽取出來,同时抽取超链接,作为进一步爬行的线索。网络爬虫总是要从某个起点开始爬,这个起点叫做种子,你可以告诉它,也可以到一些网址列表网站上获取。:网络爬虫分类通用爬虫聚集爬虫工作原理从一个或多个初始网页的URL开始,获取初始网页的URL,抓取网页的同时,从当而网页提取相关的URL放入队列中,直到满足程序的停止条件。根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接(爬行的范围是受控的)放到待抓収的队列中,通过一定的搜索策略从队列中选择下一步要抓取的URL,重复以上步骤,直到满足程序的停止条件。,进行一定的分析、过滤,并建立索引,以便之后的查询和检索,这一过程所得到的分析结果还可能对以后的抓収过程给出反馈和指导。、不同背呆的用户有不同的检索冃的和需求,通用捜索引擎所返回的结果包含大量用户不关心的网页。。,不支持根据语义的搜索。--些像图片、音频等信息含量密集且具有一定结构的数据无法获取。。。。以上二个是需要解决的问题。算法广度优先算法现有聚焦爬虫对抓取目标的描述可分为基于目标网页特征、基于目标数据模式和基于领域概念3种。基于目标网页特征的爬虫所抓取、存储并索引的对象一般为网站或网页。根据种了样木获取方式可分为:(1) 预先给定的初始抓取种了样木;(2) 预先给定的网页分类目录和与分类目录对应的种子样本,如Yahoo!分类结构等;(3) 通过用户行为确定的抓取冃标样例,分为:a) 用户浏览过程中显示标注的抓取样本;b) 通过用户Fl志挖掘得到访问模式及相关样本。其屮,网页特征可以是网页的内容特征,也可以是网页的链接结构特征,等等。