1 / 82
文档名称:

基于Groovy的分布式网络爬虫系统的设计与实现.pdf

格式:pdf   页数:82
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于Groovy的分布式网络爬虫系统的设计与实现.pdf

上传人:banana 2014/2/20 文件大小:0 KB

下载得到文件列表

基于Groovy的分布式网络爬虫系统的设计与实现.pdf

文档介绍

文档介绍:西南交通大学研究生学位论文姓专二。一炅年国内图书分类号:国际图书分类号:密级:公开
』篗篩::,..
学位论文作者签名:幸C芸冢凇!D杲饷芎笫视帽臼谌ā悖槐C茑颍褂帽臼谌ㄊ椤西南交通大学学位论文版权使用授权书曲南父逋大罕本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借检索,可以采用影印、缩印或扫描等复印于段保存和编本学位论文。同期:年翴阅。本人授权西南交通大学可以将本论文的全部或部分内容编入有天数据库进行本学位论文属于朐谝陨戏娇蚰诖颉”
日期:趂口与国¨老西南交通大学硕士学位论文主要工作毕声明本人在学位论文中所做的主要工作或贡献如下:本文分析总结了主题页面在系姆植继卣鳎诖嘶∩鲜迪至艘桓龇植际降目定制主题爬虫系统珻8孟低吃赪环境下使用实现。论文详细说明了系统的工作环境、拓扑结构、功能模块、工作流程,以及系统的具体实现细节。与现有定制主题爬虫相比,有着如下特点:将脚本引入定制事题爬虫配置,使得逻辑表达可出现在配置中,大大提高了爬虫抓取数捌的精度和速度;实现了持有状念的组件,很大程度上满足了对葑ザ盏囊G螅皇褂肑菇艘徽琢榛畹姆植际浇饩龇桨福朔桨覆唤鼋鲋С峙莱嫦低常箍赏ü渲极大地方便了系统的开发和维护。本人郑重声明:所呈交的学位论文,是在导师指导下独立进行研究工作所得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中作了明确说明。本人完全了解违反上述声明所引起的一切法律责任将由本人承担。学位论文作者签名:作为其它分和式业务的解决方案;引入同志中心的概念,将浠阕懿⒇⒎⒃ぞδ埽
曼曼緉猧曼曼舅摘要西南交通大学硕士研究生学位论文第随着的发展壮大,人们获取信息的途径逐渐被网络所替代,同时网络信息的增长也达到了惊人的速度。在实际应用中,用户往往有着自己的浏览习惯及特定的主题敏感性,通用网络爬虫难免无法满足类似个性化的信息收集需要,现有的主题爬虫也有着种种弊端。论文通过分析总结主题页面在系姆植继卣鳎杓撇⑹迪至艘桓鯳环境姆植际降目啥ㄖ浦魈馀莱嫦低矯论文阐述了系统的工作环境、网络拓扑结构、子系统及其功能模块和鹤髁程,以及各了系统间通信接口的设计,对系统的各子系统的设计和实现都进行了洋细的论述,包括大量的系统难点分析及解决方案。论文详细说明了系统实现中的’些特点:谌斯ざㄖ频墓讨校灼舜车拇渴菹钆渲梦募獹脚本引入配置,使得逻辑表达可出现在配置中,提高了配置的灵活性以及爬虫抓取数据的精度和速度。谜赜贖丁协议网络通信下的客户端状态保持方式,实现了持菇艘徽琢榛畹姆植际浇饩龇桨福朔桨覆志中心的概念,将同志汇总并丌发预警功能,极大的方便了系统的开发和维护。‘论文的最后,对系统的运行效果进行了介绍。关键词:网络爬虫;主题爬虫;籊环植际饺砑有状念的组件,很大程度上满足了对葑ザ盏囊G蟆使用仅仅支持爬虫系统,还可通过配置作为其它分布式业务的解决方案。低持幸隦
,西南交通大学硕士研究生学位论文第页琩篧籖;;瑃甅,琻,珻.,,猵,,..琾琣甀珻,.籘
一;弧曼曼驶事事曼苎曼曼曼目录西南交通大学硕士研究生学位论文第滦髀邸研究背景与意义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯本论文研究内容及章节安排⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯通信协议⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.防议简介⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一脚本语言’介绍⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯第峦缗莱嫦低矯男枨蠓治觥项目概述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.系统目标及功能需求⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..!!!!R灰国内外研究现状⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯主题页面分布特征⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯请求方式⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..响应状态⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯;;●.
皇皇鼍曼曼曼皇曼蔓皇曼皇曼曼皇舅狪———/——。皇曼事曼曼曼韭曼曼西南交通大学硕士研究生学位论文第页各子系统的模块