1 / 54
文档名称:

支持AJAX的网络爬虫系统设计与实现.pdf

格式:pdf   页数:54
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

支持AJAX的网络爬虫系统设计与实现.pdf

上传人:quality 2014/2/26 文件大小:0 KB

下载得到文件列表

支持AJAX的网络爬虫系统设计与实现.pdf

文档介绍

文档介绍:中国科学技术大学
硕士学位论文
支持AJAX的网络爬虫系统设计与实现
姓名:曾伟辉
申请学位级别:硕士
专业:模式识别与智能系统
指导教师:李淼
20090501
⒃贘∩系腁亩ㄒ与概念。该技术的特点是:用户操作与服务器响应异步化,达到了节约服务器空间,提高网络交互效率的目的。因而被各大网站相继采用。但由于目前的网络爬虫技术在对框架网站的解析过程中存在着:问负渭妒奈扌ё楹稀不能够识别事件触发顺序、缺乏错误捕获和处理能力等问题,导致大量数据不能被搜索引擎有效检索。本文针对上述问题,在对网页代码进行网页分析之后,通过研究基于对象的程序切片算法,利用脚本执行引擎对切片进行计算执行,将与喙氐那衅序计算出来,重建网页鳌>疟局葱幸嬗肭衅?榈幕ゲ僮鳎谰萁本执行之后的网页髯ト⊥持械牧唇樱钪战饩鯝蚣苤蠻提取以及异步网络爬虫系统的关键技术问题,达到获取脚本中哪康摹本文实现了对站点的链接进行抓取的目的,设计出支持站点的网络爬虫系统。在理论和技术方法上总结并提出框架网站中亓P畔⑻取、切片代码的有序执行以及程序切片模块、爬虫模块、脚本执行模块之间的互操作,为框架网站网络爬虫提供了新的解决方案,设计实现了支持站点的网络爬虫系统。关键字:网络爬虫异步交互脚本解析
篈琖.,琖...,.琤琲,琤瑆,.瑃,,,琣珹琒’
≤涵作者签名:重难盏嬖遭准缝皇乏敌盟宰:笸签字日期;鱼好矗篬中国科学技术大学学位论文原刳性声明中国科学技术大学学位论文授权使用声明口保密!D本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的成果。除已特别加以标注和致谢的地/亏矫,论又中不包召任诃他人云经发表或撰写过的研究成果。与我~同工作的同志对本研究所做的贡献均已在论文中作了明确的说明。签字目期:作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学拥有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。本人提交的电子文档的内容和纸质论文的内容相一致。保密的学位论文在解密后也遵守此规定。囱公开作者签名:导师签名:签字日期:
第滦髀选题背景和意义同时由于该技术采用处理来自服务器的响应,异步交互网络引擎运由于该技术采用了异步交互网络应用方式,#各种异步交互网络框架如珹,也应运而生。⑸撕艽的变化。在此之前,人们应用互联网的主要方式是通过门户网站浏览新闻。而现在以虚拟社区,珺博客琖百科全书琑等为代表的更注重用户交互体验的τ模式已经成为新的技术发展方向。从技术上分析。传统的τ媚J绞峭ü淼バ问酵瓿傻摹5庇没т劳页时,填写并提交访问表单,向衿鞣⑺颓肭螅衿鹘邮沾聿⒎祷匾个新的网页。该做法浪费了许多带宽。同时由于每次应用的交互都需要向服务器发送请求,导致用户界面的响应远远慢于本地应用的需要。年,》文章中,提出了建立在榧希獼的几种技术以新的方式组合而成的“篈”的定义与概念。该技术的特点是:用户操作与服务器响应的异步化。用户访问以这种技术建设的网站时,通过异步模式向服务器发送并取回需要的数据,减少了服务器和浏览器之间交换的数据量,也减少了衿鞯拇硎奔洌行在客户端,可以使很多的处理工作在发出请求的客户机完成,提高了应用响应的速度,降低了服务器的负载。了互联网领域新技术的发展,在提升用户交互体验的同时,又不需要在客户端安装插件。因此,一经提出就引起了互联网领域的广泛关注。年以来,在它的应用程序中成功地使用了异步交互网络技术,如讨论组、地图、取M庇捎诟眉际踔С諱/桓鞔笸鞠嗉滩捎谩
意味着越来越多有意义的数据将无法通过搜索引擎检索。这一问题,也引起了国和应用有重要意义锉虻龋恢6龋。象和事件驱动挠镅浴K哂械娜醣淞俊⑹录行、异步回应请求的特点,使得目前网络爬虫技术在解决异步交互网络的址解析方面,还存在着如下的困难⒃诮馕鲆觳浇换ネ绲刂过程中必须考虑中事件触发的顺序,而目前爬虫技术不能够识别事件触发顺序,无法构造出完整的⒁觳浇换ネ缂际豕乖斓耐持械腢通常带有参数,目前的爬虫技术在解析讨校荒芄皇侗鹞扌Р问楹希佣贾麓罅课扌Э盏刂芳巴侨醣淞俊⒔馐托痛耄浯砦笾挥性诵惺辈拍鼙徊痘瘛6目前爬虫技术缺乏对这种错误捕获和处理能力,因而会造成地址解析过程中的异除上述问题外,异步交互式网络的框架所具有的如下特点也影响了现有网络爬虫技术在其中的应用:一数字随着时间的推移还会提高,这为设计通用于各种框架的爬虫带来了蚣苡写罅康谋硐植愦耄缗莱嬖谥葱姓庑┐胧苯男矶时间,而这些代码对提取挥腥魏