文档介绍:’——支持分类号指导教师学位授予单位申请学位级别论文完成日期工—
,、、一。
眦川Ⅲ⋯㈣俐舢:Ⅲ⋯鰈
论文作者虢够轨导师虢弗彳学位论文作者签名:堡で保密口在——年解密后适用本授权书。大连海事大学学位论文原创性声明和使用授权说明原创性声明学位论文版权使用授权书萝等撰写成硕士学位论文:童挂甾墼撞苤的旦垒鲤迎堂圆终爬虫送型殛究:畚本人郑重声明:本论文是在导师的指导下,独立进行研究工作所取得的成果,中已经注明引用的内容外,对论文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本论文中不包含任何未加明确注明的其他个人或集体己经公开发表或未公开发表的成果。本声明的法律责任由本人承担。本学位论文作者及指导教师完全了解大连海事大学有关保留、使用研究生学位论文的规定,即:大连海事大学有权保留并向国家有关部门或机构送交学位论文的复印件和电子版,允许论文被查阅和借阅。本人授权大连海事大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论文。同意将本学位论文收录到《中国优秀博硕士学位论文全文数据库》泄跗诳光盘版缱釉又旧、《中国学位论文全文数据库》泄蒲Ъ际跣畔⒀芯克等数据库中,并以电子出版物形式出版发行和提供信息服务。保密的论文在解密后遵守此规定。本学位论文属于:不保密留朐谝陨戏娇蚰诖颉啊日期:矽耗●.
摘要快速增长的网络信息资源已经成为一个巨大的信息宝藏。实际上通用搜索引擎仅能检索到整个网络资源的糠中畔称之为,而大部分更有价值的信息资源却不能够被通用搜索引擎检索,这些不能被检索到的信息就称为6訢行畔⒒袢〉难芯恳丫嚼丛绞艿饺嗣堑墓刈ⅰ在校邢嗟币徊糠帜谌菀蛭R远车男问酱嬖诙荒鼙挥行抓取。究其原因是,目前很多网站通过动态脚本的方式与用户进行交互,特别是以为代表的技术在网站开发中得到了广泛应用。技术改变了传统的基于静态页面的网站架构,在提高用户体验度的同时,由于其特性如事件执行、状态识别与切换等,导致使用技术的网站及其后台服务器资源无法被通用网络爬虫抓取,成为了不同于试础U攵匀绾位袢≌类使用技术的网站信息的问题研究将变得越来越重要,因此,实现此类信息的获取成为了本文工作的出发点。本文的主要研究内容如下:芯苛送ㄓ猛缗莱娴奶逑到峁埂⒐ぷ髟恚氐惴治銎渥ト所面临的执行、状态识别与切换等问题。基于以上研究,本文提出了一种基于状态仓库的缗莱即的体系结构及其基本算法。门莱嫱ü尤肭度胧戒榔鞯墓δ埽梢阅D庵葱幸趁嬷械腏事件,接受服务器端的异步响应,通过分析页面峁沟谋浠侗鹦律傻淖态,逐步生成网站的状态仓库,该状态仓库呈现出了网站的结构及其各个页面状态信息。捎谠贏忠匙ト≈卸酝桓龊拿看蔚饔枚冀ǖ贾峦姆衿端响应,本文将包含请求的函数标记为热点,通过缓存数据响应策略的方法改进上述基本算法,从而减少与服务器端通信所带来的性能损耗。最后本论文通过设计对比实验来验证提出的新型网络爬虫的有效性,实验结果表明利用该爬虫能够从页面更多的获取后台试础关键词:;煌缗莱妫蛔刺挚猓磺度胧戒榔腄中文摘要
◆●
甌,甌.,.,琣英文摘要猤,,琺琫’,..,·甌,,..
.