1 / 72
文档名称:

基于浏览器服务的网络爬虫的设计与实现.pdf

格式:pdf   页数:72
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于浏览器服务的网络爬虫的设计与实现.pdf

上传人:numten7 2014/3/5 文件大小:0 KB

下载得到文件列表

基于浏览器服务的网络爬虫的设计与实现.pdf

文档介绍

文档介绍:关于论文使用授权的说明作者签名:签字日期:导师签名:口公开口保密一年口保密两年日本人完全了解武汉邮电科学研究院榛鹂萍技有关保留、使学位论文的规定,本文知识产权归武汉邮电科学研究院所有,武汉邮电科学研究院有权保留送交论文的复印件和电子版本,允许论文被杏阅和借阅。同意将本人的学位论文提交中国学术期刊馀贪电子杂志社全文出版并收入《中国学位论文全文数据库》。ⅲ罕C艿难宦畚脑诮饷芎笞袷卮诵
的兴起,提高,技但同时传统取方式,页面代码同,其次,了解/技术的特点,以及传统方式无法解决此问题的原因。我们期望达到以下几个目的:⒕】赡芏嗟幕袢〉接肓唇佑泄氐膉搿、能正确处理页面中的代码。⒛茏既坊袢〉揭觳搅唇樱⒛芙邢乱徊阕ト文中首先尝试使用引擎的方式解析网页中包含的代码,期望以此来解决链接丢失的问题。但对于韵蟠淼娜毕荩沟酶梅桨冈诖鞟网站时表现出了不足。为此本文创造性的将浏览器作为爬虫的服务器使用,通过浏览器强大的页面处理能力帮助我们解决韵蟮奈侍狻Mü馐裕颐欠⑾郑梅桨妇」芄δ芮大,但效率上却有很大的缺陷。于是在本文最后又提出了一套整合的方案,合理的利用两种类型的爬虫,使得爬虫的在功能和效率上都得到了一定的提高。并在文章的最后对三种方案进行了对比测试。关键词:搜索引擎,网络爬虫,.
琣瓸,.瓹瑆琺疭..瑆...
琖,,武汉邮电科学研究院硕士论文:
目录第滦髀邸课题背景及意义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..搜索引擎简介⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯...舑苤⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯...阉饕娣⒄估贰分类⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯搜索引擎的原理⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯~.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯第翵的设计与实现⋯⋯.∧??椤解析模块⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.唇犹崛∧?椤武汉邮电科а芯吭核妒畚.
运行测试⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.第禄阡榔鞣竦耐缗莱娴纳杓朴胧迪帧相关技术⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.远馐怨ぞ遷⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.疟镜饔谩总体设计方案⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯第禄旌夏P偷纳杓朴胧迪帧关键技术⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯...九卸?椤鞫饶?椤第禄旌夏P偷男阅芷拦馈去重效果评估⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯抓取性能评估⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.性能分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⌒阅芊治觥效果综合⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯第伦芙岷驼雇本文的工作⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯武汉邮电科学研究院硕士论文.⋯⋯⋯⋯.⋯..⋯.....⋯⋯⋯⋯.⋯⋯..
本文的贡献⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯展望⋯⋯⋯:⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯参考文献⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯致谢⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯附录ザ了妒垦黄诩浞⒈淼穆畚摹附录妓饕附录硭饕武汉邮电科学研究院硕十论文