文档介绍:浙江大学
硕士学位论文
支持AJAX的互联网搜索引擎爬虫设计与实现
姓名:罗兵
申请学位级别:硕士
专业:计算机应用
指导教师:陈刚
20070514
摘要分析文件和代码。解析模块执行页面中的邱耄庑┐网络爬虫是搜索引擎的关键技术之一,近年来,随着的兴起,技术在7⒅械拇罅坑τ茫珹褂靡觳较蚍衿鞣⑺颓肭蟮姆绞剑臃器获取数据后动态修改趁婺谌荩贾麓惩缗莱孀ト〉哪谌菰渡儆谝趁呈现的内容,这对搜索引擎查询结果的准确性有很大影响。本文设计实现的“钾ü厝疽觳角肭蠓祷氐氖莶⒎治觯佣袢「嗟囊趁婺容。该爬虫由网页抓取、网页分析、解析、С帧⒁趁嫔晌宀糠肿槌伞网页抓取模块通过请求,获取需要抓取的页面。网页分析模块分析页面元素信息,和传统爬虫不同的是,该爬虫不仅分析页面中的超链接和页面内容,还码中包含螈饔茫袢〈臃衿鞣祷氐那肭竽谌荩玫侥谌莺笸ü鼶支持模块修改页面内容。最后,页面生成模块利用上一模块的结果重新生成新的页面内容,然后提取新页面中的超链接。本文最后对痛撑莱孀ト〗峁辛耸笛椋ü笛椋っ了谕忍跫伦ト镜囊趁婺谌菰抖嘤诖撑莱妗关键词搜索引擎,网络爬虫,,.浙江大学硕士学位论文
,∞删㈣踙枘廿锄∞恤衄雏緋五緒,Ⅱ啪,甑咖鰊彻瓵锄即圮咄,橼廾錱鶦锄Ⅱ噦辵仃鏾衐—瓢,积,鸥∞汀辌琺辴证锄柚錷锄痬孤,鱟,.面,龋甒蛐行瓯浙江大学硕士学位论文誷也瑆躣∞瑃∞..琧【琤,琯,瑆琫騛
图目录图同步交互和异步交互的比较【】⋯⋯⋯⋯⋯⋯⋯⋯图搜索引擎的体系结构【浚图传统爬虫的工作流程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图抓取策略⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。图基于分类器聚焦爬虫体系结构【俊图谑莩槿∑鞯木劢古莱嫣逑到峁埂图基于用户学习的聚焦爬虫体系结构【】⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.图系统结构【薄图传统τ煤突贏膚曲应用的比较【】⋯⋯⋯⋯⋯⋯⋯图网易博客的每日推荐页面呈现⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..图撞┛兔咳胀萍龅囊趁嬖绰肫巍图支持的爬虫总体结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图网页分析流程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯~解释器的结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一图愦谓峁埂腄接口继承关系⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯节点的方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.图提取页面中超链接的流程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。日抓取的超链接数一网易博客⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.图传统爬虫抓取的超链接数一网易博客⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。縲ト〉某唇邮恍吕瞬┛汀图传统爬虫抓取的超链接数一新浪博客⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..【抓取的超链接数一百度博客⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图传统爬虫抓取的超链接数一百度博客⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.ト〉某唇邮籨图撑莱孀ト〉某唇邮籨帧图抓取链接数对比⋯⋯⋯⋯⋯⋯⋯⋯⋯.图ト∈奔涠员取浙江大学硕士学位论文⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.图日录~
表目录表籰Ⅺ札表明对嗟姆椒ㄋ得象方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.象属性⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯浙江大学硕士学位论文Ⅳ
,随着信息科学技术的不断发展,网络已成为人们生活中的重要组成部分,因特网作为信息交流的中心与枢纽作用愈显重要。因特网是全球最大的分布式信息库,拥有众多但却杂乱无章的信息,并且这些信息呈几何级数增长。如何快速、准确地查找所需要的信息,成为人们迫切需要解决的问题。搜索引擎应运而生,而作为搜索引擎一部分的网络爬虫起着重要作用,爬虫抓取页面的数量和质量对搜索引擎的查询结果影响很大。甇是为了区别于过往的以门户为代表的的称呼,是一个符号,它表明的是正在变化中的互联网,这些变化相辅相成,彼此联系在一起,它让社会性、用户、参与和创作这些元素浮出水面成为互联网文化的中坚力量。甇的最大特点是个人化、去中心化,同时强调社会化,强调开放、共享,强调参与、创造。基本上的绝大部分服务都存在一个个人标识明确的页面。甇的最大改变就是普通人开始改变、创造网络,草根性质的、业余性质的参与。甇要凸现每个用户的价值,每个人在互联网上都可以创造自己的价值。近年来,随着的兴起,在7⒅性擞肁际醯耐驹嚼丛多,这些技术的应用带来了更好的用户体验、很多新概念和设计,同时,由于技术可以动态改变页面内容,改变了传统趁娴慕峁梗贾碌ゴ抓取静态趁娴耐缗莱孀ト〉哪谌萆儆谝趁娉氏值哪谌荩庑┒谌莞网络爬虫的设计带来极大挑战。本论文所涉及的课题一一“支持的互联网搜索引擎爬虫设计与实现”,正是在综合考虑上述发展趋势、需求因素的基础上提出的,设计实现了支持的网络爬虫原型系统瑆】【⑹腔诖撑莱妫迪至薐解释器、С值男乱淮莱妫浜诵脑谟诨袢觳角肭蠓祷氐氖荩并通过这些数据生成真正的页面内容,从而抓取到更多的内容。搜索引擎【俏B闳