1 / 56
文档名称:

基于RSS的博客采集系统设计与实现.pdf

格式:pdf   页数:56
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于RSS的博客采集系统设计与实现.pdf

上传人:minzo 2014/3/3 文件大小:0 KB

下载得到文件列表

基于RSS的博客采集系统设计与实现.pdf

文档介绍

文档介绍:北京机械工业学院
硕士学位论文
基于RSS的博客采集系统设计与实现
姓名:刘莉
申请学位级别:硕士
专业:计算机应用
指导教师:肖诗斌
20080101
摘要现的系统中共设计了两个不同功能的爬虫:莱婧虰莱妗F渲蠷龄爬转移到个人。博客网站雨后春笋般地涌现,互联网迎来了“博客的春天P畔开始了又一轮指数级爆炸增长。对用户来说要想在浩瀚的信息海洋里找到想要的信息已非易事。信息的快速增长和人们的查找能力的矛盾愈演愈烈。对搜索引擎来说,面对博客这种频繁更新的数据源,传统搜索引擎根本无法跟上他的正是博客的兴起激活了K云浣峁够氐悖趙籦应用中受到越来越多的青睐,它使得网络上的信息更加结构化。正是慕峁够氐闶沟猛虫负责广泛采集肿樱鳥莱嬖蛲ü槔鶵种子获取博客。系统如何抽取脚本中的链接、获取翻页链接、减少链接消重的内存开销、更合理的截取博客更新部分等都还有待进一步的研究。本论文所积累的一些经验和资源,⒋哟车腎更新速度。如何应对这些更新频繁的数据,已成为搜索引擎亟待解决地重要问题。络爬虫可以通过跟踪趁娴母录笆辈痘窀滦畔ⅲ=饩鍪莸钠捣备新提供了一条可行之路。基于这个思路,本文尝试设计一种基于牟┛筒杉低常M芙虾的解决及时追踪更新数据的问题。不同于传统搜索引擎使用的爬虫,本论文实通过跟踪肿拥母拢锏郊笆辈蹲礁虏┛偷哪康摹本文对博客采集进行了初步研究,实验结果还比较粗糙。在实际的应用中,也可以作为进一步研究的基础。关键词:博客采集;莱妫籅莱.
....,.,’瓾瓸琲痷甊瓵琯:築
刘葡学位论文版权使用授权书蘖饶阥月叫日本人完全了解北京机械工业学院关于收集、保存、使用学位论文的规定,同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版本;学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、扫描、数字化或其它手段保存论文;学校有权提供目录检索以及提供本学位论文全文或者部分的阅览服务;学校有权按有关规定向国家有关部门或者机构送交论文的复印件和电子版;在不以赢利为目的的前提下,学校可以适当复制论文的部分或全部内容用于学术活动。学位论文作者签名:ⅲ悍潜C苈畚奈扌枨┳经指导教师同意,本学位论文属于保密,在年解密后适用本授权书。指导教师签名:年月日
譬莉矿年/月硝日硕士学位论文原创性声明本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行研究工作所取得的成果。除文中已经注明引用的内容外,本学位论文的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集体,均已在文中以明确方式标明。本学位论文原创性声明的法律责任由本人承担。签名:
⒋哟车腎转移到个人。博客网站雨后春笋般地涌现,互联网迎来了“博客的春天一。信息开始了又一轮指数级的爆炸增长。对用户来说,要想在浩瀚的信息海洋里找到想要的信息已非易事。信息的快速增长和人们的查找能力的矛盾愈演愈烈。对搜索引擎来说,面对博客这种频繁更新的数据源,传统搜索引擎根本无法跟上他的更新速度。如何应对这些实时动态数据的更新,已成为搜索引擎亟待解决地重要问题。正是博客的兴起激活了。飧鲆欢缺称为“阿斗亩饔直环錾狭宋杼āK云浣峁够氐悖趙应用中受到越来越多的青睐,它使得网络上的信息更加结构化。正是慕峁够氐闶得网络爬虫可以通过跟踪趁娴母录笆辈痘窀滦畔ⅲ=饩鍪凳笔的更新提供了一条可行之路。基于这个思路,本论文提出一种基于牟┛筒杉桨福杓撇⑹迪至艘个博客采集系统,较好地解决了及时追踪数据更新的问题。.┛陀氩┛退阉饕博客,即或,这一词源于“鶯”缛罩的缩写,是一种网络个人信息的发布形式【俊R桓鯞涫稻褪且桓鐾常ǔJ怯杉蚨并且经常更新的所构成。在中可以插入超链接、电子邮件、图像、动画、电影、代码、引用等资源。这些张贴的文章又都是按照年份和日期进行排列的。应该说,博客是一个人性与公共性相结合的媒介。它充分利用了网络双向互动、超文本链接、动态更新、覆盖范围广的特点。其精髓不是表达个人思想或是记录个人的同常经历,而是从个人的角度,来精选和链接互联网上最具
有价值的信息、知识与资源,为他人提供共享资源。现在,人们以博客来共享为了一个人际交流的场所。对于传统信息的发布,往往是以信息的广泛传播、提升知名度、增加访问量,从而直接或间接地创造价值为目的。这就是媒体的特性。作为媒体角色出现了以新浪为代表的大量网站。而个人信息发布往往是为了个人表达的需要。互联网中的个人数量非常庞大,这些用户分布在各个博客服务商,也有很多人自己搭建平台,创建博客。这样就带来一个问题:信息无法集中展示,影响力已经超越任何一家门户网站来看,博客搜索也将超越任何一家博客服务提供商。绾谓ú┛陀谢刈橹谝黄穑ê玫哪谌萆秆