1 / 56
文档名称:

硕士研究生学位论文.doc

格式:doc   大小:748KB   页数:56页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

硕士研究生学位论文.doc

上传人:459972402 2019/2/23 文件大小:748 KB

下载得到文件列表

硕士研究生学位论文.doc

相关文档

文档介绍

文档介绍:硕士研究生学位论文题目:Blog搜集技术和百万Blog数据分析姓名:包勇军学号:10448178院系:信息科学技术学院专业:计算机系统结构研究方向:计算机网络与分布式系统导师:李晓明教授2007年5月版权声明任何收存和保管本论文各种版本的单位和个人,未经本论文作者同意,不得将本论文转借他人,亦不得随意复制、抄录、拍照或以任何方式传播。否则,引起有碍作者著作权之问题,将可能承担法律责任。摘要随着blog在全世界的流行,服务系统也越来越多。其中最常见的是blog搜索服务,也就是面向blog的垂直搜索引擎。尽管对blog的研究方兴未艾,但是很少有文献完整全面的讨论blog的搜集系统的设计,特别是在垂直搜索引擎的大框架下。本文的工作就是分析和设计blog垂直搜索引擎的搜集系统。主要贡献包括下面几点。设计了blog垂直搜索引擎的系统架构。本文针对垂直搜索引擎和通用搜索引擎的区别,对blog垂直搜索引擎的搜集、索引和服务子系统作了分析,并给出了系统架构图。分析了blog垂直搜索引擎搜集系统设计要点。本文给出典型搜集系统的架构,讨论搜集系统普遍遇到的问题。然后具体针对blog垂直搜索引擎,分析它的搜集系统需要考虑的一些特殊问题,包括搜集策略的问题,JavaScript的问题,虚拟主机的问题等等。详细讨论了blog搜索引擎搜集系统的设计和工作流程。我们设计了搜集系统的系统架构;提出用focused搜集策略搜集blog站点;利用站点的URL模式来识别blog;针对blog站点的特点,设计高效的DNS解析系统;分析blog搜集中的友好性设计面临的问题,并给出详细的frontier模块的设计;分析post搜集的两种方案,并给出post搜集的系统架构。对搜集到的百万blog数据作了简单的分析。我们讨论了blog站点中存在的链接局部性、blog分布不均衡等4点特性,并评估它们对搜集系统的影响,尤其针对AJAX带来的影响,给出了blog搜集的一些具体的改进方案。关键词:blog,blog搜索引擎,垂直搜索引擎,搜集系统,puterArchitecture)DirectedbyLIXiaomingAbstractWiththeblogintheworldpandemic,theblog-,pletediscussionaboutthedesignofblogcollectingsystem,’,weanalyzethecollectingsystem,indexsystemandtheservicesystemofblogverticalsearchengine,,analyzeitscollectionsystemneedstoconsidersomespecialissues,includinggatheringstrategy,JavaScript,virtualhost,