1 / 56
文档名称:

硕士研究生学位论文.doc

格式:doc   页数:56页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

硕士研究生学位论文.doc

上传人:1954311756 2014/4/20 文件大小:0 KB

下载得到文件列表

硕士研究生学位论文.doc

文档介绍

文档介绍:硕士研究生学位论文
题目:Blog搜集技术和百万Blog数据分析
姓名:包勇军
学号:10448178
院系:信息科学技术学院
专业:计算机系统结构
研究方向:计算机网络与分布式系统
导师:李晓明教授
2007 年 5 月
版权声明
任何收存和保管本论文各种版本的单位和个人,未经本论文作者同意,不得将本论文转借他人,亦不得随意复制、抄录、拍照或以任何方式传播。否则,引起有碍作者著作权之问题,将可能承担法律责任。
摘要
随着blog在全世界的流行,服务系统也越来越多。其中最常见的是blog搜索服务,也就是面向blog的垂直搜索引擎。尽管对blog的研究方兴未艾,但是很少有文献完整全面的讨论blog的搜集系统的设计,特别是在垂直搜索引擎的大框架下。
本文的工作就是分析和设计blog垂直搜索引擎的搜集系统。主要贡献包括下面几点。
设计了blog垂直搜索引擎的系统架构。本文针对垂直搜索引擎和通用搜索引擎的区别,对blog垂直搜索引擎的搜集、索引和服务子系统作了分析,并给出了系统架构图。
分析了blog垂直搜索引擎搜集系统设计要点。本文给出典型搜集系统的架构,讨论搜集系统普遍遇到的问题。然后具体针对blog垂直搜索引擎,分析它的搜集系统需要考虑的一些特殊问题,包括搜集策略的问题,JavaScript的问题,虚拟主机的问题等等。
详细讨论了blog搜索引擎搜集系统的设计和工作流程。我们设计了搜集系统的系统架构;提出用focused搜集策略搜集blog站点;利用站点的URL模式来识别blog;针对blog站点的特点,设计高效的DNS解析系统;分析blog搜集中的友好性设计面临的问题,并给出详细的frontier模块的设计;分析post搜集的两种方案,并给出post搜集的系统架构。
对搜集到的百万blog数据作了简单的分析。我们讨论了blog站点中存在的链接局部性、blog分布不均衡等4点特性,并评估它们对搜集系统的影响,尤其针对AJAX带来的影响,给出了blog搜集的一些具体的改进方案。
关键词:blog,blog搜索引擎,垂直搜索引擎,搜集系统,爬虫
The Analysis of a Blog Collecting System with a Collection of Millions of Blog Sites
Bao Yongjun (Computer Architecture)
Directed by LI Xiaoming
Abstract
With the blog in the world pandemic, the blog-oriented service system is also increasing. One of the mon is the blog search service which also known as Blog Oriented Vertical Search Engine. Despite the researches in blogs are popular and hot, there is no full plete discussion about the design of blog collecting system, particularly under the framework of vertical search engine.
Our work is to analyze and design blog vertical search engine’s collecting system. Major contributions include the following points.
Design the architecture of the blog vertical search engine. Based on difference of vertical search engines and general search engines, we analyze the collecting system, index system and the service system of blog vertical search engine, at last we give the system architecture chart.
Analyze the design key points of the collecting system of the blog vertical search. This paper presents the typical collecting system fr