文档介绍:中国科学技术大学
硕士学位论文
基于网络编码的分布式文件系统设计与实现
姓名:常乾
申请学位级别:硕士
专业:计算机软件与理论
指导教师:许胤龙
20100425
摘要
摘要
随着电子信息技术的发展,新的信息以一种前所未有的速率在产生和处理,
同时网络也大大加快了信息传播的速度,这使得对海量信息的处理成为了人们的
一种迫切需求。仅仅使用本地存储应对这些信息会需要很多功能和性能的限制,
如低可靠性、较差的移动性和不利于文件共享等,人们开始倾向于使用网络存储
这种新手段。分布式文件系统是网络存储的基础组成部分,其研究也受到了学界
和工业界的广泛重视。
分布式文件系统通常能够提供高可靠性的数据存储,并具有良好的扩展性。
为实现这些功能,需要在存储层面的数据放置机制上进行针对性的设计。已有的
手段主要包括复制机制和纠错编码,它们都有其各自的适用范围和局限性。本文
的研究是在数据存储层面使用网络编码方法,对文件进行分段分块编码存放,并
且在系统功能的设计实现上给出网络编码的方案。本文的分布式文件系统提供了
统一的命名空间,遵守位置无关性和透明性,能实现基本的文件和目录操作,并
保证了系统内部实现对用户的透明性。系统采用了集中式的体系结构,由索引服
务器、存储节点和客户端组成。借助网络编码的机制,索引服务器可以维护系统
在运行时的负载均衡性,并且在发现数据失效时对节点和数据进行恢复,在有新
节点加入时,索引服务器发起再均衡化过程,保证了系统具有良好的扩展性。
本文首先介绍了分布式文件系统的研究现状,及其具有的功能和分类,在对
存储层常用的数据放置冗余策略进行介绍之后,给出了本文采用的网络编码方式
的数据放置方案;之后详细描述了系统的设计和实现,以及对负载均衡和节点恢
复问题的解决方案;最后介绍了实验设计方案和性能评测结果。
关键词:分布式文件系统;网络编码;负载均衡;节点恢复
I
Abstract
Abstract
As electronic and information technology develops, new information is produced
and processed in an unprecedented speed, along with that work propagate
information even faster. This shapes an urgent storage demand for huge amount of
information. However local information storage imposes several limitations on
functions and performance, such as low reliability, poor mobility and inconvenience
for file sharing. So people begin to move their focus to new solution work
storage. Distributed file system is a basic ingredient work storage, and its
research has been emphasized by munity and industry.
Distributed file systems should usually provide data storage with high reliability
and good scalability, which is achieved by specific design of data placement methods
in the systems' storage level. Some existing mechanisms include replication and
erasure coding, each of which has its special objective and limitation. Research in this
thesis is by work coding to divide file into segments first and chunks further
and encode them to be stored in the distributed environment. work coding
solutions to de