文档介绍:上海交通大学
硕士学位论文
网络环境下分布式文件系统的设计与实现
姓名:华清
申请学位级别:硕士
专业:计算机软件与理论
指导教师:黄林鹏
20061201
网格环境下分布式文件系统的设计与实现
摘要
今时今日,网格技术已经不再把自己局限在高性能计算的范畴中,
而是通过向网络服务靠拢,建立起一套面向服务的体系架构。相应于
此,网格中的数据模块也不再是一个提供资源的底层支持模块,而逐渐
向一个功能独立的,相对自治的分布式文件系统发展。
本文的目的在于构造一种网格环境下的分布式文件系统。在结构上
它相当于中台的数据模块部分,为CGSP其他
功能模块提供持久的数据存储功能以及稳定而高效的数据传输服务。另
一方面,这个系统也可以独立运行,网格终端用户可以通过它建立自己
的数据空间。
传统的分布式文件系统往往是紧耦合的、基于文件级别应用副本策
略的。这些系统虽然性能出众、但往往是应对专门系统设计,通用性不
强。而过去基于Web的分布式文件系统往往性能低下、存储能力弱、传
输效率低。为了满足网格环境下海量数据密集型应用的需求以及面向服
务的框架,我们设计并实现了一个基于分片的、松耦合的分布式文件系
统,它包括底层存储资源集合、存储资源管理模块、元数据管理模块、
副本管理模块、数据传输管理模块、信息监控模块、策略分析模块以及
虚拟文件视图终端等部件。
本文设计并实现的系统具有以下的特点和优势:
•稳定性:通过副本管理模块调整系统中文件合理的冗余度,对”零
副本危机”进行预测并予以避免。策略分析模块会在存储资源选择
时挑选健壮性最佳的数据节点进行存储;
•高效性:在传输中使用GridFTP带状并行传输,同时提高服务器端
和客户端的带宽利用率。策略分析模块会在构造传输计划时挑选最
近、当前可用带宽最大的节点进行传输;
•通用性:通过使用网络服务资源框架实现远程调用,存储资源只需
向存储资源管理模块汇报就可以加入资源集,用户也可以在任何终
端登入自己的用户空间;
I
上海交通大学硕士学位论文
•可扩展性:通过对策略分析模块的合理设计,开发评估函数接口。
他模块可以通过调用接口得到所需要的结果,而管理员可以通过对
接口的不同实现,对配置参数的调整改变系统的运行策略。这样系
统也便于重构和功能扩展。
本文所有设计、实现的结果都在一个网格环境下测试, 并通
过OptorSim模拟了大规模节点数、长运行时间的运行环境进行可用
性测试。
关键词: 数据网格,分布式文件系统,网络服务资源框架,分片机制,
副本管理,高性能数据传输
– II –
THE DESIGN AND IMPLEMENTATION OF A DISTRIBUTED
FILE SYSTEM IN GRID
ABSTRACT
Nowadays, grid technology would no longer limit itself in the field of high performance
computing, instead it is moving along to the web service technology and has been construct-
ing an SOA grid architecture. Accordingly, the data module of grid will e an individual
autonomic distributed file system instead of just a support module.
This thesis aims to construct a distributed file system in grid for China Grid Support
Platform and provides other submodule in CGSP with permanent data access and stable
efficient data transfer service. In the other side, this system can be run independently and let
endpoint grid users create their own data space via work.
Traditional distributed file systems are tight-coupled and have outstanding performance.