1 / 37
文档名称:

谷歌三大核心技术(一)googlefilesystem中文版.docx

格式:docx   大小:353KB   页数:37页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

谷歌三大核心技术(一)googlefilesystem中文版.docx

上传人:w447750 2018/6/24 文件大小:353 KB

下载得到文件列表

谷歌三大核心技术(一)googlefilesystem中文版.docx

相关文档

文档介绍

文档介绍:The Google File System中文版
译者:alex
摘要
我们设计并实现了Google GFS文件系统,一个面向大规模数据密集型应用的、可伸缩的分布式文件系统。GFS虽然运行在廉价的普遍硬件设备上,但是它依然了提供灾难冗余的能力,为大量客户机提供了高性能的服务。
 
虽然GFS的设计目标与许多传统的分布式文件系统有很多相同之处,但是,我们的设计还是以我们对自己的应用的负载情况和技术环境的分析为基础的,不管现在还是将来,GFS和早期的分布式文件系统的设想都有明显的不同。所以我们重新审视了传统文件系统在设计上的折衷选择,衍生出了完全不同的设计思路。
 
GFS完全满足了我们对存储的需求。GFS作为存储平台已经被广泛的部署在Google内部,存储我们的服务产生和处理的数据,同时还用于那些需要大规模数据集的研究和开发工作。目前为止,最大的一个集群利用数千台机器的数千个硬盘,提供了数百TB的存储空间,同时为数百个客户机服务。
 
在本论文中,我们展示了能够支持分布式应用的文件系统接口的扩展,讨论我们设计的许多方面,最后列出了小规模性能测试以及真实生产系统中性能相关数据。
 
分类和主题描述
D [4]: 3—D分布文件系统
常用术语
设计,可靠性,性能,测量
关键词
容错,可伸缩性,数据存储,集群存储
1. 简介
为了满足Google迅速增长的数据处理需求,我们设计并实现了Google文件系统(Google File System – GFS)。GFS与传统的分布式文件系统有着很多相同的设计目标,比如,性能、可伸缩性、可靠性以及可用性。但是,我们的设计还基于我们对我们自己的应用的负载情况和技术环境的观察的影响,不管现在还是将来,GFS和早期文件系统的假设都有明显的不同。所以我们重新审视了传统文件系统在设计上的折衷选择, 衍生出了完全不同的设计思路。
 
首先,组件失效被认为是常态事件,而不是意外事件。GFS包括几百甚至几千台普通的廉价设备组装的存储机器,同时被相当数量的客户机访问。 GFS组件的数量和质量导致在事实上,任何给定时间内都有可能发生某些组件无法工作,某些组件无法从它们目前的失效状态中恢复。我们遇到过各种各样的问题,比如应用程序bug、操作系统的bug、人为失误,甚至还有硬盘、内存、连接器、网络以及电源失效等造成的问题。所以,持续的监控、错误侦测、灾难冗余以及自动恢复的机制必须集成在GFS中。
 
其次,以通常的标准衡量,我们的文件非常巨大。数GB的文件非常普遍。每个文件通常都包含许多应用程序对象,比如web文档。当我们经常需要处理快速增长的、并且由数亿个对象构成的、数以TB的数据集时,采用管理数亿个KB大小的小文件的方式是非常不明智的,尽管有些文件系统支持这样的管理方式。因此,设计的假设条件和参数,比如I/O操作和Block的尺寸都需要重新考虑。
 
第三,绝大部分文件的修改是采用在文件尾部追加数据,而不是覆盖原有数据的方式。对文件的随机写入操作在实际中几乎不存在。一旦写完之后,对文件的操作就只有读,而且通常是按顺序读。大量的数据符合这些特性,比如:数据分析程序扫描的超大的数据集;正在运行的应用程序生成的连续的数据流;存档的数据;由一台机器生成、另外一台机器处理的中间数据,这些中间数据的处理可能是同时进行的、也可能是后续才处理的。对于这种针对海量文件的访问模式,客户端对数据块缓存是没有意义的,数据的追加操作是性能优化和原子性保证的主要考量因素。
 
第四,应用程序和文件系统API的协同设计提高了整个系统的灵活性。比如,我们放松了对GFS一致性模型的要求,这样就减轻了文件系统对应用程序的苛刻要求,大大简化了GFS的设计。我们引入了原子性的记录追加操作,从而保证多个客户端能够同时进行追加操作,不需要额外的同步操作来保证数据的一致性。本文后面还有对这些问题的细节的详细讨论。
 
Google已经针对不同的应用部署了多套GFS集群。最大的一个集群拥有超过1000个存储节点,超过300TB的硬盘空间,被不同机器上的数百个客户端连续不断的频繁访问。 


在设计满足我们需求的文件系统时候,我们的设计目标既有机会、又有挑战。之前我们已经提到了一些需要关注的关键点,这里我们将设计的预期目标的细节展开讨论。
系统由许多廉价的普通组件组成,组件失效是一种常态。系统必须持续监控自身的状态,它必须将组件失效作为一种常态,能够迅速地侦测、冗余并恢复失效的组件。
系统存储一定数量的大文件。我们预期会有几百万文件,文件的大小通常在100MB或者以上。数个GB大小的文件也是普遍存在,并且要能够被有效的管理。系统也必须支持小文件,但是不需要针对小文件做

最近更新

2024年音乐备课组活动计划 11页

2024年面试两分钟的自我介绍 8页

2024年青春励志的说说 37页

2024年青年教师活动总结 34页

科普知识竞赛题库含答案【夺分金卷】 16页

科普知识竞赛题库(各地真题) 16页

2023年幼儿园大班教育教学计划总结 幼儿园大班.. 25页

2024年青岛旅游日记集锦7篇 5页

2024年青少年近视防控活动总结范文 5页

高等学校教师岗前培训考试暨教师资格笔试题库.. 22页

2023年便利店装修合同 便利店 装修模板 44页

销售年度计划总结大全 30页

2024年雨后天空作文(范例7篇) 12页

2024年公务员考试常识判断题200道及答案参考 80页

2024年高校教师岗前培训《高等教育学》题目10.. 24页

2024年“物业管理及公共服务”等知识考试题库.. 39页

2024年《日常生活突发事故急救知识及处理方法.. 33页

2024年中职职业院校(学前教育及幼儿心理学)技.. 41页

2024年临床执业医师考试真题及参考答案(考试.. 29页

2024年事业单位招聘公共基础测验500题【精练】.. 167页

2024年事业单位招聘公共基础测验500题附精品答.. 164页

2024年事业单位考试常识判断题200道精品【预热.. 79页

惠威d1080mkii蓝牙版说明书 3页

书法小明星推荐表 7页

波峰焊知识培训 85页

公务员体检表(样表) 11页

抗挫折心理测试 2页

碾压遍数与压实度关系曲线图 2页

MTC-5060C使用说明书 6页

《马铃薯淀粉加工有机肥水还田技术指南》(试.. 15页