1 / 108
文档名称:

hadoop-hdfs.ppt

格式:ppt   大小:1,764KB   页数:108页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

hadoop-hdfs.ppt

上传人:文库旗舰店 2020/4/26 文件大小:1.72 MB

下载得到文件列表

hadoop-hdfs.ppt

文档介绍

文档介绍:HadoopHDFSHDFS原理什么是分布式文件系统和HDFSHDFS设计目标HDFS的基本组件HDFS架构图和工作原理HDFS服务进程HDFS的未来发展什么是分布式文件系统分布式文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。分布式文件系统的基于客户机/服务器模式。通常,一个分布式文件系统提供多个供用户访问的服务器。分布式文件系统一般都会提供备份和容错的功能分布式文件系统一般都基于操作系统的本地文件系统ext3,ext4NTFS为什么需要分布式文件系统传统文件系统最大的问题是容量和吞吐量的限制多用户多应用的并行读写是分布式文件系统产生的根源一块硬盘的读写性能,比不上多块硬盘同时读写的性能1HDD=75MB/sec1000HDDs=75GB/sec扩充存储空间的成本低廉可提供冗余备份可以为分布式计算提供基础什么是HDFSHDFS=HadoopDistributedFileSystemHDFS是一个使用Java实现的、分布式的、可横向扩展的文件系统是Hadoop的核心组件基于*nixHDFS设计目标基于廉价的普通硬件,可以容忍硬件出错系统中的某一台或几台服务器出现故障的时候,系统仍可用且数据保持完整大数据集(大文件)HDFS适合存储大量文件,总存储量可以达到PB,EB级HDFS适合存储大文件,单个文件大小一般在百MB级之上文件数目适中简单的一致性模型HDFS应用程序需要一次写入,多次读取一个文件的访问模式支持追加(append)操作,但无法更改已写入数据顺序的数据流访问HDFS适合用于处理批量数据,而不适合用于随机定位访问侧重高吞吐量的数据访问,可以容忍数据访问的高延迟为把“计算”移动到“数据”提供基础和便利HDFS基本概念块元数据NameNodeDataNode客户端块(Block)的概念在传统的块存储介质中,块是读写的最小数据单位(扇区)传统文件系统基于存储块进行操作为了节省文件分配表空间,会对物理存储块进行整合,一般大小为4096字节HDFS也使用了块的概念,但是默认大小设为64M字节可针对每个文件配置,由客户端指定每个块有一个自己的全局IDHDFS将一个文件分为一个或数个块来存储每个块是一个独立的存储单位以块为单位在集群服务器上分配存储与传统文件系统不同的是,如果实际数据没有达到块大小,则并不实际占用磁盘空间如果一个文件是200M,则它会被分为4个块:64+64+64+8使用块的好处当一个文件大于集群中任意一个磁盘的时候,文件系统可以充分利用集群中所有的磁盘管理块使底层的存储子系统相对简单块更加适合备份,从而为容错和高可用性的实现带来方便