文档介绍：hadoop中hdfs详解
Hadoop 组件HDFS详解
概念
HDFS
HDFS(Hadoop Distributed File System)是一种专门为MapReduce这类框架下的大规模分布式数据处理而设计的文件系统。可以把一个大数据集(100TB)在HDFS中存储为单个文件,大多数其他的文件系统无力实现这一点。数据块(block)
HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。
和普通文件相同的是,HDFS文件系统中的数据是被分成64M一块的数据块存储的。
不同于普通文件系统的是,HDFS中,如果一个文件小于一个数据块的大小,并不占用整个数据块存储空间。元数据节点(NameNode),从元数据节点(Secondary NameNode)和数据节点(DataNode)
元数据节点(NameNode)用来管理文件系统的命名空间
其将所有文件和文件夹的元数据保存在一个文件系统树当中。这些信息也会在硬盘上保存成一下文件:命名空间镜像(namespace image)以及修改日志(edit log)。
其还保存了一个文件包括哪些数据块,分布在哪些数据节点上。然而这些信息并不存储在硬盘上,而是在系统启动的时候从数据节点收集而成
的。
从元数据节点(secondary NameNode)
从元数据节点并不是元数据节点出现问题的时候的备用节点,它和元数据节点负责不同的事情。
其主要功能就是周期性将元数据节点命名空间的镜像文件和修改日志文件合并,以防日志文件过大。
合并过后的命名空间镜像文件也在从元数据节点保存了一份,以防元数据节点失败的时候,可以恢复。
数据节点(DataNode)是文件系统中真正存储数据的地方。客户端(client)或者元数据信息(NameNode)可以向数据节点请求写入或者读出数据块。
其周期性的向元数据节点回报其存储的数据块信息。
基本文件命令
HDFS文件系统命令采取的形式为: hadoop fs –cmd 其中cmd是具体的文件命令,是一组数目可变的参数,cmd命令通常与Unix对应的命令相同。例如,文件列表命令为:hadoop fs –ls.
下面看看在hadoop中最常用的文件管理任务:
添加文件和目录
Hadoop fs –mkdir /user/MDSS
Hadoop的mkdir命令会自动创建父目录(如果此前不存在),类似于unix中的–p选项的mkdir命令。
Hadoop fs –ls
该命令列出目录及文件信息
Hadoop fs –lsr
该命令循环列出目录、子目录及文件信息
Hadoop fs –put /user/MDSS
。
检索文件
Hadoop fs –get /user/MDSS/ .
,与-put命令截然相反。
Hadoop fs –cat user/MDSS/
显示HDFS文