1 / 64
文档名称:

大数据与分布式计算 PPT.pptx

格式:pptx   大小:4,156KB   页数:64页
下载后只包含 1 个 PPTX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

大数据与分布式计算 PPT.pptx

上传人:君。好 2018/5/4 文件大小:4.06 MB

下载得到文件列表

大数据与分布式计算 PPT.pptx

相关文档

文档介绍

文档介绍:大数据与分布式计算
HDFS
Hadoop Distributed File System
1990年,一个普通的硬盘驱动器可存储1370 MB/s的传输速度,所以,只需五分钟的时间就可以读取整个磁盘的数据。
20年过去了,1 TB级别的磁盘驱动器是很正常的,但是数据传输的速度却在100 MB/s左右。所以它需要花两个半小时以上的时间读取整个驱动器的数据。
从一个驱动器上读取所有的数据需要很长的时间,写甚至更慢。
如何解决?
磁盘损坏数据丢失怎么办?
如果需要存储计算1000T数据怎么办?
常用RAID技术
RAID类型
访问速度
数据可靠性
磁盘利用率
RAID0
很快
很低
100%
RAID1
很慢
很高
50%
RAID10
中等
很高
50%
RAID5
较快
较高
(N-1)/N
RAID6
较快
较(RAID5)高
(N-2)/N
HDFS系统架构
什么是HDFS?
Hadoop Distributed File System
Hadoop Distributed File System (HDFS) is the primary storage system used by Hadoop applications. HDFS creates multiple replicas of data blocks and distributes them pute nodes throughout a cluster to enable reliable, extremely putations.
HDFS设计目标
HDFS以流式数据访问模式存储超大文件,运行于商用硬件集群上。
超大文件
流式数据访问
一次写入多次读取
商用硬件