1 / 77
文档名称:

hadoop权威指南---中文版资料.pdf

格式:pdf   页数:77页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

hadoop权威指南---中文版资料.pdf

上传人:分享精品 2016/5/14 文件大小:0 KB

下载得到文件列表

hadoop权威指南---中文版资料.pdf

文档介绍

文档介绍:目录目录I 初识Hadoop1 !数据1 MapReduce简介15 Hadoop分布式文件系统44 Hadoop的I/O80 MapReduce应用开发125 MapReduce的工作原理166 MapReduce的类型与格式188 MapReduce特性227 Hadoop集群的安装264 Hadoop的管理293 Pig简介321 Hbase简介366 ZooKeeper简介394 案例研究431 ApacheHadoop的安装491 Cloudera的Hadoop分发包497 预备NCDC气象资料502 第1章初识Hadoop 古时候,人们用牛来拉重物,当一头牛拉不动一根圆木的时候,他们不曾想过培育个头更大的牛。同样,我们也不需要尝试更大的计算机,而是应该开发更多的计算系统。--格蕾斯·霍珀 !数据我们生活在数据时代!很难估计全球存储的电子数据总量是多少,但是据IDC估计 2006年"数字全球"项目(digitaluniverse),,为2006年的10倍。1ZB相当于10的21次方字节的数据,或者相当于1000EB,1000000PB,或者大家更熟悉的10亿TB的数据!这相当于世界上每个人一个磁盘驱动器的数量级。这一数据洪流有许多来源。考虑下文: 纽约证券交易所每天产生1TB的交易数据。著名社交网站Facebook的主机存储着约100亿张照片,占据PB级存储空间。,一个家谱网站,。互联网档案馆(Archive)存储着约2PB数据,并以每月至少20TB的速度增长。瑞士日内瓦附近的大型强子对撞机每年产生约15PB的数据。此外还有大量数据。但是你可能会想它对自己有何影响。大部分数据被锁定在最大的网页内容里面(如搜索引擎)或者是金融和科学机构,对不对?是不是所谓的"大数据"的出现会影响到较小的组织或个人? 我认为是这样的。以照片为例,我妻子的祖父是一个狂热的摄影爱好者,并且他成人之

最近更新