文档介绍：第二章:大数据技术基础
《大数据分析及应用实践》
目录
CONTENTS

Hadoop
Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构
Hadoop是基于Java语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中
Hadoop的核心是分布式文件系统HDFS(Hadoop Distributed File System)和MapReduce
Hadoop被公认为行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力
几乎所有主流厂商都围绕Hadoop提供开发工具、开源软件、商业化工具和技术服务,如谷歌、雅虎、微软、思科、淘宝等,都支持Hadoop
Hadoop
经过多年的发展,Hadoop项目不断完善和成熟,目前已经包含多个子项目(如下图2-2所示)
除了核心的HDFS和MapReduce以外,mon、Avro、Zookeeper、HBase、Hive、Chukwa、Pig等子项目,它们提供了互补性服务或在核心层上提供了更高层的服务
Hadoop技术架构
Hadoop技术架构图
Hadoop
1:日志采集;
2:传输日志;
3:将日志写入HDFS;
4:从HDFS中将日志装载入数据仓库中;
5:对装载的数据进行分析;
6:调用Hadoop集群的M/R执行并行计算,并返回结果;
7:将结果中有价值的数据写入HBASE数据库;
8:报表系统&应用程序端通过HBASE查询数据并展现;
项目架构
HBase
HBase是运行在Hadoop上的NoSQL数据库,它是一个分布式的、可扩展的大数据仓库,是一个构建在HDFS上的分布式列存储系统;
从逻辑上讲,HBase将数据按照表、行和列进行存储。
与hadoop一样,Hbase目标主要依靠横向扩展,通过不断增加廉价的商用服务器,来增加计算和存储能力。
HBase表特点:
MapReduce
MapReduce是一种编程模型,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错的方式并行处理上T级别的数据集。
Map—映射 Reduce——归纳 MapReduce就是“任务的分解与结果的汇总”
MapReduce处理流程
Hive
•Hive是建立在 Hadoop 上的数据仓库基础构架,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。
•本质是将SQL转换为MapReduce程序
Hive与Hadoop关系
Pig
Pig是一个基于Hadoop的大规模数据分析平台,Pig包含两个部分:Pig Interface,Pig Latin。
它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。
Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口。
Pig 简介