1 / 11
文档名称:

2020年度最美不过初相见-好程序员教你Hadoop的正确打开方式-汇总模板.doc

格式:doc   大小:57KB   页数:11页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

2020年度最美不过初相见-好程序员教你Hadoop的正确打开方式-汇总模板.doc

上传人:业精于勤 2020/1/14 文件大小:57 KB

下载得到文件列表

2020年度最美不过初相见-好程序员教你Hadoop的正确打开方式-汇总模板.doc

相关文档

文档介绍

文档介绍:2020年度最美不过初相见-好程序员教你Hadoop的正确打开方式-汇总最美不过初相见好程序员教你Hadoop的正确打开方式?最美不过初相见,我和大数据Hadoop的开始始于好程序员。经历了上一阶段的学****对Java的了解逐渐加深,潜移默化中树立了足够大的自信,并投入到Hadoop的学****从前辈那里得知这一部分知识是整个大数据培训中的重中之重,因此,更是不敢有一点怠慢。Hadoop的初识便带着十分的专注。近期的知识点总结,已足以验证我的努力与付出,以下是我的部分总结,愿和大家一同分享。方式一、 Hadoop 是什么? Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构, 主要解决,海量数据的存储和海量数据的分析计算问题。 广义上来说,HADOOP 通常是指一个更广泛的概念——HADOOP 生态圈。方式二、Hadoop 的优势1 .高可靠性: Hadoop 假设计算元素和存储会出现故障,它维护多个工作数据副本,在出现故障时能够对失败的节点重新分布处理。:在集群间分配任务数据,可方便的扩展数以千计的节点。:在 MapReduce 的思想下,Hadoop 是并行工作的,以加快任务处理速度。:自动保存多份副本数据,并且能够自动将失败的任务重新分配。方式三、 Hadoop的 组成HDFS:一个高可靠、高吞吐量的分布式文件系统。:一个分布式的离线并行计算框架。:作业调度与集群资源管理的框架。:支持其它模块的工具模块(Configuration、RPC、序列化机制、日志操作)。方式四、YARN 架构概述1. ResourceManager(rm):处理客户端请求、启动/监控ApplicationMaster、监控NodeManager、资源分配与调度;2. NodeManager(nm):单个节点上的资源管理、处理来自ResourceManager的命令、处理来自ApplicationMaster的命令;3.  ApplicationMaster:数据切分、为应用程序申请资源,并分配给内部任务、任务监控与容错。4. Container:对任务运行环境的抽象,封装了CPU、内存等多维资源以及环境变量、启动命令等任务运行相关的信息。方式五、大数据技术生态体系1. Sqoop:sqoop 是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql)间进行数据的传递,能够将一个关系型数据库(例如: MySQL,Oracle 等)中的数据导进到Hadoop 的 HDFS 中,也能够将 HDFS的数据导进到关系型数据库中。:Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume 支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。:它 是一种高吞吐量的分布式发布订阅消息系统,它的特性在于:(1)通过磁盘数据结构提供消息的持久化,这种结构对于即使数以 TB 的消息存储也能够保持长时间的稳定性能。(2)高吞吐量,即使是非常普通的硬件 Kafka 也能够支持每秒数百万的消息。(3)支持通过 Kafka 服务器和消费机集群来分区消息。支持Hadoop 并行数据加载。(4)Storm 为分布式实时计算提供了一组通用原语,可被用于“流处理”之中,实时处理消息并更新数据库。这是管理队列及工作者集群的另一种方式。 Storm 也可被用于“连续计算”(putation),对数据流做连续查询,在计算时就将结果以流的形式输出给用户。(5)Spark 是当前最流行的开源大数据内存计算框架。能够基于Hadoop 上存储的大数据进行计算。(6)Oozie 是一个管理Hdoop 作业(job)的工作流程调度管理系统。Oozie 协调作业就是通过时间(频率)和有效数据触发当前的Oozie 工作流程。(7)HBase 是一个分布式的、面向列的开源数据库。HBase 不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。(8)Hive 是基于 Hadoop 的一个数据仓库工具,能够将结构化的数据文件映射为一张数据库表,并提供简单的 sql 查询功能,能够将 sql 语句转换为 MapReduce 任务进行运行。其优点是学****成本低,能够通过类SQL 语句快速实现简单的 MapReduce 统计,不必开发专门的 MapReduce 应用,十分适合数据仓库的统计分析。(9)R 语言:R 是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。(10)ApacheMahout 是个可扩展的机器学****和数据挖掘库,当前Mahout 支持主要