文档名称：

大数据知识点总结.doc

格式：doc 大小：113KB 页数：24页

下载后只包含 1 个 DOC 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

预览

下载此文档

大数据知识点总结.doc

上传人:泰山小桥流水 2021/11/22 文件大小：113 KB

下载得到文件列表

大数据知识点总结.doc

相关文档

文档介绍

文档介绍：大数据知识点总结
大数据知识点总结
大数据知识点总结
大数据知识点总结
大数据知识点总结
导语：原始数据要经过一连串收集、提取、清洗、整理等
等的预处理过程，才能形成高质量的数据；按照自己的需要，
比如要对数据贴标签分类，或者预测，或者想要从大量复杂的
数据中提取有价值的且不易发现的信息，下面由小编为您整理
出的大数据知识点总结内容，一起来看看吧。
1、 Hadoop 是一个由 Apache 基金会所开发的分布式系统
基础架构。
用户可以在不了解分布式底层细节的情况下，开发分布式
程序。充分利用集群的威力进行高速运算和存储。
2、 Hadoop 实现了一个分布式文件系统（ Hadoop
Distributed File System ），简称 HDFS。 HDFS有高容错性的
特点，并且设计用来部署在低廉的（ low-cost ）硬件上；而且
它提供高吞吐量（ high throughput ）来访问应用程序的数
据，适合那些有着超大数据集（ large data set ）的应用程序。 HDFS放宽了（ relax ） POSIX的要求，可以以流的形式访问（ streaming access ）文件系统中的数据。

大数据知识点总结
大数据知识点总结
大数据知识点总结
3、 Hadoop 的框架最核心的设计就是： HDFS和
MapReduce。 HDFS为海量的数据提供了存储，则 MapReduce为
海量的数据提供了计算。
4、 Hadoop 它主要有以下几个优点：
高可靠性。 Hadoop 按位存储和处理数据的能力值得人
们信赖。
高扩展性。 Hadoop 是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节
点中。
高效性。 Hadoop 能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快。
高容错性。 Hadoop 能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配。
(e) 低成本。与一体机、商用数据仓库以及 QlikView 、
Yonghong Z-Suite 等数据集市相比， hadoop 是开源的，项目
的软件成本因此会大大降低。
5、 HDFS
对外部客户机而言， HDFS就像一个传统的分级文件系
统。可以创建、删除、移动或重命名文件，等等。但是 HDFS
的架构是基于一组特定的节点构建的，这是由它自身的特点决
定的。这些节点包括 NameNode（仅一个），它在 HDFS 内部
大数据知识点总结
大数据知识点总结
大数据知识点总结

大数据知识点总结
大数据知识点总结
大数据知识点总结
提供元数据服务； DataNode，它为 HDFS 提供存储块。由于仅
存在一个 NameNode，因此这是 HDFS 的一个缺点（单点失
败）。
存储在 HDFS 中的文件被分成块，然后将这些块复制到多
个计算机中（ DataNode）。这与传统的 RAID 架构大不相同。
块的大小（通常为 64MB）和复制的块数量在创建文件时由客
户机决定。 NameNode可以控制所有文件操作。 HDFS 内部的所
有通信都基于标准的 TCP/IP 协议。
6、 NameNode
NameNode是一个通常在 HDFS 实例中的单独机器上运行
的软件。它负责管理文件系统名称空间和控制外部客户机的访
问。 NameNode决定是否将文件映射到 DataNode 上的复制块
上。对于最常见的 3 个复制块，第一个复制块存储在同一机
架的不同节点上，最后一个复制块存储在不同机架的某个节点
上。
NameNode本身不可避免地具有 SPOF（Single Point Of
Failure ）单点失效的风险，主备模式并不能解决这个问题，
通过 Hadoop Non-stop namenode 才能实现 100% uptime 可用
时间。
7、 DataNode