1 / 24
文档名称:

大数据知识点总结.doc

格式:doc   大小:113KB   页数:24页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

大数据知识点总结.doc

上传人:泰山小桥流水 2021/11/22 文件大小:113 KB

下载得到文件列表

大数据知识点总结.doc

相关文档

文档介绍

文档介绍:大数据知识点总结
大数据知识点总结
大数据知识点总结
大数据知识点总结
大数据知识点总结
导语:原始数据要经过一连串收集、提取、清洗、整理等
等的预处理过程,才能形成高质量的数据;按照自己的需要,
比如要对数据贴标签分类,或者预测,或者想要从大量复杂的
数据中提取有价值的且不易发现的信息,下面由小编为您整理
出的大数据知识点总结内容,一起来看看吧。
1、 Hadoop 是一个由 Apache 基金会所开发的分布式系统
基础架构。
用户可以在不了解分布式底层细节的情况下,开发分布式
程序。充分利用集群的威力进行高速运算和存储。
2、 Hadoop 实现了一个分布式文件系统( Hadoop
Distributed File System ),简称 HDFS。 HDFS有高容错性的
特点,并且设计用来部署在低廉的( low-cost )硬件上;而且
它提供高吞吐量( high throughput )来访问应用程序的数
据,适合那些有着超大数据集( large data set )的应用程序。 HDFS放宽了( relax ) POSIX的要求,可以以流的形式访问( streaming access )文件系统中的数据。

大数据知识点总结
大数据知识点总结
大数据知识点总结
3、 Hadoop 的框架最核心的设计就是: HDFS和
MapReduce。 HDFS为海量的数据提供了存储,则 MapReduce为
海量的数据提供了计算。
4、 Hadoop 它主要有以下几个优点:
高可靠性。 Hadoop 按位存储和处理数据的能力值得人
们信赖。
高扩展性。 Hadoop 是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节
点中。
高效性。 Hadoop 能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
高容错性。 Hadoop 能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
(e) 低成本。与一体机、商用数据仓库以及 QlikView 、
Yonghong Z-Suite 等数据集市相比, hadoop 是开源的,项目
的软件成本因此会大大降低。
5、 HDFS
对外部客户机而言, HDFS就像一个传统的分级文件系
统。可以创建、删除、移动或重命名文件,等等。但是 HDFS
的架构是基于一组特定的节点构建的,这是由它自身的特点决
定的。这些节点包括 NameNode(仅一个),它在 HDFS 内部
大数据知识点总结
大数据知识点总结
大数据知识点总结

大数据知识点总结
大数据知识点总结
大数据知识点总结
提供元数据服务; DataNode,它为 HDFS 提供存储块。由于仅
存在一个 NameNode,因此这是 HDFS 的一个缺点(单点失
败)。
存储在 HDFS 中的文件被分成块,然后将这些块复制到多
个计算机中( DataNode)。这与传统的 RAID 架构大不相同。
块的大小(通常为 64MB)和复制的块数量在创建文件时由客
户机决定。 NameNode可以控制所有文件操作。 HDFS 内部的所
有通信都基于标准的 TCP/IP 协议。
6、 NameNode
NameNode是一个通常在 HDFS 实例中的单独机器上运行
的软件。它负责管理文件系统名称空间和控制外部客户机的访
问。 NameNode决定是否将文件映射到 DataNode 上的复制块
上。对于最常见的 3 个复制块,第一个复制块存储在同一机
架的不同节点上,最后一个复制块存储在不同机架的某个节点
上。
NameNode本身不可避免地具有 SPOF(Single Point Of
Failure )单点失效的风险,主备模式并不能解决这个问题,
通过 Hadoop Non-stop namenode 才能实现 100% uptime 可用
时间。
7、 DataNode