1 / 10
文档名称:

大数据技术 Hadoop+Spark+MongoDB+MySQL+C# 光环大数据培训.pdf

格式:pdf   大小:383KB   页数:10页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

大数据技术 Hadoop+Spark+MongoDB+MySQL+C# 光环大数据培训.pdf

上传人:毒药 Posion 2022/5/2 文件大小:383 KB

下载得到文件列表

大数据技术 Hadoop+Spark+MongoDB+MySQL+C# 光环大数据培训.pdf

相关文档

文档介绍

文档介绍:光环大数据--大数据培训知名品牌

大数据技术 Hadoo Hadoop 架构中核心的是 MapReduce 和 HDFS 两大
组件。

Google 曾发表论文《Google File System》,系统阐述了 Google 的分布式文件系统的
设计实现,Apache 针对 GFS,进行开源开发,发布了 Hadoop 的分布式文件系统:Hadoop
Distributed File System,缩写为 HDFS。MapReduce 的核心思想也由 Google 的一篇论文
《MapReduce:Simplified Data Processing on Large Clusters》 提出,简单解释 MapReduce 的核
心思想就是:任务分解执行,执行结果汇总。

2
光环大数据 --大数据培训知名品牌


Spark

Spark 是 UC Berkeley 大学 AMP 实验室开源的类似 MapReduce 的计算框架,它是一
个基于内存的集群计算系统,最初的目标是解决 MapReduce 磁盘读写的开销问题,当前最
新的版本是 。Spark—经推出,就以它的高性能和易用性吸引着很多大数据研究人员,
在众多爱好者的努力下,Spark 逐渐形成了自己的生态系统( Spark 为基础,上层包括 Spark SQL,
MLib,Spark Streaming 和 GraphX),并成为 Apache 的顶级项目。

Spark 的核心概念是弹性分布式存储 (Resilient Distributed Datasets, RDD)间,它是
Spark 对分布式内存进行的抽象,使用者可以像操作本地数据集一样操作 RDD,从而可以将
精力集中于业务处理。在 Spark 程序中,数据的操作都是基于 RDD 的,例如经典的 WordCount
程序,其在 Spark 编程模型下的操作方式如下图所示:

可以看到