1 / 3
文档名称:

cda大数据分析师 学习心得.docx

格式:docx   大小:23KB   页数:3页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

cda大数据分析师 学习心得.docx

上传人:765103370 2020/1/25 文件大小:23 KB

下载得到文件列表

cda大数据分析师 学习心得.docx

文档介绍

文档介绍:人大经济论坛CDA大数据分析师培训学****心得CDA大数据分析师的课程让我对“大数据”这个概念有了更为具体的认识。以往对于“大数据”,我的认知还是仅仅停留在概念层面上。而上完课后,尤其是了解如何搭建Hadoop平台以及其生态环境之后,“大数据”这个概念终于落地了。Hadoop的核心框架是Hdfs和MapReduce。Hdfs是分布式文件系统,其主要作用是存储及读取数据。而MapReduce实际上是Hadoop工作的核心思想。任何想要在Hadoop集群上完成的算法都必须基于MapReduce的思想实现。因此,我认为想要学****Hadoop,其核心在于充分理解MapReduce。而同时,MapReduce的理解也是理解大数据分析思想的关键,即如何将庞大的数据分解成可以进行操作的小数据集。人大经济论坛Hadoop大数据分析师课程大致可分为如下几个部分(阐述并不是按照时间顺序,而是按照个人对于这个课程的理解)。第一部分是原理及背景的讲解:个人认为,这一部分其实是重点,因为涉及到了大数据分析的核心,也包括了Hadoop的运行原理。,,这极大的提升了Hadoop处理海量数据时的效率;第二部分是搭建平台:从最初的单机模式,至伪分布模式,到最终的集群模式。这部分内容中核心的部分是如何写好配置文件,在这里课程中也会涉及到核心参数的介绍,这对于理解Hadoop平台及今后自己如何配置Hadoop集群模式都是十分有用的;第三部分是Mahout的介绍:Mahout是建立在Hadoop平台上的软件,其中集成了许多很有用的算法。这些算法往往不是十分前沿的,但在处理海量数据时往往可以显现出强大的作用。课程中对于Mahout的讲解也是十分仔细的,因为它是目前最为常用且方便的分析海量数据的软件;第四部分是Java培训:由于Hadoop是由Java编写的,因此对于自己想编写MapReduce的学员,这部分内容其实是十分关键的。因为我认为想真正成为一个大数据分析师,仅仅会用Mahout上现成的算法是远远不够的。修改已有的算法甚至是构造新算法都是一个想真正进入这一行业的从业人员所必需的。课程中也会涉及到怎样在源文件中修改MapReduce程序,从而实现自带的算法所不具有的功能。从这一点上也体现了课程的深度;第五部分是对Had