1 / 4
文档名称:

大数据处理关键技术.doc

格式:doc   大小:157KB   页数:4页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

大数据处理关键技术.doc

上传人:小博士 2019/8/3 文件大小:157 KB

下载得到文件列表

大数据处理关键技术.doc

相关文档

文档介绍

文档介绍::..?大数据环境下的数据处理需求大数据环境下数据來源非常丰富4数据类世多样,存储和分析挖撇的数据量庞大,对数据展现的要求较高,并11很看重数据处理的高效性和可用性。、管理和分析数据量也相对较小,大多采用关系型数据库和并行数据仓库即可处理。对依靠并行计算捉升数据处理速度方面而言,传统的并行数据库技术迅求离度一致性和容错性,根据CAP理论,难以保证英可用性和扩展性。传统的数据处理方法是以处理器为中心,。,已经不能适应大数据的需求!大数据的处理流程包括哪些环节?每个环节有哪些主要工具?大数据的基本处理流程与传统数据处理流程并无太大差异,主要区别在丁•:山于大数据要处理大量、非结构化的数据,所以在各个处埋环节屮都可以采用MapReduce等方式进行并行处埋。nVnVHive数据采集 丿数据预处理Z数据存储./数据分析/挖屈 >结果展现HDFSHBxse大数据技术为什么能提高数据的处理速度?大数据的并行处理利器一MapReduce人数据町以通过MapReduce这并行处理技术來提高数据的处理速度。MapReduce的设计初衷址通过人就廉价服务器实现大数据并行••致性耍求不瓶其突出优始是具有扩展性和可用性,。MapReduce将传统的杳询、分解及数据分析进行分布式处理,将处理任务分配到不同的处理节点,因此具有更强的并行处理能力。作为-•个简化的并行处理的编程模型,MapReduce还降低了开发并行应用的门槛。MapReduce是一套软件框架,包Map(映射)和Reduce(化简)两个阶段,可以进行海虽数据分割、任务分解与结果汇总,从而完成海量数据的并行处理。用户<1>to叭工作rMaster1—Split0Split1Split2Split3Split4rworket-rvorkei•14」玄地写[T1 LU厂workerII输入文件 畑阶段Reduct乍'述worker辅出文件0中间文件(位于本地谜盘〉Reduce阶段输出工件MapReduce的工作原理莫实是先分后合的数据处理方式。Map即“分解”,把海量数据分割成了若干部分,分给多台处理器并行处理:Reduce即“合并”,把各台处理器处理后的结果进行汇总操作以得到最终结果。如右图所示,如果采用MapReduce统计不同儿何形状的数量,它会先把任务分配到两个节点,由两个节点分别并行统计,然后再把它们的结果汇总,得到故终的计算结果。MapReduce适合进行数据分析、日志分析、商业智能分析、客八营销、大规模索引等业务,并具有非常明显的效果。通过结合MapReduce技术进行实时分析,某家电公司的信用计算时间从33小时缩短到8秒,而MKI的基因分析时间从数天缩短到20分钟。使用Map/Reduce进行形状计数Map△,■节点■分布处理对用户透明支持分布式文件系统通过Map/Redixe函数实现分布开行计龍说