1 / 82
文档名称:

MapReduce海量数据并行处理总结.doc

格式:doc   大小:8,532KB   页数:82页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

MapReduce海量数据并行处理总结.doc

上传人:bai1968104 2020/9/10 文件大小:8.33 MB

下载得到文件列表

MapReduce海量数据并行处理总结.doc

文档介绍

文档介绍:?提高计算机性能有哪些基本技术手段提高字长,流水线微体系结构技术,提高集成度,提升主频迫切需要发展并行计算技术的主要原因1)单处理器性能提升达到极限2)爆炸性增长的大规模数据量2)超大的计算量/计算复杂度并行计算技术的分类有哪些主要的并行计算分类方法?按数据和指令处理结构:弗林(Flynn)分类2)按并行类型3)按存储访问构架4)按系统类型5)按计算特征6)按并行程序设计模型/方法1)按数据和指令处理结构:弗林(Flynn)分类SISD:单指令单数据流传统的单处理器串行处理SIMD:单指令多数据流向量机,信号处理系统MISD:多指令单数据流很少使用MIMD:多指令多数据流最常用,TOP500高性能计算机基本都属于MIMD类型按并行类型分类位级并行(Bit-LevelParallelism)指令级并行(ILP:Instruction-LevelParallelism)线程级并行(Thread-LevelParallelism) 数据级并行:一个大的数据块划分为小块,分别由不同的处理器/线程处理任务级并行:一个大的计算任务划分为子任务分别由不同的处理器/(SharedMemory)所有处理器通过总线共享内存多核处理器,SMP……也称为UMA结构(ess)(DistributedMemory)各个处理器使用本地独立的存储器B和C也统称为NUMA结构(Non-ess)4)按系统类型分类多核/众核并行计算系统MC(Multicore/Manycore)或Chip-levelmultiprocessing,CMP对称多处理系统SMP(SymmetricMultiprocessing) 多个相同类型处理器通过总线连接并共享存储器大规模并行处理MPP(MassiveParallelProcessing) 专用内联网连接一组处理器形成的一个计算系统集群(Cluster) 网络连接的一组商品计算机构成的计算系统网格(Grid) 用网络连接远距离分布的一组异构计算机构成的计算系统5)按并行程序设计模型/方法分类共享内存变量(SharedMemoryVariables) 消息传递方式(MessagePassing) ?多核/多处理器网络互连结构技术存储访问体系结构分布式数据与文件管理并行计算任务分解与算法设计并行程序设计模型和方法数据同步访问和通信控制可靠性设计与容错技术并行计算软件框架平台系统性能评价和程序并行度评估如何评估程序的可并行度(Amdahl定律)程序能得到多大并行加速依赖于该程序有多少可并行计算的比例。经典的程序并行加速评估公式Amdahl定律:其中,S是加速比,P是程序可并行比例,N是处理器数目根据Amdahl定律:一个并行程序可加速程度是有限制的,并非可无限加速,并非处理器越多越好并行比例vs加速比50%=>最大2倍75%=>最大4倍90%=>最大10倍95%=>,:(1)基于集群的高性能并行计算平台(ClusterInfrastructure),(硬件层)允许用市场上现成的普通PC或性能较高的刀架或机架式服务器,构成一个包含数千个节点的分布式并行计算集群(2)并行程序开发与运行框架(SoftwareFramework)(逻辑层)系统自动提供了一个庞大但设计精良的并行计算软件构架,能自动完成计算任务的并行化处理,自动划分计算数据和计算任务,在集群节点上自动分配和执行子任务以及收集计算结果,将数据分布存储、数据通信、容错处理等并行计算中的很多复杂细节交由系统负责处理,大大减少了软件开发人员的负担(3)并行程序设计模型与方法(ProgrammingModel&Methodology)(用户层)借助于函数式Lisp语言中的设计思想,提供了一种简便的并行程序设计方法,用Map和Reduce两个函数编程实现基本的并行计算任务,提供了完整的并行编程接口,?1)高效的大规模数据处理方法2)第一个不同于冯诺依曼结构的、基于集群而非单机的计算方式的重大突破3);构建抽象模型-Map和