1 / 23
文档名称:

课程复习提纲新编.pptx

格式:pptx   页数:23页
下载后只包含 1 个 PPTX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

课程复习提纲新编.pptx

上传人:用户头像没有 2016/7/6 文件大小:0 KB

下载得到文件列表

课程复习提纲新编.pptx

相关文档

文档介绍

文档介绍:复习大纲 MapReduce 海量数据并行处理南京大学计算机科学与技术系主讲人:黄宜华 2011 年春季学期鸣谢:本课程得到 Google 公司(北京) 中国大学合作部精品课程计划资助 Ch. 1. 并行计算技术简介 ? ?提高计算机性能有哪些基本技术手段?提高字长,流水线微体系结构技术,提高集成度,提升主频?迫切需要发展并行计算技术的主要原因?单处理器性能提升达到极限?爆炸性增长的大规模数据量?超大的计算量/计算复杂度 ?有哪些主要的并行计算分类方法? ?按数据和指令处理结构:弗林(Flynn) 分类?按并行类型?按存储访问构架?按系统类型?按计算特征?按并行程序设计模型/方法 Ch. 1. 并行计算技术简介 ?并行计算有哪些方面的主要技术问题? ?多核/多处理器网络互连结构技术?存储访问体系结构?分布式数据与文件管理?并行计算任务分解与算法设计?并行程序设计模型和方法?数据同步访问和通信控制?可靠性设计与容错技术?并行计算软件框架平台?系统性能评价和程序并行度评估?如何评估程序的可并行度(Amdahl 定律) Ch. 1. 并行计算技术简介 4. MPI 并行程序设计?MPI 功能与特点?MPI 程序结构?MPI 基本编程接口?MPI 编程实例 ? ?处理数据的能力大幅落后于数据增长?海量数据隐含着更准确的事实?什么是 MapReduce ? ?基于集群的高性能并行计算平台(Cluster Infrastructure) ?并行程序开发与运行框架(Software Framework) ?并行程序设计模型与方法(Programming Model & Methodology) ?为什么 MapReduce 如此重要? ?高效的大规模数据处理方法?改变了大规模尺度上组织计算的方式?第一个不同于冯诺依曼结构的、基于集群而非单机的计算方式的重大突破?目前为止最为成功的基于大规模计算资源的并行计算抽象方法 . MapReduce 简介 -分而治之?大数据分而治之的并行化计算?大数据任务划分和并行计算模型 2 .构建抽象模型-Map 和Reduce ?主要设计思想: 为大数据处理过程中的两个主要处理操作提供一种抽象机制?典型的流式大数据问题的特征?Map 和Reduce 操作的抽象描述提供一种抽象机制,把做什么和怎么做分开,程序员仅需要描述做什么,不需要关心怎么做?基于 Map 和Reduce 的并行计算模型和计算过程 . MapReduce 简介 -自动并行化并隐藏低层细节?主要需求、目标和设计思想?实现自动并行化计算?为程序员隐藏系统层细节?MapReduce 提供统一的构架并完成以下的主要功能?任务调度?数据/代码互定位?出错处理?分布式数据存储与文件管理?Combiner 和Partitioner 4. MapReduce 的主要设计思想和特征?向“外”横向扩展,而非向“上”纵向扩展?失效被认为是常态?把计算处理向数据迁移?顺序处理数据、避免随机访问数据?为应用开发者隐藏系统层细节?平滑无缝的可扩展性 . Google MapReduce 基本构架 的基本模型和处理思想 MapReduce 的基本工作原理? Google MapReduce 并行处理的基本过程?失效处理?带宽优化?计算优化?用数据分区解决数据相关性问题 GFS 的基本工作原理? Google GFS 的基本设计原则?廉价本地磁盘分布存储?多数据自动备份解决可靠性?为上层的 MapReduce 计算框架提供支撑? Google GFS 的基本构架和工作原理? GFS Master 的主要作用? GFS ChunkServer 的主要作用?数据访问工作过程? GFS 的系统管理技术 . Google MapReduce 基本构架 BigTable ? BigTable 的基本作用和设计思想? BigTable 设计动机和目标?需要存储多种数据?海量的服务请求?商用数据库无法适用? BigTable 数据模型—多维表?一个行关键字(row key) ?一个列关键字(column key) ?一个时间戳(time stamp) ? BigTable 基本构架?子表服务器?子表存储结构 SSTable (对应于 GFS 数据块) ?子表数据格式?子表寻址 . Hadoop MapReduce 基本构架 分布式文件系统 HDFS ? HDFS 的基本特征? HDFS 基本构架? Na