1 / 18
文档名称:

暨南大学并行计算实验室MapReduce研究现状.ppt

格式:ppt   大小:5,529KB   页数:18页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

暨南大学并行计算实验室MapReduce研究现状.ppt

上传人:ielbcztwz24384 2025/1/29 文件大小:5.40 MB

下载得到文件列表

暨南大学并行计算实验室MapReduce研究现状.ppt

相关文档

文档介绍

文档介绍:该【暨南大学并行计算实验室MapReduce研究现状 】是由【ielbcztwz24384】上传分享,文档一共【18】页,该文档可以免费在线阅读,需要了解更多关于【暨南大学并行计算实验室MapReduce研究现状 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。暨南大学并行计算实验室MapReduce研究现状
专 业:计算机软件与理论
姓 名:周敏 丁光华
指导教师:周继鹏 教授
1
2
调试、监控等
优化、扩展等
常用API
Hadoop改造
MapReduce研究
Canopy, k-means
Naive bayes, SVM
数据挖掘项目Redpoll
摘要
标准输出,标准出错
Web显示(50030, 50060, 50070)
NameNode,JobTracker, DataNode, TaskTracker日志
本地重现: Local Runner
DistributedCache中放入调试代码
3
2
1
4
5
调试
对各slave节点某Child进程的Profile(可能存在单点执行速度过慢)
对JobTracker的Profile
目的:查性能瓶颈,内存泄漏,线程死锁等
工具: jmap, jstat, hprof,jconsole, jprofiler mat,jstack
对各slave节点TaskTracker的Profile
Profiling
监控
目的:监控集群或单个节点I/O, 内存及CPU
工具: Ganglia
I/O
01
Shuffle

02
调优点(1)
01
数据压缩
02
推测性执行(同时执行同一Task,杀死运行慢的)
03
同一节点的Child重用jvm
04
重写Partitioner,使分布到各Reducer的数据均匀
05
设置堆空间大小
调优点(2)
01
Mapper, Reducer
02
Writable, ComparableWritable
03
InputFormat, OutputFormat
04
Partitioner
05
Comparator
06
DistributedCache
07
Streaming(bash/python)
常用API
JobTracker与作业调度耦合性太强
01
JobHistory应独立为一个jvm进程,逻辑不应与JobTracker耦合太强
02
在HDFS之上整合MPI,统一作业调度
03
Shuffle过程只需一次I/O
04
单块磁盘失效导致整个节点失效问题(改DFSClient)
05
Hadoop改造
文件系统兼容posix
01
使Map的key输出不排序,只分区
02
NameNode单点故障问题
03
RPC支持大数据(如文件)传输
04
集群资源分配
05
权限管理
06
Hadoop改造