文档介绍:该【暨南大学并行计算实验室MapReduce研究现状 】是由【ielbcztwz24384】上传分享,文档一共【18】页,该文档可以免费在线阅读,需要了解更多关于【暨南大学并行计算实验室MapReduce研究现状 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。暨南大学并行计算实验室MapReduce研究现状
专 业:计算机软件与理论
姓 名:周敏 丁光华
指导教师:周继鹏 教授
1
2
调试、监控等
优化、扩展等
常用API
Hadoop改造
MapReduce研究
Canopy, k-means
Naive bayes, SVM
数据挖掘项目Redpoll
摘要
标准输出,标准出错
Web显示(50030, 50060, 50070)
NameNode,JobTracker, DataNode, TaskTracker日志
本地重现: Local Runner
DistributedCache中放入调试代码
3
2
1
4
5
调试
对各slave节点某Child进程的Profile(可能存在单点执行速度过慢)
对JobTracker的Profile
目的:查性能瓶颈,内存泄漏,线程死锁等
工具: jmap, jstat, hprof,jconsole, jprofiler mat,jstack
对各slave节点TaskTracker的Profile
Profiling
监控
目的:监控集群或单个节点I/O, 内存及CPU
工具: Ganglia
I/O
01
Shuffle
…
02
调优点(1)
01
数据压缩
02
推测性执行(同时执行同一Task,杀死运行慢的)
03
同一节点的Child重用jvm
04
重写Partitioner,使分布到各Reducer的数据均匀
05
设置堆空间大小
调优点(2)
01
Mapper, Reducer
02
Writable, ComparableWritable
03
InputFormat, OutputFormat
04
Partitioner
05
Comparator
06
DistributedCache
07
Streaming(bash/python)
常用API
JobTracker与作业调度耦合性太强
01
JobHistory应独立为一个jvm进程,逻辑不应与JobTracker耦合太强
02
在HDFS之上整合MPI,统一作业调度
03
Shuffle过程只需一次I/O
04
单块磁盘失效导致整个节点失效问题(改DFSClient)
05
Hadoop改造
文件系统兼容posix
01
使Map的key输出不排序,只分区
02
NameNode单点故障问题
03
RPC支持大数据(如文件)传输
04
集群资源分配
05
权限管理
06
Hadoop改造