文档介绍：百度分布式计算技术发展
连林江
lianlinjiang@

我
基础架构部
项目经理
负责分布式计算团队
HDFS
MapReduce及其他批量计算模型
Resource Management System
大纲
分布式计算平台
我们的挑战

展望
分布式计算平台
2008
开始于Hadoop
300台机器,2个集群日志分析网页建库
策略训练
Now 报表计算 Link挖掘
总规模2W以上
最大集群接近4,000节点
每日处理数据20PB+ 分布式计算平台
每日作业数120,000+
日志网页 UGC
我们的挑战
规模
单集群100020003000500010000
效率
资源利用率(cpu/mem/io)—高峰vs平均
存储利用—无压缩、冷数据
存储与计算资源使用均衡问题
服务可用
随着规模增大问题变得突出
3K+节点升级或异常小时级中断
用户影响面:%下用户容忍度变低

Hadoop
MapReduce
HDFS
Other
MapReduce
Computing

Model
HDFS
ARK
(A Resource Keeper)
HDFS --Scalability

内存可扩展性
,内存占用90GB

负载可扩展性
集群规模扩大单点NameNode请求压力增大
3000节点:连接超时/拒绝,有时操作响应延迟高
HDFS --Scalability
HDFS --Scalability
内存负载: 10亿文件,10亿块
Namespace:66GB文件数据+1GB目录,单节点管理
请求负载
%耗cpu操作Namespace
Namespace不再维护块信息,大部分操作都不需要加
全局锁,可以更充分利用CPU资源
吞吐
按照我们的负载读写比例 x5~10