1 / 26
文档名称:

百度hadoop计算技术发展.pdf

格式:pdf   页数:26
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

百度hadoop计算技术发展.pdf

上传人:紫岑旖旎 2012/8/21 文件大小:0 KB

下载得到文件列表

百度hadoop计算技术发展.pdf

文档介绍

文档介绍:百度分布式计算技术发展
连林江
lianlinjiang@


基础架构部
项目经理
负责分布式计算团队
HDFS
MapReduce及其他批量计算模型
Resource Management System
大纲
分布式计算平台
我们的挑战

展望
分布式计算平台
2008
开始于Hadoop
300台机器,2个集群日志分析网页建库
策略训练
Now 报表计算 Link挖掘
总规模2W以上
最大集群接近4,000节点
每日处理数据20PB+ 分布式计算平台
每日作业数120,000+
日志网页 UGC
我们的挑战
规模
单集群100020003000500010000
效率
资源利用率(cpu/mem/io)—高峰vs平均
存储利用—无压缩、冷数据
存储与计算资源使用均衡问题
服务可用
随着规模增大问题变得突出
3K+节点升级或异常小时级中断
用户影响面:%下用户容忍度变低

Hadoop
MapReduce
HDFS
Other
MapReduce
Computing

Model
HDFS
ARK
(A Resource Keeper)
HDFS --Scalability

内存可扩展性
,内存占用90GB


负载可扩展性
集群规模扩大单点NameNode请求压力增大
3000节点:连接超时/拒绝,有时操作响应延迟高
HDFS --Scalability
HDFS --Scalability
内存负载: 10亿文件,10亿块
Namespace:66GB文件数据+1GB目录,单节点管理
请求负载
%耗cpu操作Namespace
Namespace不再维护块信息,大部分操作都不需要加
全局锁,可以更充分利用CPU资源
吞吐
按照我们的负载读写比例 x5~10