文档介绍:百度云计算介绍
百度云计算架构师肖伟
xiaowei@
百度内部系统架构
搜索广告社区业务
云平台数据智能
云软件基础架构
计海量数据存储与处理
算
数据中心、网络、服务器硬件基础架构
百度内部云特点
快速迭代
超大规模
快速迭代特征
算法A
算法B
算法B
通过反馈来验证算法优劣
离线在线
离线分析与在线实验相结合
互联网对快速迭代的需求
数据收集
A/B测试
数据智能
部署
快速开发测试运维
原型系统产品
开发应用应用
框架引擎引擎
验证
数据分析
ü 产品开发全过程
ü 方法论+流程+平台
超大规模特征
• 海量数据存储百P
• 大规模数据计算
大规模计算
表示层 SQL-like 描述能力
翻译
模型层
Map Reduce Join Select Top
数据流优化
B 控制流管理
A D
C
执行层资源分配
优先级、并发控制
隔离、安全
计算类型
Map Reduce
• 通用批量数据处理
HPC
• 大规模机器学习
puting
• 计算密集型上下文无关数据处理
资源调度系统
资源调度
业务总控
分布式存储
Task Task Task Task
Executor Executor Executor Executor
Agent Agent
百度存储体系
数据访问层 P2P CDN
Pipe Table File K/V
Flash Disk
ü 统⼀存储体系
– 平衡大容量、高并发、低延迟
– 不同访问模式通过组合满足
ü 统⼀访问与传输