文档介绍:: .
百度数据仓库体系介 应用 Ad-hoc DM Report OLAP
DW Online Server
QueryEngine Data Feed OLAP/Report Engine
( )
数据访问 Hive
Ad Hoc
Routine ETL Routine ETL
Query
Unified Schema MiniBatch-Exporter. API
Interface HQL
Hdfs/MiniBatch (Sec-
Hadoop/Hive(15Min) StreamProc
15Min) (msec-sec)
DW-ETL
DW-Batch DW-RT
日志下载 分布式实时消息传输
传输
Logsaver(1min) Bigpipe(subpub / msec-sec)
格式化 Logging (Txt->ProtoBuf)
Raw LogDW 新特性
• 逻辑模型
– 概念层、逻辑层、物理层
• ETL时效性
– 引入实时流式计算模型:DW-RT (DAG)
– 引入增量计算模型 Mini-Batch Computing:[Plan]
• 存储、访问优化[Doing]
– Index
– 列式存储
–
辑 主题:概念表
层
次 =
ID
物 目录级别(Partition)
理 存储优化
I/O、CPU 文件级别(Index)
层 块级别( RCFile、压缩)
次 Meta
DataData DataData DataData DataData DataIndex DataIndex data : .
百度数据仓库体系介绍