1 / 20
文档名称:

百度大数据平台介绍.pdf

格式:pdf   大小:995KB   页数:20页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

百度大数据平台介绍.pdf

上传人:夸客客 2022/3/28 文件大小:995 KB

下载得到文件列表

百度大数据平台介绍.pdf

相关文档

文档介绍

文档介绍:: .
百度数据仓库体系介 应用 Ad-hoc DM Report OLAP
DW Online Server
QueryEngine Data Feed OLAP/Report Engine
( )
数据访问 Hive
Ad Hoc
Routine ETL Routine ETL
Query
Unified Schema MiniBatch-Exporter. API
Interface HQL
Hdfs/MiniBatch (Sec-
Hadoop/Hive(15Min) StreamProc
15Min) (msec-sec)
DW-ETL
DW-Batch DW-RT
日志下载 分布式实时消息传输
传输
Logsaver(1min) Bigpipe(subpub / msec-sec)
格式化 Logging (Txt->ProtoBuf)
Raw LogDW 新特性
• 逻辑模型
– 概念层、逻辑层、物理层
• ETL时效性
– 引入实时流式计算模型:DW-RT (DAG)
– 引入增量计算模型 Mini-Batch Computing:[Plan]
• 存储、访问优化[Doing]
– Index
– 列式存储

辑 主题:概念表

次 =
ID
物 目录级别(Partition)
理 存储优化
I/O、CPU 文件级别(Index)
层 块级别( RCFile、压缩)
次 Meta
DataData DataData DataData DataData DataIndex DataIndex data : .
百度数据仓库体系介绍