文档介绍:大数据处理技术参考架构
大数据处理技术参考架构
二〇一五年十二月
目 录
1. 背景 1
估算〔以每笔1KB估算,约4TB/月增量数据;每笔数据平均包含20个字段〕,现有存量数据大约在20TB。 增量数据在当月5-8日进行校验、审核等处理,数据处理过程希望在T+0完成。实时查询业务为用户随机进行。在使用数据进行分布式计算时,一般情况当月4TB的数据全部参与计算。比拟复杂场景之一是逻辑校验局部的算法,按不同的规那么,有的规那么会使用到当月的全部增量数据参与校验,有的规那么会按金融机构维度使用当前机构的历史数据参与校验。
4
大数据处理技术比照
目前对海量数据进行分布式处理的技术主要分为两类:
MPP〔Massively Parallel Processing〕大规模并行处理技术;
MPP技术大多用于数据仓库领域,是将任务并行的分散到多个效劳器节点上,在每个节点上计算完成后,将各自局部的结果汇总在一起得到最终的结果的一项技术,典型的代表例如:Teradata,HP Vertica,EMC Greenplum,GBase,Oracle Exadata等。
Apache Hadoop、Spark技术。
Hadoop&Spark是由Apache基金会所开发的分布式系统根底架构,它所解决的核心问题是,通过部署在低廉的硬件上的、可以协同工作的软件组件,来完成分布式数据存储、高吞吐量数据访问、以及高负载的分布式计算。近些年在众多行业都得到广泛应用。
MPP与Hadoop&Spark技术比照
集群规模上,MPP技术支持近百个节点〔中国大陆很少有100+节点的案例〕。Hadoop&Spark技术支持几千个节点。
扩容影响上,MPP技术扩容通常导致停机、效劳中断;数据需要重新分布,性能严重下降。Hadoop&Spark技术扩容无需停机、效劳不中断;数据无需重新分布,新数据自动被分配到新的节点中,性能没有影响。
数据分布方式上,MPP技术以预定义数据分布策略,按列进行散列或轮询分布;真实数据通常有倾斜,将导致数据不均匀分布,对计算效率影响较大。Hadoop&Spark技术中,数据按预配置的块大小自动均匀分布,通过blockmap映射表查询数据位置;数据分布均匀、扩容无需停机。
处理数据量上,MPP技术在数十TB级别。Hadoop&Spark技术在PB级别。
容错能力上,MPP技术不存放中间结果,出错时需要重新执行整个任务。Hadoop&Spark技术存放中间结果,出错时只需要重新运行出错的子任务
并发能力上,MPP技术多用于分析型应用场景,数据装载时建立索引较慢;通常不超过数百个并发。 Hadoop&Spark技术数据装载快,采用公平调度/配额调度;可支持上亿用户并发数据插入、查询、检索。
数据存储对象,MPP技术支持结构化数据,Hadoop&Spark技术支持结构化、半结构化、非结构化数据。
5
应用运算逻辑实现方式上,MPP技术SQL语言,Hadoop&Spark技术支持SQL2022、局部PL/SQL、R、Java、Scala等。
数据访问接口,MPP技术支持JDBC、ODBC,Hadoop&Spark技术支持JDBC、ODBC、R语言接口等。
MPP
Hadoop&Spark
集群规模
近百个节点〔中国大陆很少有100+节点的案例〕
几千个节点
动态扩展运算能力
扩容通常导致停机、效劳中断;
数据需要重新分布,性能严重下降。
扩容无需停机、效劳不中断;
扩容时数据无需重新分布,新数据自动被分配到新的节点中,性能没有影响。
数据分布方式
数据以预定义的分布策略,
按列进行散列或轮询分布;
真实数据通常有倾斜,将导致数据不均匀分布,
对计算效率影响较大。
数据以预定义的块大小自动均匀分布,
通过blockmap映射表查询数据位置;
数据分布均匀、扩容无需停机。
处理数据量
数十TB
PB
容错能力
不存放中间结果,出错时需要重新执行整个任务
存放中间结果,出错时只需要重新运行出错的子任务
并发能力
用于分析型应用场景,数据装载时建立索引较慢;
通常不超过数百个并发。
数据装载快,采用公平调度/配额调度;
可支持上亿用户并发数据插入、查询、检索。
数据存储对象
结构化数据
结构化、半结构化、非结构化数据
应用运算逻辑
实现方式
SQL语言
SQL2022、局部PL/SQL、 R、Java、Scala等
6
MPP
Ha