文档名称：

最新大数据处理技术参考架构.doc

上传人:朱老师 2022/3/20 文件大小：3.45 MB

下载得到文件列表

最新大数据处理技术参考架构.doc

相关文档

文档介绍

文档介绍：大数据处理技术参考架构

大数据处理技术参考架构
二〇一五年十二月

目录
1. 背景 1
估算〔以每笔1KB估算，约4TB/月增量数据；每笔数据平均包含20个字段〕，现有存量数据大约在20TB。增量数据在当月5-8日进行校验、审核等处理，数据处理过程希望在T+0完成。实时查询业务为用户随机进行。在使用数据进行分布式计算时，一般情况当月4TB的数据全部参与计算。比拟复杂场景之一是逻辑校验局部的算法，按不同的规那么，有的规那么会使用到当月的全部增量数据参与校验，有的规那么会按金融机构维度使用当前机构的历史数据参与校验。
4
大数据处理技术比照
目前对海量数据进行分布式处理的技术主要分为两类：
MPP〔Massively Parallel Processing〕大规模并行处理技术；
MPP技术大多用于数据仓库领域，是将任务并行的分散到多个效劳器节点上，在每个节点上计算完成后，将各自局部的结果汇总在一起得到最终的结果的一项技术，典型的代表例如：Teradata，HP Vertica，EMC Greenplum，GBase，Oracle Exadata等。
Apache Hadoop、Spark技术。
Hadoop&Spark是由Apache基金会所开发的分布式系统根底架构，它所解决的核心问题是，通过部署在低廉的硬件上的、可以协同工作的软件组件，来完成分布式数据存储、高吞吐量数据访问、以及高负载的分布式计算。近些年在众多行业都得到广泛应用。
MPP与Hadoop&Spark技术比照
集群规模上，MPP技术支持近百个节点〔中国大陆很少有100+节点的案例〕。Hadoop&Spark技术支持几千个节点。
扩容影响上，MPP技术扩容通常导致停机、效劳中断；数据需要重新分布，性能严重下降。Hadoop&Spark技术扩容无需停机、效劳不中断；数据无需重新分布，新数据自动被分配到新的节点中，性能没有影响。
数据分布方式上，MPP技术以预定义数据分布策略，按列进行散列或轮询分布；真实数据通常有倾斜，将导致数据不均匀分布，对计算效率影响较大。Hadoop&Spark技术中，数据按预配置的块大小自动均匀分布，通过blockmap映射表查询数据位置；数据分布均匀、扩容无需停机。
处理数据量上，MPP技术在数十TB级别。Hadoop&Spark技术在PB级别。
容错能力上，MPP技术不存放中间结果，出错时需要重新执行整个任务。Hadoop&Spark技术存放中间结果，出错时只需要重新运行出错的子任务
并发能力上，MPP技术多用于分析型应用场景，数据装载时建立索引较慢；通常不超过数百个并发。 Hadoop&Spark技术数据装载快，采用公平调度/配额调度；可支持上亿用户并发数据插入、查询、检索。
数据存储对象，MPP技术支持结构化数据，Hadoop&Spark技术支持结构化、半结构化、非结构化数据。
5
应用运算逻辑实现方式上，MPP技术SQL语言，Hadoop&Spark技术支持SQL2022、局部PL/SQL、R、Java、Scala等。
数据访问接口，MPP技术支持JDBC、ODBC，Hadoop&Spark技术支持JDBC、ODBC、R语言接口等。
MPP
Hadoop&Spark
集群规模
近百个节点〔中国大陆很少有100+节点的案例〕
几千个节点
动态扩展运算能力
扩容通常导致停机、效劳中断；
数据需要重新分布，性能严重下降。
扩容无需停机、效劳不中断；
扩容时数据无需重新分布，新数据自动被分配到新的节点中，性能没有影响。
数据分布方式
数据以预定义的分布策略，
按列进行散列或轮询分布；
真实数据通常有倾斜，将导致数据不均匀分布，
对计算效率影响较大。
数据以预定义的块大小自动均匀分布，
通过blockmap映射表查询数据位置；
数据分布均匀、扩容无需停机。
处理数据量
数十TB
PB
容错能力
不存放中间结果，出错时需要重新执行整个任务
存放中间结果，出错时只需要重新运行出错的子任务
并发能力
用于分析型应用场景，数据装载时建立索引较慢；
通常不超过数百个并发。
数据装载快，采用公平调度/配额调度；
可支持上亿用户并发数据插入、查询、检索。
数据存储对象
结构化数据
结构化、半结构化、非结构化数据
应用运算逻辑
实现方式
SQL语言
SQL2022、局部PL/SQL、 R、Java、Scala等
6
MPP
Ha