1 / 27
文档名称:

最新大数据处理技术参考架构.doc

格式:doc   大小:3,530KB   页数:27页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

最新大数据处理技术参考架构.doc

上传人:朱老师 2022/3/20 文件大小:3.45 MB

下载得到文件列表

最新大数据处理技术参考架构.doc

相关文档

文档介绍

文档介绍:大数据处理技术参考架构

大数据处理技术参考架构
二〇一五年十二月

目 录
1. 背景 1
估算〔以每笔1KB估算,约4TB/月增量数据;每笔数据平均包含20个字段〕,现有存量数据大约在20TB。 增量数据在当月5-8日进行校验、审核等处理,数据处理过程希望在T+0完成。实时查询业务为用户随机进行。在使用数据进行分布式计算时,一般情况当月4TB的数据全部参与计算。比拟复杂场景之一是逻辑校验局部的算法,按不同的规那么,有的规那么会使用到当月的全部增量数据参与校验,有的规那么会按金融机构维度使用当前机构的历史数据参与校验。
4
大数据处理技术比照
目前对海量数据进行分布式处理的技术主要分为两类:
MPP〔Massively Parallel Processing〕大规模并行处理技术;
MPP技术大多用于数据仓库领域,是将任务并行的分散到多个效劳器节点上,在每个节点上计算完成后,将各自局部的结果汇总在一起得到最终的结果的一项技术,典型的代表例如:Teradata,HP Vertica,EMC Greenplum,GBase,Oracle Exadata等。
Apache Hadoop、Spark技术。
Hadoop&Spark是由Apache基金会所开发的分布式系统根底架构,它所解决的核心问题是,通过部署在低廉的硬件上的、可以协同工作的软件组件,来完成分布式数据存储、高吞吐量数据访问、以及高负载的分布式计算。近些年在众多行业都得到广泛应用。
MPP与Hadoop&Spark技术比照
集群规模上,MPP技术支持近百个节点〔中国大陆很少有100+节点的案例〕。Hadoop&Spark技术支持几千个节点。
扩容影响上,MPP技术扩容通常导致停机、效劳中断;数据需要重新分布,性能严重下降。Hadoop&Spark技术扩容无需停机、效劳不中断;数据无需重新分布,新数据自动被分配到新的节点中,性能没有影响。
数据分布方式上,MPP技术以预定义数据分布策略,按列进行散列或轮询分布;真实数据通常有倾斜,将导致数据不均匀分布,对计算效率影响较大。Hadoop&Spark技术中,数据按预配置的块大小自动均匀分布,通过blockmap映射表查询数据位置;数据分布均匀、扩容无需停机。
处理数据量上,MPP技术在数十TB级别。Hadoop&Spark技术在PB级别。
容错能力上,MPP技术不存放中间结果,出错时需要重新执行整个任务。Hadoop&Spark技术存放中间结果,出错时只需要重新运行出错的子任务
并发能力上,MPP技术多用于分析型应用场景,数据装载时建立索引较慢;通常不超过数百个并发。 Hadoop&Spark技术数据装载快,采用公平调度/配额调度;可支持上亿用户并发数据插入、查询、检索。
数据存储对象,MPP技术支持结构化数据,Hadoop&Spark技术支持结构化、半结构化、非结构化数据。
5
应用运算逻辑实现方式上,MPP技术SQL语言,Hadoop&Spark技术支持SQL2022、局部PL/SQL、R、Java、Scala等。
数据访问接口,MPP技术支持JDBC、ODBC,Hadoop&Spark技术支持JDBC、ODBC、R语言接口等。
MPP
Hadoop&Spark
集群规模
近百个节点〔中国大陆很少有100+节点的案例〕
几千个节点
动态扩展运算能力
扩容通常导致停机、效劳中断;
数据需要重新分布,性能严重下降。
扩容无需停机、效劳不中断;
扩容时数据无需重新分布,新数据自动被分配到新的节点中,性能没有影响。
数据分布方式
数据以预定义的分布策略,
按列进行散列或轮询分布;
真实数据通常有倾斜,将导致数据不均匀分布,
对计算效率影响较大。
数据以预定义的块大小自动均匀分布,
通过blockmap映射表查询数据位置;
数据分布均匀、扩容无需停机。
处理数据量
数十TB
PB
容错能力
不存放中间结果,出错时需要重新执行整个任务
存放中间结果,出错时只需要重新运行出错的子任务
并发能力
用于分析型应用场景,数据装载时建立索引较慢;
通常不超过数百个并发。
数据装载快,采用公平调度/配额调度;
可支持上亿用户并发数据插入、查询、检索。
数据存储对象
结构化数据
结构化、半结构化、非结构化数据
应用运算逻辑
实现方式
SQL语言
SQL2022、局部PL/SQL、 R、Java、Scala等
6
MPP
Ha

最近更新

人力资源战略:物业管理培训内容 10页

产业园区开发:房地产融资创新案例 11页

二手车买卖融资租赁商合同书 5页

乌灵菌粉在生态环境保护中的价值 10页

中药斑蝥在心血管病的应用潜力 8页

民办培训学校工作总结(3篇) 30页

2024年事业单位教师招聘(言语理解与表达)30.. 175页

2024年人教版四年级下册数学期中测试卷及答案.. 6页

2024年北京版六年级下册数学期末测试卷精品【.. 6页

2024年北师大版六年级下册数学期中测试卷(综.. 6页

2024年小升初数学期末模拟测试卷及完整答案【.. 6页

2024年小学六年级下册数学期末测试卷精品及答.. 7页

2024年小学六年级下册数学期末考试卷(考点精.. 6页

2024年苏教版六年级下册数学期末测试卷及参考.. 7页

2024年西师大版六年级下册数学期末测试卷审定.. 6页

2024年部编版六年级下册道德与法治期中测试卷.. 6页

2024年青岛版六年级下册数学期末测试卷及参考.. 7页

传染病学-伤寒 86页

人教版一年级上册数学期末测试卷精品【精选题.. 6页

人教版六年级下册数学期中测试卷及答案(真题.. 6页

人教版六年级下册数学第一单元《负数》测试卷.. 6页

人教版六年级下册数学第四单元《比例》测试卷.. 8页

人教版四年级下册数学期中测试卷含答案(完整.. 6页

六年级下册数学 圆柱与圆锥 测试卷附参考答案.. 7页

冀教版六年级下册数学第三单元 正比例、反比例.. 7页

教材研究分析报告范文 3页

2024年湖南高考历史真题及答案 高考历史真题 8页

STA无痛麻醉仪ppt课件 70页

常用打捞工具及工作原理 62页

异位妊娠双语教学资料 9页