1 / 22
文档名称:

大数据整合平台建设方案.docx

格式:docx   大小:391KB   页数:22页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

大数据整合平台建设方案.docx

上传人:xiaobaizhua 2022/8/6 文件大小:391 KB

下载得到文件列表

大数据整合平台建设方案.docx

相关文档

文档介绍

文档介绍:大数据整合平台建设方案
统一客户信息资源
目录:
•什么是大数据
•微商荟大数据平台介绍
•微商荟的大数据平台架构
•平台建设费用
大数据
“就像望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正 在统一的客户视图
实现异构数据源之间的数据复制
广域网环境中基于消息队列的数据复制
实现系统间高效的批量数据交换
提供企业级的信息搜索
事件数据的获取和发布
非关系型数据的集成(包括MQ、XML、Web Service等)
此外,信息资源整合平台可以,通过对现有的数据进一步加工和整合, 在提升全面的信息服务能力的同时,微商荟大数据系统的发展构建长远的信息框 架。
微商荟的大数据平台架构
微商荟大数据平台对业务的针对性较强,为了明确它是否符合我们的业 务,现粗略地从几个角度将大数据分析的业务需求分类,针对不同的具体需求, 采用不同的数据分析架构。
am AR;
匚nun酬
IHjJ imizingod Arbibcr £叶碣
数据分析的算法复杂度
根据不同的业务需求,数据分析的算法也差异巨大,而数据分析的算法复杂 度和架构是紧密关联的。举个例子,Redis是一个性能非常高的内存Key-Value NoSQL,它支持List和Set、SortedSet等简单集合,如果你的数据分析需求简 单地通过排序,链表就可以解决,同时总的数据量不大于内存(准确地说是内存 加上虚拟内存再除以2),那么无疑使用Redis会达到非常惊人的分析性能。
还有很多易并行问题(Embarrassingly Parallel),计算可以分解成完全 独立的部分,或者很简单地就能改造出分布式算法,比如大规模脸部识别、图形 渲染等,这样的问题自然是使用并行处理集群比较适合。
而大多数统计分析,机器学****问题可以用MapReduce算法改写。MapReduce 目前最擅长的计算领域有流量统计、推荐引擎、趋势分析、用户行为分析、数据 挖掘分类器、分布式索引等。
聘-1?二 I 1111. m 虫虫1NIG5 lllwm阿耐 Tw個曲1N血
NuriiMr
Tifi BriM
微商荟大数据的4V特征-来源
图2 RCFile的行列混合存
Vcfume
Variety
Velocity
7 麺底 < 沁*、
JUt帆 rValuEi 网 j■尢
■BTft旳—t 1■绕尺1吐湧・
微商荟大数据平台的“大数据”
随着公司业务的增长,大量和流程、规则相关的非结构化数据也爆发式增长。 体系架构
Pig Hive ChuKwa
ZooKeeper
MapReduce HBase
HDFS
核心设计
—Z\ MapReduce
•Map :任务的分解
• Reduce :结果的 汇总
HDFS
Hbase
•列式内存数据 库
•NameNode :管 理文丼元救据 *DataNode :存储 物理文件
•Client:荻取文件 j的各沖API
大数据的技术领域
n
海量存储
_ J
离线计算
-
GFS
ILDFS
L 」
『 r
MapRedure
J
r 1
AinazQEi S3
L □
「 严
HheTig
L _i
f '
TFS
'L 」

Dh'emel
r mi
L -i
f
FasfflfS^
L— i
Impala
Ifa i
在线il伴■流式汁飽■相尺领域
Chwbby
Zookeeper
Prtgd
HAMA
Mahout
Spark
C affine
Kafka
微商荟大数据平台与业务平台的关系
数据分析层
瞒分析
编程模型层
l«w4IIfr
数据存储层
文件存傭层
数据集成层
公司大数据平台架构图
文件存诸层
日志
其3
Hb-a se {■故橋希
Fled is
(数惟存储)
H Catalog
超9囲
MVMi iA~bi
…也一 Hive
(割据分析}
上融用
…二 廿……
Ppg
{数据分析)
……一诽……
HDFS (文件融} ——1|…—冷=—诽一
Sqoop