1 / 5
文档名称:

大数据分析平台.docx

格式:docx   大小:401KB   页数:5页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

大数据分析平台.docx

上传人:文丽 2021/12/9 文件大小:401 KB

下载得到文件列表

大数据分析平台.docx

相关文档

文档介绍

文档介绍:Updated by Jack on December 25,2020 at 10:00 am
大数据分析平台
一、数据分析平台层次解析
大数据分析处理架构图
数据源: 除该种方法之外,还可以分为离线数据、近似实时数据和实时数据。按照图中的分类其实就是说明了数据存储的结构,而特别要说的是流数据,它的核心就是数据的连续性和快速分析性;
计算层: 内存计算中的Spark是UC Berkeley的最新作品,思路是利用集群中的所有内存将要处理的数据加载其中,省掉很多I/O开销和硬盘拖累,从而加快计算。而Impala思想来源于Google Dremel,充分利用分布式的集群和高效存储方式来加快大数据集上的查询速度,这也就是我上面说到的近似实时查询;底层的文件系统当然是HDFS独大,也就是Hadoop的底层存储,现在大数据的技术除了微软系的意外,基本都是HDFS作为底层的存储技术。上层的YARN就是MapReduce的第二版,和在一起就是Hadoop最新版本。基于之上的应用有Hive,Pig Latin,这两个是利用了SQL的思想来查询Hadoop上的数据。
关键: 利用大数据做决策支持。R可以帮你在大数据上做统计分析,利用R语言和框架可以实现很专业的统计分析功能,并且能利用图形的方式展现;而Mahout就是一个集数据挖掘、决策支持等算法于一身的工具,其中包含的都是
基于Hadoop来实现的经典算法,拿这个作为数据分析的核心算法集来参考还是很好的。
如此一个决策支持系统要怎么展现呢?其实这个和数据挖掘过程中的展现一样,无非就是通过表格和图标图形来进行展示,其实一份分类详细、颜色艳丽、数据权威的数据图标报告就是呈现给客户的最好方式!至于用什么工具来实现,有两个是最好的数据展现工具,Tableau和Pentaho,利用他们最为数据展现层绝对是最好的选择。
二、规划的数据平台产品AE(Accelerate Engine)
支持下一代企业计算关键技术的大数据处理平台:包括计算引擎、开发工具、管理工具及数据服务。计算引擎是AE的核心部分,提供支持从多数据源的异构数据进行实时数据集成、提供分布式环境下的消息总线、通过Service Gateway能够与第三方系统进行服务整合访问;设计了一个分布式计算框架,可以处理结构化和非结构化数据,并提供内存计算、规划计算、数据挖掘、流计算等各种企业计算服务。Data Studio包括了数据建模、开发、测试等集成开发环境。管理工具包括了实施、客户化及系统管理类工具。AE平台还可以通过UAP开发者社区提供丰富的数据服务。
AE架构图
新规划将BAP平台拆分为两部分,底层技术平台发展内存计算和数据处理,上层BI展现端重点发展仪表盘、web和移动设备展现。
两大产品通过数据处理接口和嵌入式应用服务于业务系统。
生态系统图
大数据处理平台担负着为BI系统提供语义层/OLAP引擎等底层技术支撑、BI及ERP系统的性能提升、以及数据挖掘、非结构化数据处理等系列数据整合与处理的解决方案。
具体模块包括:
语义层:为统一的查询建模平台和数据访问接口。除提供标准的查询建模能力外,还有语义驱动、语义规则、语义函数、描述器等等扩展方式,满足不同层面的扩展要求。
OLAP引擎:OLAP