1 / 56
文档名称:

大数据处理平台设计方案方案.doc

格式:doc   大小:7,898KB   页数:56页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

大数据处理平台设计方案方案.doc

上传人:阿宝 2021/5/19 文件大小:7.71 MB

下载得到文件列表

大数据处理平台设计方案方案.doc

文档介绍

文档介绍:大数据处理平台设计方案方案
大数据基础平台
架构设计
SDC Hadoop大数据基础平台集工作台、工作流开发环境、任务调度、数据管理、数据检索、集群运维管理系统和应用门户为一体,为用户提供基于大数据的基础解决方案,全面满足不同行业、不同人群对大数据的个性化要求。其架构设计如下图:
运维管理(SDC Console):SDC Console是大数据运维管理系统,为SDC Hadoop供高可靠、安全、容错、易用的集群管理能力,支持大规模集群的安装部署、监控、告警、用户管理、权限管理、审计、服务管理等。
SDC Hadoop集成开发工具:提供了web图形化方式操作,包括流程控制、作业调度、数据管理、数据搜索、元数据管理、文件管理等功能。
HDFS: Hadoop分布式文件系统(Hadoop Distributed File System) ,提供高吞吐量的数据访问,适合大规模数据集方面的应用。
Zookeeper:提供分布式、高可用性的协调服务能力。帮助系统避免单点故障,从而建立可靠的应用程序。
HBase:提供海量数据存储功能,是一种构建在HDFS之上的分布式、面向列的存储系统。
Elasticsearch:提供了一个分布式多用户能力的全文搜索引擎。
Parquet:面向分析型业务的列式存储格式。
YARN 资源管理系统,它是一个通用的资源模块,可以为各类应用程序进行资源管理和调度。
Tachyon:分布式内存文件系统,可以在集群里以访问内存的速度来访问存在tachyon里的文件。
Redis:提供基于内存的高性能分布式K-V缓存系统。
MapReduce:提供快速并行处理大量数据的能力,是一种分布式数据处理模式和执行环境。
Spark:基于内存进行计算的分布式计算框架。
Strom:提供分布式、高容错的实时计算系统。
Hive:建立在Hadoop基础上的开源的数据仓库,提供类似SQL的Hive Query Language语言操作结构化数据存储服务和基本的数据分析服务。
Impala:提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。
Spark Streaming:建立在Spark上的实时计算框架,通过它提供的丰富的API、基于内存的高速执行引擎,用户可以结合流式、批处理和交互试查询应用。
Kylin:支持在超大数据集上进行秒级别的SQL及OLAP查询。
功能模块
大数据运维管理
大数据运维管理为大数据存储供高可靠、安全、容错、易用的集群管理能力,支持大规模集群的安装部署、统一监控告警、统一用户权限管理、日志查询、服务管理等。
服务管理
提供服务管理,支持对各项资源及服务进行创建、删除、启停、重启、配置、升级、部署、维护等操作:
统一监控告警
提供集群监控功能,集成大数据服务、可视化服务、数据挖掘服务等,并对服务器CPU、服务资源、服务状态(警告、错误、隐患)进行实时监控,并以图表形式呈现。支持异常邮件报警,便于用户及时发现问题并处理:
日志查询
提供日志分析友好的Web界面,可以帮助用户汇总、分析和搜索重要数据日志:
统一用户权限管理
提供统一用户权限管理,方便管理员对用户进行管理:
SDC Hadoop集成开发工具
提供了web图形化方式操作,包括流程控制、作业调度、数据管理、数据搜索、元数据管理、文件管理等功能。
流程控制
工作流是由多个节点和节点间的依赖关系所组成的一组逻辑和规则,形成一张有向无环图(DAG图)开发者可通过开发面板和管理面板新建工作流来新建工作流进入工作流设计器,在工作流设计器中通过拖拽不同类型节点并连线的方式来开发一个工作流,提供基本的数据集成、数据计算、数据调度等组件的工作流设计,支持工作流的新增、删除、修改、查询、测试运行、格式化、提交、保存。支持设置工作流任务定时执行,并实时监控任务执行情况,支持运行日志查看。
实时概况
采用多视图实时对流程运行进行监控,从状态、时段、步骤类型、耗时等不同角度查看过去12小时或24小时内所有流程的运行统计概况,帮助用户第一时间获知全局运行情况,并提供强大的性能分析报告优化流程调度:
流程设计:通过简单的拖拽方式即可完成数据特征提取,样本数据建立,数据挖掘场景构建等复杂流程设计,界面简洁,操作简单:
工作流列表和工作流设计在同一页面,方便用户快速的切换工作流进行操作,提供工作流新增、删除、修改、查询、运行、保存功能:
提供工作流组件参数配置,满足用户各类流程设计需求:
用户可设置工作流调度,让流程任务定时执行:
提供工作流运行、暂停功能,运行过程中实时返回各步骤运行结果: