文档名称：

大数据平台解决方案.doc

格式：doc 大小：278KB 页数：24页

下载后只包含 1 个 DOC 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

预览

下载此文档

大数据平台解决方案.doc

上传人:业精于勤 2022/12/7 文件大小：278 KB

下载得到文件列表

大数据平台解决方案.doc

相关文档

文档介绍

文档介绍：该【大数据平台解决方案】是由【业精于勤】上传分享，文档一共【24】页，该文档可以免费在线阅读，需要了解更多关于【大数据平台解决方案】的内容，可以使用淘豆网的站内搜索功能，选择自己适合的文档，以下文字是截取该文章内的部分文字，如需要获得完整电子版，请下载此文档到您的设备，方便您编辑和打印。大数据平台技术方案
1. 大数据平台技术方案 4
技术路线 4
动静态信息互换 5
系统概述 5
数据采集服务 5
数据采集服务配备 6
平台认证服务 6
动静态数据发布订阅服务 6
负载均衡服务 7
合同分析转换功能 7
动静态数据分发服务 7
数据分发服务配备 7
数据缓存服务 8
数据互换信息日记 8
大数据存储 8
数据仓库工具 9
大数据在线存储 9
大数据离线存储 11
数据清洗转换 13
流数据解决框架 13
分布式ETL工具 13
ETL功能简介 14
大数据解决 16
实时数据流解决 16
数据挖掘分析引擎 16
大数据服务引擎 17
大数据配备服务管理 17
大数据在线分析 17
大数据离线分析 18
大数据可视化管理 21
大数据全文检索 22
调度与业务监控 22
资源与安全 23
租户管理 23
资源分派 24
权限管理 24
接口封装 24
大数据平台技术方案
概述
大数据平台必须具有高度可扩展性、实时性、高性能、低延迟分析、高度容错性、可用性、支持异构环境、开放性、易用性,同步也但愿具有较低成本;其核心技术涉及大规模数据流解决技术以及大规模数据管理、分析技术。
系统技术架构采用面向服务的体系构造(Service-OrientedArchitecture,SOA),遵循分层原则,每一层为上层提供服务。将大数据平台进行逐级解析,从下至上分别是数据接口层、文献存储层、数据存储层、数据分析层、数据层、业务控制层、体现层、系统监控层。
(1)数据接口层:为保证数据接入层的接口灵活性,采用Restful风格接口实现方式,Restful有轻量级以及通过HTTP直接传播数据的特性,Web服务的RESTful措施已经成为最常用的措施。同步数据的接入及互换采用Kafka集群和WebService方式,Kafka是一种高吞吐量的分布式发布订阅消息系统,可以满足系统与大数据平台的高并发量数据互换。WebService是一种平***立的,低耦合的,自涉及的、基于可编程的web的应用程序,可使用开放的XM原则来描述、发布、发现、协调和配备这些应用程序,用于开发分布式的互操作的应用程序。
(2)文献存储层:为满足大数据的存储规定,文献存储采用HDFS文献系统,Hadoop分布式文献系统(HDFS)是一种高度容错性的系统,适合部署在便宜的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。
(3)数据存储层:根据本工程数据资源设计的需要,数据存储分别采用关系数据库、内存数据库Redis、分布式大数据存储。
(4)数据分析层:采用Storm技术完毕实时流分析的需求,Storm是一种分布式的、容错的实时计算系统。可以以便地在一种计算机集群中编写与扩展复杂的实时计。采用MapReduce和Spark实现离线分析。Spark是类HadoopMapReduce的通用并行框架,能更好地合用于数据挖掘与机器学****等需要迭代的MapReduce的算法。
(5)数据接入层:应用与数据库的交互采用JDBC级Hibernate技术实现。Hibernate是一种开放源代码的对象关系映射框架,它对JDBC进行了非常轻量级的对象封装,它将POJO与数据库表建立映射关系,是一种全自动的orm框架,hibernate可以自动生成SQL语句,自动执行,使得Java程序员可以随心所欲的使用对象编程思维来操纵数据库。
(6)业务控制层:采用当今最流行的轻量级Java开发框架Spring,同步与SpringMVC整合。Spring具有轻量、低侵入式设计、以便解耦,简化开发、AOP编程的支持、以便集成多种优秀框架等长处。
(7)体现层:采用EasyUI,Ajax,FreeMarker,JavaScript技术,这些技术能极大提高开发效率,同步能满足工程中多种复杂的前端呈现规定。
(8)监控层:采用Zookeeper分布式服务框架。重要是用来解决分布式应用中常常遇到的某些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配备项的管理等。它的作用重要是用来维护和监控你存储的数据的状态变化。通过监控这些数据状态的变化,从而可以达到基于数据的集群管理。
动静态信息互换
系统概述
动静态信息互换建立目的是通过原则的规范性数据接口定义,实现采集各类动态和静态数据,实现与接入平台的数据通信与互换共享。
数据采集互换系统根据数据互换的对象和内容的不同,服务对象涉及省市级管理机构等。数据互换平台涉及一系列的服务,如:数据采集服务、平台认证服务、发布订阅服务等。
数据采集服务
数据采集服务采集各级行业管理部门、各行业业务系统的数据信息,对这些静动态数据进行收集,用以进行后续操作。
数据采集模块按照定义的接口规范进行连接、响应、接受、发送解决。接受各级行业管理部门报送的数据。
数据采集服务配备
针对上报大数据管理平台的信息,灵活配备其可采集的服务种类,来源,IP地址,采集的数据类型以及服务方式,使数据的采集更加灵活可控。
数据采集服务配备模块的重要功能有:
动态配备服务。根据IP、数据类型和服务方式对服务进行动态配备。
对接入数据进行验证。不容许非配备内的服务接入数据,容许配备内的服务接入数据。
平台认证服务
为了保障数据服务的安全性,在传播数据之前,需要先通过接口进行登录认证,从而拟定数据互换平台及权限,以及平台接入的有效期。
平台认证模块重要功能有:
根据平台信息进行登录认证。根据申请接入的其她平台或者系统的有关信息,对该平台或者系统进行身份验证。
根据认证成果获取登录权限和有效期等信息。如果验证通过,则容许接入系统,如果验证不通过,则不容许接入。
动静态数据发布订阅服务
发布订阅服务根据分发调度方略,判断采集动静态数据属于某个地市,发布到该地市的主题,存储到消息队列,记录日记。
动静态数据发布订阅模块的重要功能有:
获取信息,将数据存储到消息队列。根据接入数据的有关信息,获取相应的信息。
记录日记信息。将信息下发到相应的消息队列,并记录日记信息。
负载均衡服务
根据数据采集服务和分发服务进行负载分析与数据的多途径流向调节,用以减小平台压力,提高平台的运营效率。
负载均衡模块的重要功能是根据采集服务和分发服务进行负载均衡解决。
合同分析转换功能
按合同规范对上报数据进行解析,对分发的数据进行封装,实现与其她平台的数据精确对接。
合同分析转换模块的重要功能有:
按合同规范对上报数据进行解析。对接入的数据,按照预先指定的合同进行解析,以便在系统中的解决和流通。
对分发的数据进行封装。对于系统解决过的数据,要根据预先指定的合同,将数据进行打包封装,然后下发到其她平台或者系统。
动静态数据分发服务
根据各级数据祈求,按照定义的接口规范进行连接、响应、按主题分发解决。分发各类动静态信息。
按照定义的接口规范进行连接响应。
对数据按照主题进行分发。根据接入数据的有关信息,从而获取有关的数据需求方信息,并且获取相应的主题信息,并将数据按照主题下发到相应的平台。
数据分发服务配备
针对分发平台的信息,灵活配备分发的服务种类,分发的数据类型以及服务方式,实现分发的灵活可控性。
数据分发服务配备模块的重要功能有:
获取将要分发的平台的信息。根据系统中提供的其她平台的有关数据,获取将要分发的平台的有关信息,以便后续数据的分发。
根据平台的信息配备要进行分发的服务。根据已经获取的有关的平台的数据,对平台的服务信息进行配备。
数据缓存服务
数据缓存服务重要提供本项目动态信息内存缓存、持久化存储目前点以及缓存预解决的数据,向数据应用提供迅速访问中间数据源。
数据缓存模块的重要功能是进行数据缓存,如内存缓存、持久化存储目前点以及缓存预解决网格信息等数据。
数据互换信息日记
记录数据采集以及分发的数据量,为验证数据互换的完整性、可追溯性以及可视性打下基本。
数据互换信息日记模块的重要功能有:
记录数据采集获取的数据量。在进行数据交互时,记录接入的数据的数据量信息。
记录数据分发的数据量。在进行数据的交互时,记录分发的数据的数据量信息。
大数据存储
根据业务类型,数据划分为基本信息数据库、主题数据库、业务数据库三大数据库。其中基本数据库存储行业的静态数据以实现与实时数据的迅速拟合;主题数据库各类主题数据;业务库存储实时的业务数据。根据数据的使用时效分为在线存储、离线存储。
数据仓库工具
随着大数据平台不断的接入海量数据,大数据平台引入数据仓库技术来解决各类业务问题。数据仓库是一种抽象的概念因此可以简朴的理解为不同粒度的数据层,例如:数据缓冲层(寄存当天增量数据)、数据明细层(寄存最全的明细数据)、数据模型层(轻粒度的数据汇总以及模型设计,这个时候需要设计相应的主题)、数据集市层(一般就是某些宽表,涉及多维度和指标,以便用来做多维分析)、数据应用层(重要是开放给业务侧使用,多寄存粗粒度的数据报表)。通过数据仓库模型为各类应用提供数据支撑。
大数据在线存储
大数据在线存储存储临时性的数据,提供高效数据索引,面向列的高可靠性、高性能、可伸缩的分布式存储,以及面向RMDB的数据导入与导出功能。大数据在线存储子系统提供简化编程模型支持、容错、横向线性扩展等特性。
在线存储重要运用Hbase列式数据库做为主在线存储。
在线存储的技术架构如上图所示,其中:
HBaseClient使用HBase的RPC机制与HMaster和HRegionServer进行通信。对于管理类操作(如建表,删表等),Client和HMaster进行RPC;对于数据读写类操作,Client和HRegionServer进行RPC。
每台HRegionServer都会与HMaster进行通信,HMaster的重要任务就是要告诉每台HRegionServer它要维护哪些HRegion。当一台新的HRegionServer登录到HMaster时,HMaster会告诉它等待分派数据。而当一台HRegion死机时,HMaster会把它负责的HRegion标记为未分派,然后再把它们分派到其她的HRegionServer中。HBase通过多种HMaster实例和Zookeeper的协调功能解决了HMaster单点故障问。HMaster在功能上重要负责Table和Region的管理工作。
HRegionServer重要负责响应顾客I/O祈求,向HDFS文献系统中读写数据,是HBase中最核心的模块。
HBase能提供实时计算服务是由其架构和底层的数据构造决定的,即由LSM-Tree(Log-StructuredMerge-Tree)+HTable(region分区)+Cache决定——