文档介绍:目前银行历史数据系统主要采用关系型数据库进行数据存储,如 Oracle 方式, 此方法具有诸多限制, 例如数据量积压到一定值后, 将极大影响查询效率; 数据库达到一定程度后, 可扩展性降低, 维护成本不断增加; 只适合存储结构化数据,难以满足对半结构化和非结构化历史数据的处理。银行历史数据系统具有的“大数据”特征,我们探索采用当前广泛应用的大数据技术解决方案,基于 Hadoop/HBase 的技术架构,给出技术结果、分析关键技术及技术特性。 1、 Hadoop/HBase 简介 Hadoop 是 Apache 软件基金会的一个开源项目,是为用户提供一个能够对大量数据进行分布式处理软件框架,具有可靠、高效、可伸缩等特点。 HBase 则是 APache 的 Hadoop 的子项目,在 Hadoop 之上提供高可靠性、高性能、可伸缩的分布式数据库系统。不同于一般的关系数据库, 利用 HBase 技术可在廉价 PC 服务器上搭建起大规模结构化数据库集群系统。 HDFS 是 Hadoop 分布式文件系统,为 HBase 提供了高可靠性的底层存储支持。 Ma p Reduce 是 Hadoop 任务调度管理模块,为 HBase 提供了高性能的计算能力。 Zookeeper 是 Hadoop 的分布式协调服务,为 HBase 提供了稳定服务和容错机制。 2 、系统架构基于 Hadoop/HBase 历史数据查询系统逻辑结构如下图所示。?历史数据获取, 新技术方案由于技术架构的横向可扩展性, 可以同时对生产数据库、历史数据库、磁带等多种数据源方式获取数据? 2 .历史数据查询, 历史数据查询模块实现交易查询,根据查询时间段,将查询结果反馈给前台用户。新技术方案由于具备大数据量处理能力, 不但能够提高查询效率, 而且历史查询时间范围能随着处理数据量扩展而扩展,例如可以从以 1 年历史查询扩展到查询 20 年的历史数据,甚至更长时间? 3 .历史数据挖掘分析,新技术架构由于具有天然大数据技术特性,可以做到综合多种生产数据来源,从海量历史数据中进一步挖掘分析出所需信息, 例如用户行为分析等, 以优化相关金融服务产品, 提高用户体验、防范风险新技术方案系统架构如下图所示: Zookeeper 服务器集群:为 HBase 提供了稳定服务和容错机制, 为应用提供数据库配置信息、命名、分布式协调服务。 HBase 主服务器(HMaster) :实现 HBase 集群初始化,负责数据表格、域分配管理;负责管理域服务器的负载均衡, 调整域分布。数据资源层只有一台在线使用的 HBase 主服务器, 但没有单点问题, HBase 中可以启动多个 HBas e 主服务,通过 Zookeeper 保证总有一个 HBase 主服务运行。 HBase 域服务器集群( HRegion ) :负责响应应用的数据 I/O 请求,向 HDFS 文件系统中读写数据,是 HBas e 中最核心的模块。所存储的数据以文件形式保存在本地盘中。 3 、技术特性采用 Hadoop/HBase 实现历史数据查询系统,能够满足海量历史数据高效的查询需求,具备如下技术特性。高可靠性: Hadoop/HBase 维护多个数据副本,确保能够针对失败的节点重新分布处理,其备份恢复机制以及计算任务监控机制保证了分布式处理的可靠