文档介绍:金融大数据平台项目筹划
金融大数据服务平台
项目筹划书
北京XXXXX技术有限公司
研发中心
一..
项目简介
项目背景银行业始终是一种数据驱动的行业,数据也始终是银行信息化的专项词。银行的信昂贵的高档服务器,因此具有较好的性价比。Hadoop集群将数据分片发送至多种节点保存,因此具有极高的容错性。
l数据预解决采集到金融数据来自多种数据源,大多存在着不完整性和不一致性,无法直接用于数据挖掘或严重影响数据挖掘的效率。因此在进行数据挖掘之前,通过使用数据预解决工具,灵活对原始数据的清理、变换、集成等解决,可以减少挖掘所需数据量,缩短所需时间,并极大提高数据挖掘的质量。
l数据挖掘数据挖掘是通过度析数据、从大量数据中谋求其潜在规律的技术。运用估计、关联、分类、聚类、时序分析等技术,数据挖掘可以从海量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不懂得的、但又是潜在有用的信息和知识。目前,老式的数据挖掘产品在大数据平台上还存在部分局限性,研发一套Hadoop平台下的数据挖掘工具是一项极具挑战性的任务。
l可视化呈现数据挖掘得到的成果,往往数据量巨大、关联关系复杂、维度多和双向互动需求等。可视化呈现工具以适合人类思维的图形化的措施对成果进行展示,提高了数据的直观性和可视性。可视化呈现面向各类顾客,通过选择合适的可视化模型,将枯燥的数据转换为令人印象深刻的美丽图形,极大提高了数据的运用价值。
l业务实现“金融大数据服务平台”的效果,最后需要集成在各类金融业务系统中才干得以体现。目前拟建设的金融业务系统有:精确营销系统、统一广告发布系统、业务体验优化系统、顾客流失分析系统、风险分析系统等。
三..
项目目的
实行针对银行的“金融大数据服务平台”项目,通过采集银行内部和外部、静态和动态的各类金融数据,搭建适于大数据寄存和分析的Hadoop集群,对金融数据采用合适的预解决措施,运用数据挖掘技术得出隐藏在海量数据后的、有价值的潜在规律,以丰富的可视化模型向顾客进行呈现,在此基本上实现精确营销、统一广告发布、业务体验优化、顾客综合管理、风险控制等金融业务应用。由此,提高金融业务的水平和效率,推动银行业务创新,减少银行管理和运营成本。
本项目的具体技术目的涉及:
开发金融数据采集工具:大数据分析需要收集来自银行内部的和外部的、静态的和动态的多种金融数据,为此开发各类金融数据采集工具,如动态采集SDk、日记提取分析工具、外部数据导入工具等。
搭建Hadoop大数据集群:搭建Hadoop大数据集群,是建设“金融大数据服务平台”的基本。运用多台性能较为一般的服务器,构成一套基于HDFS和map-Reduce机制的集群,并根据需要在其上安装Hive、HBase、Sqoop、Zookeeper等软件。
实现分析挖掘算法:支持Hadoop的分析挖掘算法,是“金融大数据服务平台”的一种核心构成部分。在运用老式数据挖掘技术的基本上,实现涉及抽象的数学算法(如关联算法、分类算法、聚类算法、时序分析算法等),和在此基本上针对金融业务的专业算法(如顾客行为特性模型、效果分析模型等),作为进一步构建抽象模型和金融专业模型的基本。
构建分析挖掘模型:支持Hadoop的分析挖掘模型,是“金融大数据服务平台”的另一核心构成部分。在上一步基本上,迅速构建抽象的数学模型(如神经网络模型、事物关联模型等),和针对金融业务的专业模型(如精确营销模型、广告效果评估模型等)。
实现ETL工具:数据预解决也是“金融大数据服务平台”需要解决的问题之一。运用市场上已有的数据预解决成果,研发一种支持Hadoop的ETL工具,实现涉及规范化、数据抽样、数据排序、汇总、指定因变量、属性变换、数据替代、数据降维、数据集拆分、离散化等功能。
实现可视化呈现工具:“金融大数据服务平台”上的分析成果将核心采用丰富多彩的可视化形式向顾客进行可视化呈现。运用市场上已有的有关技术和产品,研发一种可视化呈现工具,可以支持:分类树图、视觉聚类图、关联图、序列图、回归图等多种可视化形式。
实钞票融业务应用:将分析挖掘的成果集成到具体的银行业务系统中,如精确营销系统、统一广告发布平台、业务体验优化系统、顾客综合管理系统、风险控制系统等。具体措施既可以是实现某个独立的新业务系统,也可以是在既有系统中实现一种或多种新模块,从而扩大或提高原有的功能。
本项目的具体业务目的涉及:
精确营销:综合分析顾客行为特性信息和金融业务分类信息,可以得到顾客最有也许感爱好的业务和业务最有也许的潜在顾客群,以此为基本有针对性地开展营销;统一广告发布:分析广告效果