文档介绍:数据仓库技术及其在银行业的应用
NCR Teradata 数据仓库事业部
目前,国内各个商业银行正面临着前所未有的激烈的市场竞争,而与此同时,随着中
国加入WTO,金融自由化、国际化的速度也正在逐渐加快。不久的将来,国内各商业银行
除了彼此之间相互竞争以外,还将迎接来自许多世界级外资银行的挑战。
利用先进的数据仓库技术建立集中的、包含详细交易数据的商业智能解决方案,已经
成为各大银行对内加强经营管理和决策支持,对外更好地了解客户需求,开发新产品或服务,
利用现有渠道对客户进行交叉销售,增加赢利能力,并在特定的业务领域提供差异化服务的
重要手段。
与前几年不同的是,大家目前都在谈论企业级数据仓库(Enterprise Data Warehouse),
对于数据集市的定位也基本形成共识,那就是数据集市应该从属于企业级数据仓库。所谓
EDW,基本的要求是整个企业能够共享统一的数据存储模型,为各级业务人员提供一致的
信息视图。实施时可以先按照需求的轻重缓急选择部分业务主题,然后逐步扩展到涵盖全部
业务。
本文对业界常见的两种EDW架构作了分析,并探讨了银行业数据仓库的应用体系。
一、两种主要的企业级数据仓库体系架构
集线器与车轮状结构的企业级数据仓库(Hub and Spoke)
“Hub and Spoke”(集线器与车轮状)结构EDW的逻辑结构如下图所示。
Transaction Systems
Operational Data Stores
Central store, Hub, Clearing house
Data Marts
之所以把这种结构称为“Hub and Spoke”,是因为中央数据库汇集了来自各业务处理
系统的数据,同时也负责向各从属数据集市提供信息,看上去象一个 Hub (集线器)一样。而
业务人员在进行数据分析与信息访问时将根据需要连接到不同的数据集市,这种交叉复杂的
连接看上去就象 Spoke(车轮辐条)一样。由于这样的关系,著名评估机构 Gartner Group 把这
种结构的数据仓库形象地称为“Hub and Spoke Data Warehouse”。
“Hub and Spoke”结构解决了企业内统一数据存储模型的问题,但从实际使用的角度
来看仍有比较严重的缺陷。主要体现在两方面:一是业务人员对信息的访问非常不方便,很
难进行跨数据集市或跨部门的信息分析。数据集市的存储模型需要根据预先定义的分析需求
进行规划和设计,业务人员根据分工到指定的数据集市上去访问相关信息。如果需求发生变
化,就需要对数据集市重新规划。这显然不能满足日益变化的市场需求。中央数据库只是起
统一数据存储和刷新数据集市的作用,一般不提供信息访问。另一个问题是每个数据集市都
需要相应的软硬件投入,当数据集市增加时,系统整体投资迅速增加,同时管理的复杂性也
随之增加。这些都意味着巨大的整体拥有成本 TCO(Total Cost of Ownership)。
为什么不直接访问中央数据仓库而非要设计一个数据集市层呢?主要原因在于当中央
数据库保存越来越多的数据、并发用户