文档介绍:文件编号:
数据抽取解决方案
起草部门:数据分析软件事业部
管理部门:数据分析软件事业部
撰写人:汤宇航
审核人:
批准人:
发布日期:
修订页
编号
章节
名称
修订内容简述
修订
日期
修订前
版本号
修订后
版本号
修订人
批准人
1
全文
2011-4-8
汤宇航
目录
1 引言 4
背景 4
编写目的 4
术语定义 4
条件与限制 5
参考资料 5
2 概述 5
3 数据抽取架构 5
数据抽取应用架构 5
数据抽取技术架构 7
4 总体抽取思路 8
5 初始抽取加载 10
实现技术 10
实施步骤 11
从生产系统数据层到集结区的初始抽取加载 11
从集结区到数据仓库的初始抽取加载 11
从生产系统数据层到数据仓库的数据初始抽取加载 11
6 增量抽取加载 12
实现技术 12
实施步骤 14
从生产系统数据层到集结区的增量抽取加载 14
从集结区到数据仓库的增量抽取加载 14
从生产系统数据层到数据仓库的数据增量抽取加载 14
7 数据聚集 14
8 数据清洗 14
9 平面文件数据加载 15
SQL*Loader(SQLLDR) 15
外部表 16
10 ETL性能 17
服务器资源及其配置 17
并行执行配置 18
日常管理 19
其他 20
引言
背景
在我们目前的数据分析项目中,数据抽取环节出现的问题比较多,特别是性能的问题比较突出,有些项目甚至一个晚上都不能完成抽取工作,极大影响第二天的正常工作。而出现这些问题的原因有可能是由于采取了不合理的数据流转过程,采用了与实际环境不相匹配的技术,也有可能是对抽取过程中的性能问题缺乏认识。
另外,我们缺少一个统一的数据抽取方案,没有超越具体的项目从总体上对抽取过程中涉及的各种子系统和它们之间的关系进行统一的整理。孤立的看每个具体的项目,都有其局限性,不利于发现问题,不利于为今后的项目提供参考和指导。
编写目的
通过本文档,总结以往项目的问题和经验,从总体上确定数据抽取解决方案,为今后项目提供指导。
术语定义
ETL
ETL是抽取、转换和加载的缩写,在这里表示数据从生产系统到数据仓库的中的整个操作步骤和流程。
生产系统
指产生数据的系统,数据在这些系统的各个业务环节中产生,是进行数据分析的数据源头,它为数据仓库提供原始的数据。包括CTAIS、防伪税控系统等。
数据仓库
本文中指的是公司的税务数据仓库,数据来源于各个生产系统,通过ETL过程抽取过来,在抽取过程中进行一系列转换、集成、清洗和聚集等操作。
数据仓库是所有项目的数据支撑,项目中所需的分析型数据全部来自于数据仓库,而不是直接从生产系统中获取。
集结区
集结区是对来自生产系统的数据进行加工的地方,是连接生产系统和数据仓库的桥梁。集结区只能由具有ETL权限的用户访问,一般不能由数据仓库用户访问,也即其中的数据不能作为数据源展现给数据仓库的用户。ETL用户在集结区中对来自生产系统中的数据进行各种加工(包括清洗、转换和集成等操作),并把加工后的数据加载到数据仓库中。
CTAS
CTAS是Create Table As Select的缩写。
代理键
代理键是指维度表中顺序和无业务含义的整数型主键。
自然键
自然键是指生产系统中的表的主键,通常具有一定的业务含义,由一个或多个字段组成。
条件与限制
本文所描述的内容中,数据库服务器都仅指Oracle系统的数据库服务器。
编写目的中也描述了,本文是对以往项目的总结。所以,在本文中没有考虑存在快照库的情况。其实这也不是什么问题,如果存在快照库,就相当于在生产系统和集结区之间多了一个子系统。只需把下文中关于生产系统的描述都理解为快照库即可。至于生产系统和快照库之间,利用数据复制工具就可以实现在两者之间的数据同步。
参考资料
《Oracle数据增量抽取解决方案》
《》
概述
在目前,最重要的事情就是通过对以往各个项目的数据抽取工作的总结,整理出一个最符合当前实际情况的数据抽取应用架构。梳理出整个数据抽取过程应该包括哪些子系统,理清数据如何在这些子系统之间流转。
同时,结合各个子系统的特点和数据处理的需求,为每个数据流转过程选用合适的技术方案,确定数据抽取的技术架构。
在架构之外,另一个决定数据抽取是否成功的因素是ETL性能。影响ETL性能的因素有很多,