1 / 29
文档名称:

数据仓库ETL.ppt

格式:ppt   大小:510KB   页数:29页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据仓库ETL.ppt

上传人:rjmy2261 2018/6/18 文件大小:510 KB

下载得到文件列表

数据仓库ETL.ppt

文档介绍

文档介绍:数据抽取、转换、加载ETL

目录
ETL建模
ETL增量机制
ETL数据质量控制机制
ETL并行技术
ETL工作流模型
在ETL流程设计中,首先应该根据业务需求和相关数据源的结构建立概念模型,确定源数据库与目标数据库之间的映射关系,然后根据概念模型建立逻辑模型。
ETL概念模型
概念建模是整个ETL流程设计的最初阶段,在这个阶段,
ETL流程设计者的主要任务是搜集用户的需求,然后分析相关数据源的结构及其内容,确定抽取操作所使用的数据源。ETL概念模型主要是建立数据源与数据仓库的模式或者属性之间的映射关系,以及在映射过程所需要的转换和清洗操作。下面给出在本文中使用的几个ETL概念模型基本元素的定义:
转换(transform) 是从数据源到目标数据仓库属性映射过程中对数据进行必要的转换、清洗操作。它包括了数据清
洗/过滤操作与模式转换操作。
约束(ETL constrain) 对数据集合中的数据必须满足的某些条件进行建模的结果。
数据供应关系(provider relationship) 定义从数据源到目标数据仓库的属性之间的映射关系,以及中间可选的相关转换。
例子
下面以一个例子来说明ETL流程的概念建模。一家电子商务跨国企业,需要从中国和美国两个分公司的数据库抽取注册用户的信息到集中的数据仓库中进行分析,假设数据源和数据仓库中的模式如下:
(customerlD,name,citylD,cmail,date)
(cityID。)
(name,countryName,cilyName,email,date)
(,countryName,cityName,email,date)
对于这个ETL场景,可以建立如图1所示的概念模型。其中:Sl和s2表示数据源中的表,DSA表示中间数据库,DW表示目标数据仓库。
在上面这个例子中,为了保证目标数据仓库中数据的完整性,需要从Sl和s2两个数据源抽取数据,对它们执行并(union)操作。为了与数据仓库中事实表的模式一致,必须对S1中的customer表和city表执行外连接,而且还要将S2中
date属性的数据类型为日期格式(mm/dd/yyyy)转换成中国的日期格式(yy/mm/dd),还需要根据s2的其他属性组合(name、email)为S2表计算生成一个主键。其中,并运算、外连接运算以及日期转换属于概念模型中的转换transform),其他的操作如PK、SK则属于约束(ETL constrain)。
ETL逻辑模型
ETL概念模型并不是一个完整的工作流模型,它定义了数据源与目标数据仓库属性之间的映射关系以及中间必要的转换,但并不关注转换的语义以及执行顺序。
ETL流程的逻辑模型是一个以数据为中心的工作流模型,在逻辑建模阶段,ETL流程的设计者需要明确定义数据流所经过的各个活动的操作语义,并确定整个流程中各个活动的执行顺序。
活动(activity)是ETL工作流的基本执行单元,是ETL逻辑模型中一个重要元素。它定义了输入数据模式、输出数据模式、活动的操作语义以及活动的执行优先级。活动的操作语义定义了活动对输入数据所执行的操作,以及输入数据模式到输出数据模式之间的映射关系,可以使用SOL语言或者其他的形式化语言对语义进行描述,也可以使用ETL工具箱中的操作组件和相应的运行时参数进行表示。在一个ETL流程中,必须明确规定每一个活动的执行优先级,ETL流程中的任意两个活动,如果存在依赖关系,即一个活动的输入模式依赖于另一个活动的输出模式(不一定是相邻活动),那么,这两个活动构成严格偏序关系,可以确定其执行的先后顺序。一般情况下,在一个ETL流程中,抽取操作(extract)总是最先执行,加载操作(load)最后执行。

最近更新