1 / 10
文档名称:

ETL数据抽取实施方案简介.docx

格式:docx   大小:63KB   页数:10页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

ETL数据抽取实施方案简介.docx

上传人:万家乐书屋 2022/1/6 文件大小:63 KB

下载得到文件列表

ETL数据抽取实施方案简介.docx

文档介绍

文档介绍:ETL数据抽取实施方案简介
ETL数据抽取实施方案简介
1
ETL数据抽取实施方案简介
ETL数据抽取方案简介
目 录
ETL简介 3
ETL抽取方案 4
1. 数据抽取 4
2. 数据变换和加工 8
3. 数据装载 9
4. 时间戳方式 错误!不决义书签。
5. 全量删除插入方式 错误!不决义书签。
6. 全量比对方式 错误!不决义书签。
ETL数据抽取实施方案简介
ETL数据抽取实施方案简介
2
ETL数据抽取实施方案简介
ETL简介
数据集成是把不相同本源、格式和特点的数据在逻辑上或物理上有机
地集中,从而供给全面的数据共享,是企业商务智能、数据库房系统的
重要组成部分。ETL是企业数据集成的主要解决方案。
ETL中三个字母分别代表的是 Extract、Transform、Load,即抽取、
变换、加载。
(1)数据抽取:从源数据源系统抽取目的数据源系统需要的数据;
(2)数据变换:将从源数据源获得的数据依照业务需求,变换成目
的数据源要求的形式,并对错误、不一致的数据进行冲刷和加工;
(3)数据加载:将变换后的数据装载到目的数据源。
ETL作为成立数据库房的一个环节,负责将分布的、异构数据源中
的数据如关系数据、平面数据文件等抽取来临时中间层后进行冲刷、转
换、集成,最后加载到数据库房或数据集市中,成为联机解析办理、数
据挖掘的基础。现在越来越多地将 ETL 应用于一般信息系统数据的迁
移、交换和同步。一个简单 ETL流程如图1所示。
数据
文件

抽 转 加
其他
ETL数据抽取实施方案简介
ETL数据抽取实施方案简介
3
ETL数据抽取实施方案简介
临时
ETL数据抽取实施方案简介
ETL数据抽取实施方案简介
10
ETL数据抽取实施方案简介
图1
ETL抽取方案
ETL过程中的主要环节就是数据抽取、 数据变换和加工、数据装载。
为了实现这些功能,ETL工具会进行一些功能上的扩大,比方工作流、
调换引擎、规则引擎、脚本支持、统计信息等。
数据抽取
数据抽取是从数据源中抽取数据的过程。本质应用中,数据源很多
采用的是关系数据库。
从数据库中抽取数据一般有以下几种方式:
全量抽取
全量抽取近似于数据迁移或数据复制,它将数据源中的表或视图的
数据纹丝没动的从数
据库中抽取出来,并变换成自己的 ETL工具能够识其他格式。全量
ETL数据抽取实施方案简介
ETL数据抽取实施方案简介
5
ETL数据抽取实施方案简介
抽取比较简单。
ETL数据抽取实施方案简介
ETL数据抽取实施方案简介
10
ETL数据抽取实施方案简介
增量抽取
增量抽取只抽取自前一次抽取以来数据库中要抽取的表中新增或更正
的数据。在ETL使用过程中,增量抽取较全量抽取应用更广。 如何捕捉
变化的数据是增量抽取的要点。对捕捉方法一般有两点要求:正确性,
能够将业务系统中的变化数据按必然的频率正确地捕捉到;性