1 / 10
文档名称:

ETL数据抽取实施方案简介.docx

格式:docx   大小:60KB   页数:10页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

ETL数据抽取实施方案简介.docx

上传人:春天的故事 2022/2/17 文件大小:60 KB

下载得到文件列表

ETL数据抽取实施方案简介.docx

文档介绍

文档介绍:精品文档
精品文档
1
精品文档
ETL数据抽取方案简介
目 录
ETL简介 3
ETL抽取方案 4
1. 数据抽取 4
2. 数据转换和加工 8
3. 数据装载 9
4. 时TL操作均删除目标表数据,由 ETL全新加载数据。
优点:ETL加载规则简单,速度快。
缺点:对于维表加外键不适应,当业务系统产生删除数据操作时,
综合数据库将不会记录到所删除的历史数据,不可以实现数据的递增加
载;同时对于目标表所建立的关联关系,需要重新进行创建。
全表比对方式
全表比对的方式是 ETL工具事先为要抽取的表建立一个结构类似
的临时表,该临时表记录源表主键以及根据所有字段的数据计算出来,
每次进行数据抽取时,对源表和临时表进行的比对,如有不同,进行
Update 操作,如目标表没有存在该主键值,表示该记录还没有,即进
行Insert操作。
优点:对已有系统表结构不产生影响,不需要修改业务操作程序,
精品文档
精品文档
9
精品文档
所有抽取规则由ETL完成,管理维护统一,可以实现数据的递增加载,
精品文档
精品文档
10
精品文档
没有风险。。
缺点:ETL比对较复杂,设计较为复杂,速度较慢。与触发器和时
间戳方式中的主动通知不同,全表比对方式是被动的进行全表数据的比
对,性能较差。当表中没有主键或唯一列且含有重复记录时,全表比对
方式的准确性较差。
日志表方式
在业务系统中添加系统日志表,当业务数据发生变化时,更新维护
日志表内容,当作ETL加载时,通过读日志表数据决定加载那些数据及
如何加载。
优点:不需要修改业务系统表结构,源数据抽取清楚,速度较快。
可以实现数据的递增加载。
缺点:日志表维护需要由业务系统完成,需要对业务系统业务操作
程序作修改,记录日志信息。日志表维护较为麻烦,对原有系统有较大
影响。工作量较大,改动较大,有一定风险。
Oracle变化数据捕捉(CDC方式)
通过分析数据库自身的日志来判断变化的数据。 Oracle的改变数据
捕获(CDC,ChangedDataCapture)技术是这方面的代表。 CDC特
性是在Oracle9i 数据库中引入的。CDC能够帮助你识别从上次抽取之
后发生变化的数据。利用CDC,在对源表进行insert、update 或delete
等操作的同时就可以提取数据,并且变化的数据被保存在数据库的变化
表中。这样就可以捕获发生变化的数据,然后利用数据库视图以一种可
精品文档
精品文档
11
精品文档
控的方式提供给目标系统。 CDC体系结构基于发布/订阅模型。发布者
精品文档
精品文档
10
精品文档
捕捉变化数据并提供给订阅者。订阅者使用从发布者那里获得的变化数
据。通常,CDC系统拥有一个发布者和多个订阅者。发布者首先需要
识别捕获变化数据所需的源表。然后,它捕捉变化的数据并将其保存在
特别创建的变化表中。它还使订阅者能够控制对变化数据的访问。订阅
者需要清楚自己感兴趣的是哪些变化数据。一个订阅者可能不会对发布
者发布的所有数据都感兴趣。订阅