1 / 20
文档名称:

ETL数据抽取实施方案简介.doc

格式:doc   大小:724KB   页数:20页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

ETL数据抽取实施方案简介.doc

上传人:花双韵芝 2022/6/25 文件大小:724 KB

下载得到文件列表

ETL数据抽取实施方案简介.doc

文档介绍

文档介绍:ETL数据抽取实施方案简介
图1
ETL抽取方案
ETL过程中的主要环节就是数据抽取、数据变换和加工、数据装载。
为了实现这些功能,ETL工具会进行一些功能上的扩大,比方工作流、
调换引擎、规则引擎、脚本支持、统计信息等。
数据抽取
数据抽取是从数据源中抽取数据的过程。本质应用中,数据源很多
采用的是关系数据库。
从数据库中抽取数据一般有以下几种方式:
全量抽取
全量抽取近似于数据迁移或数据复制,它将数据源中的表或视图的
数据纹丝没动的从数
据库中抽取出来,并变换成自己的ETL工具可以识其他格式。全量
抽取比较简单。
4
ETL数据抽取实施方案简介
增量抽取
增量抽取只抽取自前一次抽取以来数据库中要抽取的表中新增或更正
的数据。在ETL使用过程中,增量抽取较全量抽取应用更广。怎样捕捉
变化的数据是增量抽取的要点。对捕捉方法一般有两点要求:正确性,
可以将业务系统中的变化数据按必然的频率正确地捕捉到;性能,不可以
对业务系统造成太大的压力,影响现有业务。目前增量数据抽取中常用
的捕捉变化数据的方法有:
触发器方式(又称快照式)
在要抽取的表上成立需要的触发器,一般要成立插入、更正、删除
三个触发器,每当源表中的数据发生变化,就被相应的触发器将变化的
数据写入一个临时表,抽取线程从临时表中抽取数据,临时表中抽取过
的数据被标记或删除。
优点:数据抽取的性能高,ETL加载规则简单,速度快,不需要修
改业务系统表结构,可以实现数据的递加添载。
缺点:要求业务表成立触发器,对业务系统有必然的影响,简单对
源数据库组成威胁。
时间戳方式
它是一种基于快照比较的变化数据捕捉方式,在源表上增加一个时
间戳字段,系统中更新更正表数据的时候,同时更正时间戳字段的值。
当进行数据抽取时,经过比较前一次抽取时间与时间戳字段的值来决定抽
取哪些数据。有的数据库的时间戳支持自动更新,即表的其他字段的数
据发生改变时,自动更新时间戳字段的值。有的数据库不支持时间戳的
5
ETL数据抽取实施方案简介
自动更新,这就要求业务系统在更新业务数据时,手工更新时间戳字段。
优点:同触发器方式相同,时间戳方式的性能也比较好,ETL系统
设计清楚,源数据抽取相对清楚简单,可以实现数据的递加添载。
缺点:时间戳保护需要由业务系统完成,对业务系统也有很大的倾
入性(加入额外的时间戳字段),特别是对不支持时间戳的自动更新的数
据库,还要求业务系统进行额外的更新时间戳操作;其他,无法捕捉对
时间戳从前数据的delete和update操作,在数据正确性上碰到了必然
的限制。
全表删除插入方式
每次ETL操作均删除目标表数据,由ETL崭新加载数据。
优点:ETL加载规则简单,速度快。
缺点:对于维表加外键不适应,当业务系统产生删除数据操作时,
综合数据库将不会记录到所删除的历史数据,不可以够实现数据的递

最近更新

2024年博士自我介绍 18页

波特率自适应的CAN总线协议转换器的研究与设计.. 2页

北京交通大学2022年9月《城市轨道交通系统运营.. 7页

华医网新冠考试答案 22页

法务会计在企业财务活动中的作用研究的综述报.. 2页

2024年单位授权委托书集合15篇 12页

2024年单位实习鉴定意见 27页

河南省城市表演性幼儿基本体操开展现状与对策.. 2页

沙漠油田公路路面结构与线形指标研究的综述报.. 2页

沃伦·巴菲特的投资思想及方法研究的综述报告.. 2页

汽车碰撞有限元数值建模及仿真的中期报告 2页

中医养生就是吃吗? 32页

2024年豆腐及豆制品工业化生产设备项目资金需.. 62页

人教版三年级数学下册专项训练(三)易错卷(有.. 5页

幼儿园电子屏疫情防范温馨提示标语 2页

数轴课件(集锦7篇) 3页

祖国迷人的风景有哪些 2页

高考化学首轮复习力抓五个方面 2页

上海市长宁区2024年中考二模数学试卷含答案2 9页

上海市松江区2024年中考数学二模(含答案) 8页

纪检安全首课谈话提纲 2页

100以内加减混合口算题(1800道) 20页

16g101平法图集钢筋连接方式搭接长度及相关规.. 6页

在建构游戏中提升幼儿深度学习能力的策略——.. 3页

医疗纠纷警医联动应急预案 3页

新城幼儿园《认识椭圆形》PPT课件 19页

基于FPGA的FFT算法的设计与实现 61页

球团配料计算(表格 公式) 3页