1 / 43
文档名称:

ETL流程、数据流图及ETL过程解决方案.ppt

格式:ppt   大小:957KB   页数:43页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

ETL流程、数据流图及ETL过程解决方案.ppt

上传人:我是药仙 2022/5/20 文件大小:957 KB

下载得到文件列表

ETL流程、数据流图及ETL过程解决方案.ppt

文档介绍

文档介绍:ETL流程、数据流图及ETL过程解决方案
ETL模式及比较
两种模式
异构
同构
模式比较的维度:
特点
环境
ETL模式-同构
ETL模式-异构
两种模式的比较-特点
异构(Asynchronous )以在源上,也可以在目标上。
数据转换过程只有一个步骤,一次性地完成导出和装载的工作。简化了设计和测试的过程,但是另一方面也降低了灵活性。
要求具备两套安全控制机制,对于源数据库有读权限,对于目标数据库有写权限。同时还需要有能够在源和目标服务器上有写文件的权限(用于存放中间文本文件和上传文件到目标服务器)。
与异构模式类似,也需要对于源数据库有读权限,对于目标数据库有写权限。但是抽取过程可以不需要源和目标服务器上操作系统级的文件管理权限。
两种模式的比较-环境
条件
异构(Asynchronous)
同构(Synchronous)
数据传输(Data transfer)
大数据量
小数据量
网络连接(Network connectivity)
广域网
局域网或者同一数据中心
源和目标在物理架构上是否属于不同的分布式环境

不是
抽取数据的复杂度(Complexity of data)
源中只包含了文本或数值类型的字段
源数据库中包含了图形类字段
◇ETL定义
◇模式及比较
◇ETL过程
◇问题分析
◇ 现状分析
目录
ETL过程
ETL过程:
数据抽取
数据清洗
数据转换
数据加载
ETL的问题
ETL过程-0层DFD
1层-数据抽取
1层-数据清洗
1层-数据转换
1层-数据加载
ETL过程-数据抽取
数据来源
文件系统,业务系统
抽取方式
根据具体业务进行全量或增量抽取
抽取效率
将数据按一定的规则拆分成几部分进行并行处理
抽取策略
根据具体业务制定抽取的时间、频度,以及抽取的流程
ETL过程-数据清洗
清洗规则:
数据补缺
对空数据、缺失数据进行数据补缺操作,无法处理的作标记
数据替换
对无效数据进行数据的替换
格式规范化
将源数据抽取的数据格式转换成为便于进入仓库处理的目标数据格式
主外键约束
通过建立主外键约束,对非法数据进行替换或导出到错误文件重新处理
转换规则
数据合并
多用表关联实现,大小表关联用lookup,大大表相交用join(每个字段加索引,保证关联查询的效率)
数据拆分
按一定规则进行数据拆分
行列互换
排序/修改序号
去除重复记录
数据验证:lookup,sum,count
实现方式
在ETL引擎中进行(SQL无法实现的)
在数据库中进行(SQL可以实现)
ETL过程-数据加载
实现方式
优点
缺点
时戳方式
在业务表中统一添加字段作为时戳,当OLTP系统更新修改业务数据时,同时修改时戳字段值
源数据抽取相对简单清楚,速度快,适合数据的增量加载
需要修改业务表中的数据结构,业务数据变动时工作量比较大,相对风险较大
日志表方式
在OLTP系统中添加日志表,业务数据发生变化时,更新维护日志表内容
不需要修改业务表中的数据结构。源数据抽取简单清楚,速度快,适合数据的增量加载
业务系统中更新记录日志操作麻烦
全表对比方式
抽取所有源数据,在更新目标表之前先根据主键和字段进行数据比对,有更新的进行update或insert
对系统表结构没有任何影响,管理维护统一,可以实现数据的增量加载
数据比对复杂,设计比较复杂,执行速度慢
全表删除插入方式
删除目标表数据,将源数据全部插入
ETL规则简单,速度快
对维表加代理健不适应,OLTP系统有删除数据时,不能在数据仓库体现被删数据,不能实现增量加载
◇ETL定义
◇模式及比较
◇ETL过程
◇问题分析
◇ 现状分析
目录
ETL执行时的异常处理
数据异常
将错误信息单独输出,继续执行ETL,错误数据修改后再单独加载
中断ETL,修改后重新执行ETL
原则:最大限度接收数据
环境异常
对于网络中断等外部原因造成的异常,设定尝试次数或尝试时间,超数或超时后,由外部人员手工干预
其他异常
例如源数据结构改变、接口改变等异常状况,应进行同步后,再装载数据
ETL设计规范
DI开发规范
ETL开发首要确定的是流程的执行顺序及条件;其次是具体表映射关系的定义,在数据库性能允许的情况下,应该尽可能使用sql语句进行处理
对于具体映射和流程的命名,应该以维护方便为前提:
映射:以目标表名命名
流程:以流程要实现的功能命名
不允许使用临时的SQL语句操纵数据库,必须编写好的SQL脚本或存储过程
限定手工干预只能运行某个流程,不允许运行单个过程
每一项手工操作必须留下记录
设计规范
SQL语句应书写规范,关键字全部大写

最近更新

2024年志愿者个人总结(精选44篇) 113页

2024年必备人生格言座右铭3篇 17页

2024年心痛的说说15篇 71页

小学五年级常用关联词专题 3页

杜泊羊生长期能量代谢规律及需要量研究的开题.. 2页

小学五年级修辞手法及阅读(含答案) (2) 5页

2024年心理健康教育活动教案(精选18篇) 43页

机场快速调动消防车上装部分主要单元的设计中.. 2页

朱彝尊“醇雅”词学思想研究的开题报告 2页

小学五年级 分数应用题练习题 10页

有限混合分布模型参数估计的EM算法及模拟的开.. 2页

有氧运动联合膳食控制对2型糖尿病大鼠血管内皮.. 2页

智能配电网网架结构和网络重构研究开题报告 2页

智能电网调度信息传输设备的设计与实现中期报.. 2页

2024年形容高兴的成语 7页

2024年形容看不透一个人的成语 4页

2024年形容悲伤的优美句子 12页

2024年形容失恋伤心的句子锦集30条 5页

2024年强制安全自查报告 35页

明暗,阴影与光晕在三维流管可视化下的应用效果.. 2页

明代宣府地区军事体系研究的开题报告 2页

小学三年级反问句改陈述句练习 (3) 3页

中铁国控中标株洲人防工程项目 5页

小学小学一年级看图写话田字格 11页

金木水火土年数表 2页

网吧消防安全应急预案(通用5篇) 18页

CJ-T 476-2015 建筑机电设备抗震支吊架通用技.. 12页

灌肠机保养手册 1页

创伤包扎教学课件 87页

中国白酒slogan大全 3页