1 / 42
文档名称:

ETL流程数据流图及ETL过程解决方案学习教案.pptx

格式:pptx   大小:506KB   页数:42页
下载后只包含 1 个 PPTX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

ETL流程数据流图及ETL过程解决方案学习教案.pptx

上传人:wz_198613 2021/11/21 文件大小:506 KB

下载得到文件列表

ETL流程数据流图及ETL过程解决方案学习教案.pptx

文档介绍

文档介绍:会计学
1
ETL流程(liúchéng)数据流图及ETL过程解决方案
第一页,共42页。
ETL定义(dìngyì)
ETL定义(dìngyì)涉及以下内容:
ETL定义(dìngyì)
ETL前提
ETL原则
第1页/共42页
第二页,共42页。
ETL定义(dìngyì)
定义:
数据的抽取(Extract)、转换(Transform)、装载(Load)的过程
目标:
数据优化。以最小代价(包括对日常操作的影响和对技能的要求) 将针对日常业务(yèwù)操作的数据转化为针对数据仓库而存储的决策支持型数据
第2页/共42页
第三页,共42页。
ETL的前提
确定ETL范围
通过对目标表信息的收集(shōují),确定ETL的范围
选择ETL工具
考虑资金
运行的平台、对源和目标的支持程度、可编程的灵活性、对源数据变化的监测、数据处理时间的控制、管理和调度功能、对异常情况的处理
确定解决方案
抽取分析、变化数据的捕获、目标表的刷新策略、数据的转换及数据验证
第3页/共42页
第四页,共42页。
ETL过程中应尽量遵循以下原则:
应尽量利用数据中转区对运营数据进行预处理。保证(bǎozhèng)数据的安全性、集成与加载的高效性。
ETL的过程应是主动“拉取”,而不是从内部“推送”,其可控性将大为增强。
流程化的配置管理和标准协议
数据质量的保证(bǎozhèng)
正确性、一致性、完整性、有效性、可获取性
第4页/共42页
第五页,共42页。
◇ETL定义(dìngyì)
◇模式及比较
◇ETL过程
◇问题分析
◇ 现状分析
目录(mùlù)
第5页/共42页
第六页,共42页。
ETL模式(móshì)及比较
两种模式
异构
同构
模式比较的维度:
特点(tèdiǎn)
环境
第6页/共42页
第七页,共42页。
ETL模式(móshì)-同构
第7页/共42页
第八页,共42页。
ETL模式(móshì)-异构
第8页/共42页
第九页,共42页。
两种模式(móshì)的比较-特点
异构(Asynchronous )
同构(Synchronous )
比同构模式提供了更好的数据处理性能,需要更少的处理时间,因为通过网络传输文件的速度比直接通过数据库存取数据要快很多。
要避免性能瓶颈问题,解决办法是缩小每次抽取的时间粒度,例如将抽取周期定为每日抽取,这样可以保证每次抽取的增量数据数目是很少量的。
在数据抽取过程中,应尽量避免本次抽取定义的时间区间内的源数据在抽取过程中同时产生变动的情况。即抽取的理想状况是抽取的同时源数据系统的数据是静止的,没有增、删、改的情况伴随发生。对于ODS系统来说,数据不会频繁地发生变动;而对于OLTP系统来说,应该选择源数据变化较少的时段完成抽取工作。
与异构方式类似,应避免抽取时间区间和源数据系统的生产时段相重合。如果源数据系统时刻都有新数据插入,一种解决办法是设置一个时间区间,定义每次抽取的开始和结束时间值:本次抽取的开始时间为上次抽取的结束时间,本次抽取的结束时间为机器系统时间(Sysdate)或者是目前数据库系统中已有记录的最大时间戳值。实际上就是定义某个时间区间内的源数据的快照(Snapshot),这样就可以避免重复装载的情况发生。除此之外,还应该充分考虑源和目标两套数据库系统的Down机的时间因素。
需要两套ETL包,一个用来抽取,一个用来装载,两个包都需要由专门的系统管理人员监视是否装载过程会发生错误。
只需要一个ETL软件包。系统管理人员也只需要监视一套系统。
源和目标之间没有直接的联系。只要中间过渡的文本文件结构不发生变化,源和目标的结构即使改变而不会对ETL流程产生很大的影响。
源和目标的关系是被绑定在具体的映射中的。当源或者目标的结构发生变化,相对应的映射也要做修改。
第9页/共42页
第十页,共42页。