1 / 15
文档名称:

etl-kettle学习交流.ppt

格式:ppt   大小:218KB   页数:15页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

etl-kettle学习交流.ppt

上传人:文库旗舰店 2018/6/26 文件大小:218 KB

下载得到文件列表

etl-kettle学习交流.ppt

文档介绍

文档介绍:ETL学****交流
姓名:王红松
2009年11月26日
1
目录



2
ETL,Extraction-Transformation-Loading的缩写,中文名称为数据抽取、转换和加载。
ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。
ETL是数据仓库中的非常重要的一环。它是承前启后的必要的一步。相对于关系数据库,数据仓库技术没有严格的数学理论基础,它更面向实际工程应用。所以从工程应用的角度来考虑,按着物理数据模型的要求加载数据并对数据进行一些系列处理,处理过程与经验直接相关,同时这部分的工作直接关系数据仓库中数据的质量,从而影响到联机分析处理和数据挖掘的结果的质量。
数据仓库是一个独立的数据环境,需要通过抽取过程将数据从联机事务处理环境、外部数据源和脱机的数据存储介质导入到数据仓库中;在技术上,ETL主要涉及到关联、转换、增量、调度和监控等几个方面;数据仓库系统中数据不要求与联机事务处理系统中数据实时同步,所以ETL可以定时进行。但多个ETL的操作时间、顺序和成败对数据仓库中信息的有效性至关重要。

3
ETL是数据抽取(Extract)、转换(Transform)、清洗(Cleansing)、装载(Load)的过程。是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。
信息是现代企业的重要资源,是企业运用科学管理、决策分析的基础。目前,大多数企业花费大量的资金和时间来构建联机事务处理OLTP的业务系统和办公自动化系统,用来记录事务处理的各种相关数据。据统计,数据量每2~3年时间就会成倍增长,这些数据蕴含着巨大的商业价值,而企业所关注的通常只占在总数据量的2%~4%左右。因此,企业仍然没有最大化地利用已存在的数据资源,以致于浪费了更多的时间和资金,也失去制定关键商业决策的最佳契机。于是,企业如何通过各种技术手段,并把数据转换为信息、知识,已经成了提高其核心竞争力的主要瓶颈。而ETL则是主要的一个技术手段。如何正确选择ETL工具?如何正确应用ETL?
目前,ETL工具的典型代表有:Informatica、Datastage、OWB、微软DTS……
4
数据集成:快速实现ETL
ETL的质量问题具体表现为正确性、完整性、一致性、完备性、有效性、时效性和可获取性等几个特性。而影响质量问题的原因有很多,由系统集成和历史数据造成的原因主要包括:业务系统不同时期系统之间数据模型不一致;业务系统不同时期业务过程有变化;旧系统模块在运营、人事、财务、办公系统等相关信息的不一致;遗留系统和新业务、管理系统数据集成不完备带来的不一致性。
实现ETL,首先要实现ETL转换的过程。它可以集中地体现为以下几个方面:
空值处理可捕获字段空值,进行加载或替换为其他含义数据,并可根据字段空值实现分流加载到不同目标库。
规范化数据格式可实现字段格式约束定义,对于数据源中时间、数值、字符等数据,可自定义加载格式。
拆分数据依据业务需求对字段可进行分解。例,主叫号 861084613409,可进行区域码和电话号码分解。
验证数据正确性可利用Lookup及拆分功能进行数据验证。例如,主叫号861084613409,进行区域码和电话号码分解后,可利用Lookup返回主叫网关或交换机记载的主叫地区,进行数据验证。
5
2. ETL数据转换系统能给客户带来什么
6
社会的需求和计算机技术的不断发展,人们开始对原来数据库中的数据进行再加工,形成一个综合的、面向分析的环境,以支持科学决策的产生。由此,数据仓库的思想、技术、产品逐渐开始形成。构建数据仓库的目的是要建立一种体系化的数据存贮环境,将分析决策所需的大量数据从传统的操作环境中分离出来,使分散的、不一致的操作数据转换成集成的、统一的信息,组织内不同单位都可以在单一的环境下,通过运用其中的数据与信息,发现全新的视野和新的问题、新的分析与想法,进而发展出制度化的决策系统,并获取更多经营效益。数据仓库提供用户用于决策支持的当前和历史数据,这些数据在传统的操作型数据库中很难或不能得到。
构建企业数据仓库,需要将企业中拥有的各种类型的数据经过必要的转化、整理后,定期的、批量的装载到数据仓库中。因为企业的数据来源多样,各种数据来源之间的规范并不完全一致,所以数据的转化、整理和装载需要有一套完整、功能强大的软件系统支撑,这就需要ETL工具。
ETL解决如下问题:
(1) 能够从各种不同的数据源中读取

最近更新

共享雨伞商业计划书 33页

2024年社区工作者考试必考1000题精品【名师系.. 292页

2024年演出经纪人考试必背1000题附完整答案【.. 275页

交往障碍小组工作计划书 33页

小学心理健康学校计划书 36页

2024年社区工作者考试必考1000题附完整答案(.. 293页

2024年社区工作者考试必考1000题精品有答案 295页

番茄创业计划书 33页

小区推广计划书 33页

2024年社区工作者考试必考1000题及完整答案【.. 295页

高尔夫球场的设计计划书 35页

餐饮商务计划书 33页

2024年社区工作者考试必考1000题附答案【a卷】.. 293页

2024年社区工作者考试必考1000题附参考答案(.. 294页

轮胎厂的生产计划书 36页

2024年社区工作者考试必考1000题含完整答案(.. 294页

2024年社区工作者考试必考1000题及答案【名师.. 295页

2024年社区工作者考试必考1000题【综合卷】 293页

2024年社区工作者考试必考1000题(考点提分).. 292页

2024年社区工作者考试必考1000题附答案【精练.. 292页

2024年社区工作者考试必考1000题附参考答案(.. 293页

绿色校园计划书 27页

北师大版八年级下学期生物学期中考试试卷 9页

吉林省松原市2024年七年级下学期期中生物试卷.. 9页

矿业类招生计划书 31页

2024年社区工作者考试必考1000题及完整答案(.. 295页

田径心理技能训练计划书 33页

山东省2022-2023年春季高考护理真题 8页

原神凝光用脚帮助旅行者 1页

01s302雨水斗图集 4页