1 / 9
文档名称:

ETL流程调度设计.doc

格式:doc   大小:18KB   页数:9页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

ETL流程调度设计.doc

上传人:xxj16588 2016/8/7 文件大小:18 KB

下载得到文件列表

ETL流程调度设计.doc

文档介绍

文档介绍:ETL 流程调度设计 ETL 流程及调度设计( ETL Schedule ) (PSP) ? ETL 调度的目标快速见效系统要抽取 39 家分行四个系统的数据进行加工处理,数据从下传文件到 ODS 库, ODS 库到 LDM ,再计算 PI 值和汇总 PI ,整个 ETL 处理过程需按一定步骤和满足某些条件进行, 某些关键的文件如汇率数据、机构表等都会影响整个 ETL 的处理,因此,快速见效的 ETL 处理流程将是一个比较复杂的过程。考虑到将来 ETL 处理的多样性和复杂性, 引入了 Job 的概念,将 ETL 处理过程分为一个一个的 Job , Job 可能是清洗\ 加载\ 转换,也可能是 PI 加工。为了对复杂的 ETL 处理过程更好的调度和监控,专门设计一个 ETL 调度系统。通过 ETL 调度系统的开发使用, 将清晰、高效地通过 Job 调度的方式处理快速见效的 ETL 过程。. ETL 调度功能说明调度维护 1) 调度系统参数维护,对调度系统的公共参数:期数、进程数、数据日期、本期开始日期和本期结束日期进行设置和修改。 2) 下传文件信息维护,维护所有区域的下传文件名称、文件状态、文件数据日期和对应区域的归属关系。 3) 作业步定义与维护,定义作业对应的实际 ETL 处理过程,生成作业编号, 定义作业类型和作业的驱动关系, 作业的运行所需要的条件。 4) 调度异常处理,对调度过程中出现的异常情况进行处理,提供错误查找、出错重跑功能。日志管理 1) 调度过程日志,管理记录调度中的主要过程和异常信息,如调度开始、调度完成、数据库操作异常和读写文件异常的日志。 2) Job 执行日志,管理记录 Job 执行信息的日志,提供该日志的查询、删除和执行状态重置功能。 3) Job 详细事件日志,管理记录 Job 执行中的详细事件(清洗记录条数、数据库具体操作情况) 的日志, 提供对日志的查询、删除操作。作业调度正常情况下的作业调度, 对整个 ETL 过程进行调度, 提供分段提交处理和自动提交处理功能。可调度的 Job 类型 1)C 程序(清洗), ETL 调度提供与 C 程序的接口,从而可以对 C程序进行调度。 2)用C 封装的 SQLLDR (加载) ,将 ORACLE SQLLDR 封装在 C 程序中进行调度。 3) PROC 程序(合并、转换) ,对合并和转换过程,调度提供相应的接口,从而对 ORACLE 的 PROC 程序进行调度。 4) 存储过程(转换) ,将存储过程封装在 PROC 程序中进行调度。 5) DataStage ( PI 加工) ,调度系统提供了与 DataStage 的接口,可以对 DataStage 各个种类的 Job 进行调度。 ETL 总体流程图? 作业步( ETL_Step )的功能类型及数据处理 0. 文件 FTP: 将各个分行的源业务系统( NLNS 、 SBS 、 NACS ) 的以预定的文件格式以 FTP 方式通过中行网络传输到 QUICK WIN 项目系统的 ETL 服务器。 1. 文件注册:0中 FTP 的源数据文件, 经过解压缩后, 必须在 QUICK WIN 项目系统中注册,只有经过文件注册过程后 QUICK WIN 项目系统才能确认“那些分行的源数据”已经正确到达, ETL 系统就可以相应的