1 / 26
文档名称:

ETL开发规范.doc

格式:doc   大小:407KB   页数:26页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

ETL开发规范.doc

上传人:aideliliang128 2018/4/19 文件大小:407 KB

下载得到文件列表

ETL开发规范.doc

文档介绍

文档介绍:ID :LC-CMM-PE-TEMPLATE-22
中国电信省级经营分析概要设计规格书
(业务分册)
(V )
南京联创科技股份有限公司
文档信息
项目名称
XX项目
项目经理
XXX
文档编号:
LC-CMM-PE-TEMPLATE-22

文档变更记录
版本编号
版本日期
作者
说明

2003-11-11
XXX、XXX
初稿
审核
审核组织
审核代表
签字
时间
批准
批准组织
批准代表
签字
时间
目录
1 总则 4
概述 4
设计原则 4
统一设计、规范开发 4
数据获取和ETL处理 4
数据获取 4
ETL处理 5
数据存储 5
数据分表 5
数据分区 5
关于两个特征字段 5
2 ETL规范 6
数据处理规范 6
标识统一规范 6
数据分表命名规范 6
程序命名规范 6
日志规范 7
动态建表规范 7
参数规范 7
ETL模块划分 7
代码编写规范 8
编写目的 8
代码编写通用规范 8
SQL代码编写规范 11
C/C++编程规范 16
总则
概述
本规范定义联创科技在中国电信公司省级经营分析系统(PBI)项目中ETL相关的设计、建设基本原则和规范。
设计原则
本规范适用于联创科技股份公司省级电信经营分析项目ETL小组。
统一设计、规范开发
1、省级经营分析系统由于数据庞大,因此,在数据ETL上花费的工作量是巨大的,为了减轻系统负担,提高系统效率,繁杂的统一编码、统一维度标识等工作需要在数据进入数据仓库之前完成,仓库区之后只负责有限范围内的ETL工作。
2、省级经营分析的接口为文件接口,此时,需要建立规范、清晰的文件接口格式及数据传送协议。
3、对于编程工作,需要定制统一的开发模板,及开发说明及修改模板,以利于和测试、工程等后续环节的良好衔接。
4、ETL编程的模块划分将配合系统规划进行各模块的划分,清晰地体现出各个模块之间的依赖关系。并降低各模块之间的耦合,保证模块内的稳定性,和良好扩展性。
数据获取和ETL处理
数据获取
设计点和评估因子说明:
业务系统承载能力评估、网络承载能力评估、数据获取实时性需求、接口双方通讯机制与约定、接口数据的维护。
ETL处理
设计点和评估因子:
数据转换处理逻辑、重抽支持、性能评估
数据存储
数据分表
进行按时间的数据分割处理,目的是能够方便、可行地进行索引建立、提取业务数据片断,同时也为ETL重抽提供基本保障。
数据分区
分区实际上是数据分割技术更细节的延伸,对于省级经营分析系统来说,数据量庞大,对各地传送的数据,需要按地域进行分区以方便数据统计、ETL重抽。
关于两个特征字段
说明:数据仓库为所有的RECORDS(记录)设计了ETL_CYCLE_ID(ETL周期标识)和(ETL_TIME)记录实际加载时间两个特征字段,分别标识记录集合所属的ETL周期和记录的实际加载时间。
目的:
方便重抽处理
方便审核数据
例如:200308月的帐单实际在2003年10月01日加载至数据仓库,那么这批记录的ETL_CYCLE_ID赋值为200308,加载时间赋值为2003年10月01日。
ETL规范
数据处理规范
标识统一规范
省级经营分析的数据来源于各个系统,即使在数据接口之前就已将各个本地网之间的数据标识统一,但数据汇集之后,仍然难保证标识的一致性,因此,ETL小组约定,所有的标识均按以下规则进行数据转换:
所有标识位类型:VARCHAR2(30);
[地域编码(两位)]_[接口标识]_ [后缀补码];
后缀补码的约定为字符9;
数据分表命名规范
ETL的数据分表策略如下:

[模板表名]_[分割日期]
说明:分割日期可以为天、月、年,具体由处理周期及存储策略决定。分表在数据处理过程中直接生成。
程序命名规范
程序命名需要做到见名知义,程序名尽量起得清晰,通俗:
业务模块命名规则:
[程序属性简写]_[处理业务模块表名]
遵循以上规则,名称超过规范长度的,可以适当进行简写。
例如:
对后端集市_市话主叫统计表(TBM_LS_CALLING)进行ETL的函数,则函数名为:
F_TBM_LS_CALLING
对后端集市_市话主叫统计表(TBM_LS_CALLING)进行ETL的程序,则程序名为:
P_TBM_