1 / 14
文档名称:

数据质量管理解决方案.doc

格式:doc   大小:534KB   页数:14页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据质量管理解决方案.doc

上传人:文库旗舰店 2018/6/7 文件大小:534 KB

下载得到文件列表

数据质量管理解决方案.doc

文档介绍

文档介绍:数据质量管理解决方案
设计原则
对检核指标进行分类,按照大类归属,在每个大类下设定具体的数据质量检核指标,指标分类如下:
 
度量标准
度量标准定义
完整性
主要包括实体缺失、属性缺失、记录缺失和字段值缺失四个方面
及时性
指数据提取、传送、处理、装载、展现的及时和快速性
合法性
主要包括格式、类型、值域和业务规则的有效性
唯一性
指主键唯一和候选键唯一两个方面
一致性
指不同系统之间的数据差异和相互矛盾的一致性
准确性
一个数据值与设定为准确的值之间的一致程度,或与可接受程度之间的差异
 
平台架构设计
¤ 平台功能架构
 
 
逻辑架构中,将整个数据质量管理平台分成四个部分:
l 源系统层
l 存储层
l 功能层
l 表示层
¤ 平台应用架构
 
¤ 平台检核架构
 
 
 检核架构分为三个部分:
l 接口文件检核
l Reject文件检核
l 对业务指标/规则的检核
关键稽核指标设计
 
指标大类
指标小类
指标分类描述
技术指标完整性
接口文件指标
接口文件在传输过程中的完整性
数据记录指标
记录数
字段类指标
字段缺失
业务指标完整性
客户信息类
客户信息缺失
账户信息类
关键信息缺失
技术指标合法性
字段类指标
字段类型完整性
值域类指标
字段代码有效性
业务指标合法性
业务关系类指标
业务间关联关系检查
业务发展趋势类指标
业务指标趋势
技术指标及时性
数据传输指标
数据在传输过程中的及时率等
数据处理指标
数据的ETL处理及时率等
技术指标一致性
表间一致性
物理表主外键的检查
业务指标一致性
业务统计指标一致性
系统业务指标与源系统提供的业务指标的一致程度
业务指标准确性
业务指标区间
业务指标在给定范围内的准确度
唯一性
主键唯一性
表内主键唯一性
 1. 项目目标 
本着结合实际可执行和可实现的原则,分析目前企业存在的数据质量问题,本项目将目标分为两部分数据质量的分析和检测流程,数据质量的管理指导方案。
 分析与检测:着重于在数据的定义基础上,利用数据的逻辑和业务规则对数据质量进行检测和分析;
 改进与管理:着重于在数据的分析和检测基础上,利用其结果对数据,特别是源系统的数据管理提出改进意见,制定数据质量的管理制度; 
                 
2. 项目成效
可为改善企业数据质量提供参考依据和解决方案;
可为建立数据质量管理制度提供指导方案;
降低数据质量的维护成本,提高数据可信度;
用作主数据管理(CID,PIM),数据仓库,数据中心,数据管理等系统在建设中的参考;
 
3. 项目背景
目前企业存在多地区,多产品,多业务,多系统的环境,在数据信息,报表统计,业务分析和业务元定义上存在数据不一致,不完整,不统一以及不真实和不及时的情况,这样让业务人员,管理者,信息使用者存在误解,导致决策出现偏差,同时低下的数据质量往往造成开发出来的系统与用户的预期大相径庭,而在维护阶段,也出现维护成本不断上升,工作量加大,系统难以扩展。这样的情况急切等待数据质量管理的标准和指导方案.
 
4. 项目概要 
 
    深层剖析源数据,分析各个源系统的数据存储的结构,包括表数据,视图数据,Excel数据等以及计算公式,比较方式,查看数据方式等等,记录其相关性,定义业务元在各系统中的语义和与数据的关联,建立数据的一致性、完整性、唯一性和准确性的定义标准和业务关联规则,数据校验引擎利用其规则对数据进行校验,将校验结果按照准确到严重错误分成若干等级,针对不同的校验等级,对数据进行处理,需要人工处理的,必须提供相关的UI接口就行数据修正,或者发出预警,通知源系统需要更新的数据。 
同时将对数据校验结果进行分析,并输出相应的报表结果,管理者可根据报表分析,对源数据质量进行管理。 
    管理者对数据的管理反馈到源数据的数据质量上,影响下一次数据的校验,继续分析校验结果,依次循环,达到提高数据质量的效果,让数据的质量管理形成良性循环,逐步提高。 
  
5. 项目范围 
         
        本项目是针对企业在建设数据仓库,数据挖掘和数据中心中存在的数据质量问题提出的解决方案和指导评估标准,所以数据质量管理模型项目是 
     
数据质量管理规范和数据质量问题的解决方案,不是软件和产品,更不是数据模型和ETL模型; 
只针对重构数据和目标数据进行修改,而不对源数据进行修改; 
提供源数据的检测分析以及质量报告,不对业务模型进行分析; 
可以用作主数据管理,数据仓库和数据挖掘系统作为参考,但不