1 / 93
文档名称:

数据仓库中ETL过程逻辑设计一种新方法.pdf

格式:pdf   页数:93页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据仓库中ETL过程逻辑设计一种新方法.pdf

上传人:beny00011 2015/11/12 文件大小:0 KB

下载得到文件列表

数据仓库中ETL过程逻辑设计一种新方法.pdf

相关文档

文档介绍

文档介绍:摘要
摘要
数据抽取、数据转换以及数据加载过程实现
把数据从业务系统抽取、转换、装载到数据仓库中,完成对业务
数据内容和结构变化分析决策的的整个过程,这是任何数据仓库工程不可缺少的
成功因素。
本文针对过程的逻辑设计,重点解决图像化、形式化建模和元数据管
理两方面问题。
数据仓库是多维数据库,是面向分析的信息系统。在数据仓库的过程逻
辑设计阶段,由于当前主要使用的针对关系型数据库和操作型
系统的传统设计方法存在局限性,本文提出一种新的数据映射图方法以建立图形
化、形式化的逻辑设计模型。同时,还对模型的管理系统进行了设计,以解
决对过程元数据提取、储存和利用的自动化问题,进一步支持设计人员对于
过程设计的定制、分析、改进和重用。
关键词数据仓库,,逻辑设计,方法
华南理工大学硕十学位论文
华南理工大学
学位论文原创性声明
本人郑重声明所呈交的论文是本人在导师的指导下独立进行研
究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文
不包含任何其他个人或集体己经发表或撰写的成果作品。对本文的研
究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完
全意识到本声明的法律后果由本人承担。
作者签名气跪日期年月日
学位论文版权使用授权书
本学位论文作者完全了解学校有关保留、使用学位论文的规定,
同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,
允许论文被查阅和借阅。本人授权华南理工大学可以将本学位论文的
全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫
描等复制手段保存和汇编本学位论文。
保密口,在—年解密后适用本授权书。
本学位论文属于
不保密口。
请在以卜相应方框内打“
作者签名曝日期年月日
导师签名夕将影一日期年月日
第一章绪论
第一章绪论
典型数据仓库〔和业务分析环境常常用信息供应
链或者是信息经济
来描述。这些比喻反映了在该环境中,信息从源头原始数据的提供
者流出,经过一系列的精化,最终产生信息产品〔的过程。
这些信息产品对于企业的决策者来说具有重大的战略价值
信息是现代企业的重要资源,是企业运用科学管理,决策分析的基础。随着
企业信息化的要求越来越迫切,数据仓库技术得到了应用和发展。企业信息技术
应用的重点向业务处理电子化、数据管理集中化、管理决策信息化等方向发展。
人们对企业现有的数据进行再加工,再组织,从而形成数据仓库一一一个综合的、
面向分析的决策支持环境。数据从业务系统流向数据仓库必须经过数据抽取
、数据转换数据加载等加工过程简称
这是构建数据仓库的一个重要环节。
数据仓库系统先天不足,其数据来自于处理事务的业务系统和外部数据源。
数据仓库与业务系统之间就需要搭建一座桥梁,以最小代价对日常业务操作
的源数据进行融合、清洗、聚集,然后转化为针对数据仓库而存储的决策支持型
数据,最后正确地加载到数据仓库中,完成对数据的内容和结构变化的整个过程。
根据和数据集成平台评估报告指出,在数据仓库项目中,
要占到整个数据仓库开发时间的
操作数据库与数据仓库分离,数据必须在不丧失源系统与目标系统完整性的
前提下,依照规则从操作数据库移动转换到数据仓库。在数据仓库分析设计阶段,
无论过程造成的情况多复杂,分析设计人员都必须能够检查支持数据仓库中
由汇总数据得出结论的源操作数据。
数据仓库的逻辑设计阶段上,分析设计人员关注两样工作用户需求的
收集和数据源分析。设计人员根据用户的需求建立数据仓库数据模型后,为了完
成的过程,实现把数据从业务系统系统中抽取,转换,装载数据到数据仓库
中,设计人员设计过程收集源系统,确定侮个事实表和维表的数据源,然
后根据数据仓库的模型格式与内容,去映射数据源,标定数据,把数据转换到数
据仓库的数据模型中。过程就象是在整个数据仓库项目中的一座“冰山”,
其中数据源和系统中都隐藏着许多的风险不同应用系统分散,缺乏一致性,整
合程度低等这些因素都影响整个项目的实施。过程的复杂性决定设计过程
中不仅只考虑数据仓库本身,还要了解数据源方面的信息,业务系统错综复杂的
业务规则,源系统的数据组织,企业业务系统变化等方面。根据用户的需求建立
华南理大学硕十学位论文
目标数据概念模型,不仅要完整地表现用户需要的数据与信息,还要清楚的表现
数据间的逻辑关系。根据需求收集源系统,记录他的数据源与格式,设计者了解
各个业务系统数据源的结构与内容,组织方式和数据的关联关系。然后根据映射
数据源,标定数据,根据规则转换到数据仓库的数据模型中,体现数据的来龙去
脉。而源与目标数据之间的映射是一种复杂的多对多