文档介绍:中国科学技术大学
硕士学位论文
面向数据集成的数据质量控制系统设计与实现
姓名:汤国华
申请学位级别:硕士
专业:计算机软件与理论
指导教师:黄涛
20070501
摘要数据集成技术为企业解决跨多平台,异构数据的集成问题提供了一条解决途径。数据集成系统可以把企业内部的各种相关数据资源进行集成、共享,为消除信息孤岛,也为企业的信息资源规划提供了可能。数据集成过程是一个从分布的数据源ㄊ菘狻⒂τ孟低车抽取数据,进行转换、集成和传输,以目标系统希望的数据形式加载到目标系统中的过程。在此过程中,数据质量控制是一个至关重要的基本组件和功能,它对“脏”数据进行屏蔽,防止“脏”数据进入目标系统,同时负责解决数据源之间模式关联和映射问题。在实际的数据集成过程中如果缺少对数据质量的有效控制,常常会导致集成过程的失败。“如何根据数据集成的特点,设计面向数据集成的数据质量控制系统,减少数据集成中的数据质量问题”是论文研究的重点。论文首先从数据集成过程的特点出发,讨论了数据集成过程中数据质量控制的特点和难点,确立了本论文关于数据集成中数据质量控制的研究方向,即:分别从模式集成和实例数据清洗两个方面进行数据质量控制问题研究。论文分别在模式集成和实例数据清洗两个层面提出了自动化和基于规则相结合的数据质量控制策略。在模式集成的研究中,论文提出了一种模式自动匹配算法用来辅助进行模式集成,并将模式转换和模式冲突检测结合到模式集成过程中。在实例数据清洗研究中,提出基于统计分析的异常数据自动检测方法。同时,提出了一种针对中文的相似重复记录的检测算法,能够有效地检测多语言的相似重复记录。在上述研究基础上,论文提出了基于规则的数据质量控制策略,通过用户自定义的模式集成规则、实例数据清洗规则,解决更多的模式冲突问题,提高实例数据清洗的准确率。最后,本文针对中的数据集成模型和体系结构设计数据质量控制子系统,在设计中通过设计模式的应用增加系统的关键词:数据质量,数据集成,模式集成,数据清洗了可扩展性。中国科学技术大学硕上学位论文籀要
猵,.瑃.,甶甀.’.:瑃..,:‘‘甇珼
作者签名:芘四赀洳稡中国科学技术大学学位论文相关声明本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的成果。除已特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作了明确的说明。本人授权中国科学技术大学拥有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。保密的学位论文在解密后也遵守此规定。
,与企业建设配套的信息化系统成了一项新的挑战,企业管理信息化成为是现阶段我国推进信息化工作的核心和重点。企业信息化存在以下特点:●企业需求的多样惶:企业需要及时地适应市场变化进行自身的组织调整和生产调整,这使得企业的信息系统很难找到一个统一的解决方案,·企业信息系统的多样性:软件来自不同的软件厂商,软件各具特点,●企业问协作的增多使企业面临原有不同的信息系统的整合问题。企业需要将各种数据集成起来,构成企业管理决策的网络信息平台。但是,各个企业、部门或机构由于业务和功能归属不同,因此往往缺乏统一规划,所采用的计算环境由不同平台组成,这些由不同核心技术构建的信息系统就像一个个“信息孤岛”。为实现各部门之间的协凋工作,就必须解决在各个环节之间普遍存在的数据集成,交换和部门协同的问题。而每个部门或单位就是一个数据源,每个数据源都是异构的,因而它们之问的信息和组织就构成了一个巨大而复杂的异构数据库环境下的数据集成和交换的问题。企业信息集成的驱动力源于企业内外客户需要把企业看成一个整体,需要统一的视图,从而消除信息孤岛,打通业务流程,加快企业的运行效率。异构数据集成为企业解决多平台、多结构数据的集成问题提供了一条解决途径。一方面,通过这样一个集成系统,可以把企业内部的各种相关数据资源进行整合,为企业的信息资源规划提供了可能,从而搭建起整个企业的信息平台。另一方面,数据集成在企业间整合分布的数据资源,为多种数据平台提供了一致的访问接口,使用户不必考虑数据模型的异构性,增强了企业间信息系统的互操作性。这两个方面的数据集成使企业能够有效地对数据进行统计分析,对企业的正确决策起到了重要的推动作用。为了达到异构数据源集成,首先要解决模式集成问题。在数据集成领域中,由于数据源系统多是独立开发的,数据源是相当自治的,因此描述数据的数据模型或存储结构经