文档介绍:华中科技大学
硕士学位论文
XML与数据清洗的研究
姓名:金煌
申请学位级别:硕士
专业:系统工程
指导教师:陈铁英
20040509
华中科技大学硕士学位论文摘要怯美刺岣呤葜柿康姆椒ā:痛蠖嗍疽谎正虹公司的信息化要求越来越迫切,其中一个很重要的方面就是企业数据的质量管理。为了支持正确决策,就要求所管理的数据可靠,没有错误,准确地反映企业的实际情况。因此,公司数据质量的管理正在获得越来越多的关注。随着姆⒄梗公司的业务部分在鲜迪郑虼藈数据清洗的重要性逐渐为人们所认识,本文主要从萸逑吹慕嵌燃右蕴教质葜柿抗芾淼奈侍狻本文由绪论,数据清洗理论,谑萸逑瓷系挠τ茫鏦系统数据清本文主要做了以下的几点工作:系统性地概述了数据清洗的实施流程及理论;分析了镅栽谑萸逑瓷系挠τ糜攀疲唤岷蟈技术提出了一种在低成进行数据清洗的框架;讨论距离函数在记录匹配上的应用;在前面工作基础上对正虹低呈萁辛耸匝樾郧逑础数据清洗是一个领域相关性非常强的工作,国内外的研究人员始终没有提出一个通用的自动化的数据清洗框架,所有关于该领域的研究都是针对特定领域数据的,通用的清理方案会受到越来越多的重视。而对于萸逑矗庥痔岢隽薠键的概念,完全有理由相信它们可以促进针对莸那逑矗绻叵当淼募关键词:数据清洗,镅裕叵凳菘猓ヅ渌惴数据清洗洗的设计和正虹低呈萸逑词导芙嵊胝雇霾糠肿槌伞数据集成中扮演了特殊的角色一样。
华中科技大学硕士学位论文甒..琗,,;,.琺瓼甌.,,.,甌籺瑃籶甇,、
指导教师签名:谲肢学位论文作者签名:触学位论文作者签名:仓砬不保密斫日期:耕年弱日期;扣乒年学位论文版面使用授权书独创性声明日期:枷≯年。年解密后适应本授权书。权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和本人声明所呈交的学位论文是我个人在导师指导下进行的研究二作及取得钓研究成果。尽我所知:除文中已经标距引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果:对本文的研究做出贡献的个人和集体,均已在文中已明确方式标明。本人完全意识到本声明的法律结果由本人承担。本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有借阅。本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。保密口,在本论文属于不保密凸∽胃朐谝陨戏娇蚰诖颉啊獭目日
⒌模谖颐遣斡氲亩谙钅恐卸怨镜腤查询系统重新进行了设计和实现。因此,两个系统之间的数据有整合的问题。在考虑萃掘的时候,必须考虑对两个系统的数据清洗问题。当然,由于两个檠低扯是基于关系数据库开发,可以直接应用关系数据库的数据清洗模型和方法来实现,但是一方面在很多情况下,数据清洗方并不能得到全部的数据,比如说,某个分公司的员工只能从霞焖鞯绞荩薹ɑ竦弥醒胧菘獾乃惺荩涣硪环矫婺壳越来越多的系统直接构建在支持际醯氖菘馍希踔林苯咏荽娣旁募校虼舜覺中获得数据越来越普遍。所以如果能够直接从趁上文件的一种表示方式迪謜内容的提取和清洗,对基于萃掘提供高质量的数据有重要意义。信息作为现代企业的宝贵资源,占据着重要的地位,成为科学管理的基础,正确决策的前提。目前大多数单位根据自己的业务特点和办公的需要,建立了一大批各自的业务处理系统和办公自动化系统,积累了大量的业务数据。而信息化建设呈现出“数据集中化,业务综合化,管理扁平化,决策科学化”的发展趋势,大多数过去遗留下来的异构的系统、应用、商务流程阱及数据源构成的应用环境已经不能满足这样的要求。企业往往要求立足于多年的数据和自身的核心业务,提出来建立数据仓库的败的一个重要原因是数据仓库中缺乏高质量的数据。现实世界中数据存在着质量问规划和实施方案。而对于一个数据仓库的成功,数据仓库中的数据是非常重要的。数据仓库项目失
华中科技大学硕士学位论文国内外研究现状现在国外的相关研究主要包括以下几个方面:删题,而“脏”数据又会带来很大的损失,所以有必要设计一些方法和工具用于评估数据质量状况和提高数据质量。数据清洗就是解决数据质量问题的一个关键步骤。【俊众所周知,数据仓库和知识发现已经从理论走向了实际的应用,世界科笠中%使用了数据仓库进行信息辅助决策。而数据清洗保证信息源的数据质量,从而保证了辅助决策的原始数据的正确性和准确性。没有数据清洗,很可能就会导致错误的决策,因此数据清洗是构建数据仓库和知识发现的必要因素。数据清洗又是一个领域相关性非常强的工作,国内外的研究人员始终没有提出一个通用的自动化的数据清洗框架,所有关于该领域的研究都是针对特定领域数据的,通用的清理方案会受到越来越多的重视。【【