1 / 58
文档名称:

Web数据集成中数据清洗关键问题研究.pdf

格式:pdf   页数:58页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

Web数据集成中数据清洗关键问题研究.pdf

上传人:1322891254 2014/9/9 文件大小:0 KB

下载得到文件列表

Web数据集成中数据清洗关键问题研究.pdf

文档介绍

文档介绍:摘要检测相似重复记录,并引入多趟查找算法,实验表明此算法能快速准确检测重复随着姆伤俜⒄梗缪杆俪晌R恢种匾5男畔⒋úズ徒换坏氖段,在铣鱿至朔岣坏氖葑试础NA烁玫氖迪諻信息的共享,数据集成已经成为数据管理及相关方向中一个热门的课题。另一方面,由于数据源半结构化、自治性和更新快的特点,使得集成数据中含有大量的“脏数据”,这严重影响了集成数据的可信度和可用性,因此对菁傻男畔⒔惺据清洗是给研究者提出的一个新的挑战。基于以上分析,本文主要进行了数据集成中数据清洗的关键问题研究。本文首先介绍了数据清洗的基本原理、相关定义、操作流程以及评估标准和目前使用的工具存在的不足。接着介绍了数据清洗的相关技术,研究了不完整数据,异常数据和重复记录的清洗方法和流程。在分析现有重复记录检测算法的基础上,本文提出基于权值分级的相似重复记录检测算法。根据等级法计算每个字段的权值,按照分级思想,选择某关键字段或字段某些位将人数据集分割成许多不相交的小数据集,再在各个小数据集中记录。最后,本文根据菁芍蠾数据的特点,给出了基于氖清洗框架,该框架主要是利用氐悖赬对数据库映射的同时进行数据清洗的预处理,即对数据进行元素化,标准化,提高数据清洗的效率。利用前面研究的重复记录清洗的算法,对畔⒊槿『蟮氖萁辛酥馗醇锹嫉募测,并根据实验结果进行了相关分析。关键词:数据集成;数据清洗:重复记录检测;ù笱妒垦宦畚
瑃,甌瓼琖,,—ù笱妒垦宦畚:,.‘‘”.,;,琧琤琣甌Ⅱ
.籜ù笱妒垦宦畚,琣琣.:;籇
避导师签竺ɡ既原创性声明关于学位论文使用授权的声明原创性声明和关于论文使用授权的说明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研究做出重要贡献的个人和集体,均己在文中以明确方式标明。本声明的法律责任由本人承担。论文作者签名:本人完全了解山东大学有关保留、使用学位论文的规定,同意学校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅;本人授权山东大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段保存论文和汇编本学位论文。C苈畚脑诮饷芎笥ψ袷卮斯娑期:
第一章绪论研究背景因此数据清理是构建数据集成系统甚至数据挖掘的必要因素。如何有效地保证数洗的相关理论和技术,在实施菰醇傻墓讨校檬萸逑醇际趵随着的飞速发展,网络迅速成为一种重要的信息传播和交换的手段,在铣鱿至朔岣坏氖葑试础U庑┳试床唤霭ù车氖菘猓绻系数据库和面向对象数据库,还包括嫌τ霉惴旱腍琗等半结构化资源。为了更有效的利用这些数据,需要在一个统一的平台上对这些数据进行集成和访问。但是,由于这些数据分布在不同的服务器站点上,各数据源采用本地策略对数据实施操作,并且各数据源采用不同的存储方式,以及使用不同的概念、属性和关系来表达数据,造成了多层面的数据共享与互操作的困难。因此如何将上多个分布异构数据源集成在一起,可以进行灵活的互操作,是目前急需解决的问题【¨。菁杉际蹩梢宰远覹上获取数据,然后集成为用户所关心的有效信息,并在此基础上实现高效的查询、检索和比较,乃至数据挖掘、知识发现等应用。但是由于莸奶氐悖覹上得到的数据中有可能存在着大量的脏数据创嬖谑葜柿课侍狻】K侵饕1硐治#浩葱次侍狻⒙既氪砦蟆不合法值、空值、不一致值、简写、同一实体的多种表示馗、不遵循引用完整性等【。由于“垃圾进、垃圾出’’谑菁上统中,必须对数据进行清理。数据清理保证信息源的数据质量,从而保证了辅助决策的原始数据的正确性和准确性。没有数据清理,很可能就会导致错误的决策,据质量是关系到信息抽取和数据挖掘是否成功的问题,对此问题解决方案的探讨己经成为当今软件技术的一个新的研究热点。针对于上述背景下菁芍械氖葜柿课侍猓疚闹饕Q芯渴萸消除各种脏数据,从而实现保证数据质量的目标。ù笱妒垦宦畚,
研究现状客户关系管理等在理论和应用上都获得了极大的发展,但数据清洗作为其重要数据清洗的相关研究最早可追溯到年【。自那时起,合并来自不同数实例识别【俊⒍韵笫侗稹等问题米研究,它们曾是医疗、商业、税务领域中的研尽管目前数据集成、数据仓库、、的、必不可少的组成部分,直接针对这方面的研究并不多,国内外有关数据清洗技术的研究现状概述如下:.庋芯肯肿据源的数据一直被认为是一个重要而困难的问题,这些问题被作为记录连接究重点,在流行病的研究、欺骗检测等方面都起到重要作用,可以将这些研究看作数据清洗的源头。近年来,随着信息化的进展,国外开始系统地研究数据清洗问题。主要成果可分类如下:特殊域清洗特殊域清洗工具主要解决某类特定应用域的数据清洗问题,大多数是姓名和地址数据。比如:根据概率统计学原理查找数值