1 / 57
文档名称:

【硕士论文】etl过程中的数据清洗技术研究与应用.pdf

格式:pdf   页数:57
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

【硕士论文】etl过程中的数据清洗技术研究与应用.pdf

上传人:phl0420371 2012/5/8 文件大小:0 KB

下载得到文件列表

【硕士论文】etl过程中的数据清洗技术研究与应用.pdf

文档介绍

文档介绍:沈阳航空工业学院硕士学位论文
摘要
数据的抽取、转换和装入是创建数据仓库系统的重要环节,它将组织机构内多元分
散的数据按照主题统一装载到数据仓库中,能够很好地解决组织机构内部数据一致性与
信息集成化问题。然而,程序的频繁运行难免会产生大量的“脏数据”,直接导致
数据仓库技术由于数据质量而不能产生理想正确的决策分析结果,因此数据在进入数据
仓库之前需要进行清洗。数据清洗技术一直是近年来数据仓库领域中的研究热点,其主
要任务是从原始数据集中去除不一致的和错误的数据。
首先描述了数据质量的基本概念、评价指标及分类等问题,在此基础上按照数据清
洗算法将脏数据划分为“独立型脏数据”、“依赖型脏数据”两类,并给出了相应的解
决方法。其次描述了清洗的基本定义及清洗环节,定义了层的数据清洗模型和在元
数据库中存储的清洗规则后,提出了一种自动清洗和人为清洗相混合的数据清洗策略
针对中文地址类信息的数据清洗问题,提出了基于特征字符的分词方案,并给出了
相应的分词算法。该方案将中文地址类信息按逻辑意义分为省、市、区、街及数字五组
信息,通过与元数据库中省、市、区的标准信息匹配保证了分词的准确性。
针对中文地址类相似重复记录的处理问题,建立了包含分词规则的元数据库,提出
了一种相似重复检测模型,并给出了利用可变权值策略计算中文地址类信息相似度的算
法。实验结果表明该方案能有效解决中文地址类重复信息的检测,提高了算法的执行效
率及检测精度。
关键词数据清洗相似重复记录特征字符分词可变权值
一一
沈阳航空工业学院硕士学位论文


, 翻
,
电泣,
触孔,
,
加姗,
而爪
,,
,
,
, ,
时,比

朋,
,
,,丫
,





又】



一一
沈阳航空工业学院硕士学位论文
第章绪论
数据清洗的意义
随计算机信息化技术的普及和发展,许多组织机构各部门的日常业务处理都采用了
计算机进行管理和运行。纵观信息管理的现状,大多数的组织机构都存在着多个异构系
统,其数据的组织和存储结构也各不相同,进而形成了“信息孤岛”、数据的唯一性和
实时性难以保证等问题。信息集成就是针对大量存在的“信息孤岛”现象,解决异构环
境中信息的正确性及实现信息的高效共享和交换的重要手段,而数据仓库技术正是解决
信息集成的有效方法。
数据仓库概念提出始于世纪年代初期。著名的数据仓库专家在其著
作《,》一书中给出了如下描述数据仓库是一个面向主题的、
集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策面向主题的数
据仓库不但为有效地支持组织机构经营管理决策提供了全局一致的数据环境,也为历史
数据、综合数据的处理提供了一种行之有效的解决办法,并最终为各级决策管理者提供
及时、准确、科学、有效地辅助决策依据。
数据的抽取、转换、装入时,是创建数据仓库系统的重要
环节,它能够很好地解决组织机构内部的数据一致性与信息集成化问题,它从所有异构
系统中采集数据,并对其进行高效的转换。在一个数据仓库项目中,约的工作量都
花费在阶段闭程序的频繁运行难免会产生大量的“脏数据”,如拼写错误、
重复信息、缺损数据等。有统计资料表明,数据错误大约占到总数据量的左右,因
此数据质量问题是制约数据仓库应用的“瓶颈”之一。如果数据质量达不到要求,将
直接导致数据仓库技术不能产生理想的结果,甚至会产生错误的分析结果,从而误导决
策。因此数据在进入数据仓库前必须进行清洗。
数据清洗技术归朗的研究一直是近年来研究的热点问题,它能够改进数
据质量,被广泛运用于决策支持系统和数据仓库系统中,其主要任务是从原始数据集中
去除不一致的和错误的数据目前,己有一些用于数据清洗的工具提供了功能强
大的软件平台,利用它们可以从各种数据源中对数据进行抽取、转换后加载到数据仓库
一一
沈阳航空工业学院硕士学位论文
中。然而由一些著名厂商开发的通用工具在具体实际应用中也有其不尽人意的地
方,主要体现在两个方面一是用固定不变的转换步骤对数据自动清洗显得力不从心
二是的主要目标是为提供服务,却缺少姓名、地址等信息的清洗。虽然,目
前己经陆续出现了一些针对姓名和地址类信息的清洗工具,但大多数是针对西文的数据
清洗,很少涉及中文地址类信息。
众所周知,地址类信息在数据仓库中出现的频率较高,并对于重复记录的检测及分
析处理起着非常重要的作用,因此中文地址类信息的数据清洗在实践中具有非常重要的
意义。基于上述两点考虑,本论文主要研究基于平台的

最近更新

2026年喀什职业技术学院单招综合素质考试题库.. 45页

2025年应天职业技术学院单招职业技能考试题库.. 43页

2025年景宁畲族自治县公开招聘专职社区工作者.. 51页

2026年国开电大城市管理学形考题库100道附答案.. 39页

2025年河南省周口市单招职业适应性考试题库附.. 43页

2025年海南医学院马克思主义基本原理概论期末.. 12页

2026年国开电大外国文学形考题库附答案(基础.. 40页

2026年地方病控制题库含完整答案【夺冠系列】.. 40页

2025年苏州大学应用技术学院马克思主义基本原.. 12页

2025年西安高新科技职业学院马克思主义基本原.. 12页

2026年天津财经大学珠江学院单招职业适应性考.. 45页

2026年学校廉政知识测试题(精练) 14页

2025广西中烟工业招聘40人历年题库附答案解析.. 35页

2026年安徽省六安市单招职业倾向性考试题库附.. 45页

2025河南新乡市金瀚学校招聘笔试参考试题附答.. 36页

2025浙江宁波市北仑区春晓街道招聘编外人员1人.. 50页

2026年崇左幼儿师范高等专科学校单招职业倾向.. 45页

2025贵州黔南州惠水县面向社会招聘城市社区工.. 50页

2025辽宁鞍山台安县乡村医生委托定向培养招录.. 36页

2026年干部提拔廉政知识测试题一套 14页

2026中国红十字会总会所属在京事业单位应届高.. 46页

2026年安徽审计职业学院单招职业适应性考试必.. 37页

药品生命周期评估模型-深度研究 37页

捕捞队捕鱼合作协议 6页

(DN1400球墨铸铁管)给水管道工程施工组织设计.. 46页

云南省普通高等学校毕业生登记表 9页

《易传》说卦传、序卦传、杂卦传(原文与译文.. 11页

《易传·说卦传》原文与译文 8页

《长方体、正方体的认识》导学案 4页

神奇花园儿童广播剧剧本 10页