文档介绍:挂林理工大学基于的重复数据删除技术的研究与应用硕士研究生学位论文专研究方向:研究生:指导教师:计算机应用技术网格计算与云计算曹英忠谢晓兰副教授业:密级:编号:呈论文起止日期:月至月
篊:.篏
篊篏:.
●●鯰■’。‘.·
学位论文作者┳:鲢堡研究生学位论文独创性声明和版权使用授权书签字日期:五垒:鱼:Ⅳ日学位论文版权使用授权书独创性声明本人声明:所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。完成提供过帮助的有关人员己在论文中作了明确的说明并表示谢意。本学位论文作者完全了解有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的印刷本和电子版本,允许论文被查阅和借阅。本人授权据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含他人己经发表或撰写过的研究成果,也不包含为获得其它教育机构的学位或证书而使用过的材料。对论文的校梢越宦畚牡娜ú炕虿糠帜谌荼嗳胗泄厥菘饨屑焖鳎梢圆捎糜坝⑺跤或扫描等复制手段保存、汇编学位论文。同时授权中国科学技术信息研究所将本学位论文收录到《中国学位论文全文数据库》,并通过网络向社会公众提供信息服务。C艿学位论文在解密后适用本授权书
对架构的两个核心技术——皿分布式文件系统与喑棠P徒摘要平台。本文主要从如何提高数据质量,保证高质量记录这个角度出发,并以此为目的,的分布式计算框架是开源的,此外,它的稳定性和运算效率都比较高、运行成数据删除这一解决数据质量的技术成为了研究的重点。本文主要专注于重复数据删除。为基础,将数据根据关键字段进行排序,经过一次聚类处理后,再用单机模式对第一次最后,针对本文所做的工作提出了几点不足,并提出了可以对其进行改进和研究的关键词:,重复数据,数据删除随着晶体管电路越来越接近物理上的性能极限,摩尔定律己经变得失效了,尽管如此,也不能把对大规模数据的处理的希望都寄托在越来越大型的服务器上。假如我们将现有的很多中低端的/商用的机器进行组合起来,构成一个具有专一功能的分布式系统,对大型数据的处理问题就迎刃而解了。分布式计算近年来的发展飞速,平台的成熟与稳定成为了使用最为广泛的在分布式框架基础上设计并实现了一个对重复数据进行删除的平台。本文采用本低廉、兼容性好,扩充力高,并且采用的疪喑棠P头浅J视糜诒疚乃的研究。如今是信息高速发展的年代,不管是个人还是企事业单位都会随着时间的递增产生越来越多是数据,而产生的这些数据实际上是我们不需要的信息,这时就会出现虽然数据多,但是有用信息少的窘迫局面,也就是常说的“数据爆炸,知识贫乏木置妗J据质量的高低反映了数据的价值的高低,对于低质量的数据往往是无效不可用的,此时,本论文首先介绍了数据删除中重复数据删除的研究背景及其意义,还有相关课题在国内外的研究现状。并针对目前备受瞩目的开源分布式架构进行了相关研究,了详尽的研究与分析。此后,阐述了重复记录删除的相关知识和基本原理及其相应的处理过程。其次,根据框架处理数据的特点,搭建并配置了基于平台的实验环境,重点对完全重复记录和相似重复记录检测所用到算法作了比较深入的研究。以此聚类的数据再进行一次聚类,实现了对完全重复数据以及相似重复数据的有效删除。经实验和实践验证,采用的相应的算法取得了很好的效果,并且,本文所提出的数据删除框架模型也有很好的实用价值方向。
,,.琣。疪琈’甌”甌,.甀瓾,,瓵疭..痶,,”瑃琣,甌’.瓵,.琣瑃Ⅱ