文档介绍:基于刚际醯姆植际绞萃诰蚱教ㄉ杓朴胙芯摘要数据挖掘,也称为数据库中的知识发现,是从大量、不完全、模糊的实际应用数据中,提取隐含在其中、事先不知道的信息和知识的过程。传统的数据挖掘技术采用的挖掘算法:一方面所处理的数据都是集中在一台机器上,另一方面整个挖掘过程的计算也集中在一台机器上。随着各种网络尤其是墓惴菏褂茫缰锌苫竦玫氖据量持续增长,需要挖掘的数据源往往分布存储在网络的各个节点上。同时,随着信息技术应用的深入,挖掘算法执行的对象数据集越来越大,需要大量的计算资源,这必然要求执行挖掘算法的机器有相当高的性能,一台机器通常很难完成这种超大量的计算任务,与之相应的在其它分布式站点上的机器有着充裕的计算资源却不能有效地利用。对于这两个问题,传统的数据挖掘技术根本无法解决,因此分布式数据挖掘技术随之而出。所谓分布式数据挖掘就是使用分布式计算资源,从分布式数据库中发现知识的过程,主要包括两方面的内容:一方面,跨多个网络节点对分布式数据集进行联合挖掘;另一方面,利用网络节点的计算资源进行协同挖掘,满足巨大的计算工作量需求。通过对⑼瘛等分布式技术进行比较,可以发现,⑼窦际是两种不成熟的技术,虽说有很好的前景,但使用和开发的难度很大。摹十际醯姆植际绞萃诰颉粉透募啤痡研究
典算法鷒、人惴ǎ掷嗑渌惴↖、.人惴ā而际跏且恢趾艹墒旒际酰喽匀菀资褂茫揖哂锌缙教ㄖ葱的能力优点。因此本文采用了际趵词迪址植际绞萃诰颉本文以数据挖掘中的关联规则—算法和分类惴ㄎG入点,对运用际踅蟹植际剿惴ㄉ杓平辛颂剿鳎饕9ぷ包括:首先,对要采用的分布式技术隽松钊氲睦斫夂驼莆眨传统的数据挖掘算法中的数据处理部分和任务执行部分发布为服务。其次,对传统数据挖掘算法进行了研究,主要包括关联规则类经使用语言实现其中的.、惴ā再次,在深入分析传统算法的基础上,提出和实现数据与计算都分布的惴ê虳惴ā最后,实现了分布式数据挖掘平台原型。本文的惴ê虳惴ǘ际迪至耸萦爰扑阃狈植迹实验证明比对应传统的算法具有更好的性能。同时,实现了分布式数据挖掘平台原型,总结提出了在设计分布式数据挖掘算法时可参考的设计思路,便于后人将其它算法实现分布式。关键词:分布式数据挖掘,数据挖掘平台,际酰珼算法,算法精十际醯姆植际绞萃诰颉痳弁设计‘』研究¨
‘.·瑃琲嚣.:甤“¨
.瑀瓻:,,瓵幕于际醯姆植际绞萃诰颉痳台设计‘芯,琁,.
⋯名:螋躲蟛暄簟酃知辏隆鄄独创性声明关于论文使用授权的说明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果。也不包含本人为获得浙江工商大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示谢意。本学位论文作者完全了解浙江工商大学有关保留、使用学位论文的规定:浙江工商大学有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅,可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文,并且本人电子文档的内容和纸质论文的内容相一致。保密的学位论文在解密后也遵守此规定。日期:
第一章引言课题背景、研究现状及选题意义性分析、分类分析、聚类分析、异常性分析、趋势分析等知识发现活动,寻找频会议以来,数据挖掘技术不断发展,在发现信息与知识方面已经取得了很多成果。传统的数据挖掘技术采用的挖掘算法【浚阂环矫嫠淼氖菰炊际羌性一台机器上,另一方面整个挖掘过程的计算也集中在一台机器上。随着各种网络不能有效地利用,造成了计算资源的浪费,如何有效地利用分布式站点上的机器发现知识的过程,主要包括两方面的内容:一方面,跨多个网络节点对分布式数就使得数据挖掘系统必须跨多个网络节点进行联合挖掘,随之产生的问题包括原信息与知识已经成为一种最重要战略资源,如何将爆炸性增长的数据转换为有用的信息与知识资源,是提高一个组织乃至国家战略竞争力的重要手段。数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含其中的、人们事先不知道的、具有潜在利用价值的信息和知识的过程】。它通过关联繁模式、关联规则、分类规则、聚类模式、异常模式、周期性规律等主要类型的知识【俊W暝诩幽么竺商乩倏A说谝唤熘J斗⑾钟胧萃诰蚬恃尤其是墓惴菏褂茫缰锌苫竦玫氖萘砍中龀ぃ枰M诰虻氖源往往分布存储在网络的各个节点上,把网络海量数据集中到一台机器是非常耗时的过程,如何有效地从分布式存储的数据源中挖掘信息是传统的数据挖掘技术不能解决的问题之一;同时,随着信息技术应用的深入,人们收集、存贮、传输数据的能力迅速增长,成千上