文档介绍:攵許的分布式聚类衲P停究翁馐紫壤肳迪址布式聚类算法,然后用将其发布成服务,最后在环境下将分布式聚类褡楹铣晒ぷ髁鞯男问剑迪至朔植际骄劾喾治龅墓獭①结合和惴ǖ挠诺悖慕薉植客诰虻拇淼阊②将芄褂敕植际骄劾嗨惴ㄏ嘟岷希岢隽艘恢諷架构下的分布式聚类衲P停⑹迪至嘶诖四P偷脑拖低常庇肨馐粤该系统,结果表明在带宽较大的情况下,采用本文提出的芄瓜路植际骄类算法对大规模数据进行聚类是可行并且有效的。本文研究工作的特点在于:择过程,提出了一种改进的算法。关键词:分布式数据挖掘;分布式聚类;籛武汉理工大学硕士学位论文;:Ⅱ
.甌,猻,,.瓺瑀..武汉理工大学硕士学位论文.,瓾.,珿,甀..瑃.,.瑂,.,..
①②,,.瓽,.,.:,珼琒
日期:盈幽幽研究生┟:煎继导师┟:.盘亟研究生┟:遗金竖日期:塑趔塑独创性声明学位论文使用授权书本人声明,所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方以外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究的任何贡本人完全了解武汉理工大学有关保留、使用学位论文的规定,即:学校有和借阅。本人授权武汉理工大学可以将本学位论文的全部内容编入有关数据库进行检索,可以采用影印、缩印和其他复制手段保存或汇编本学位论文。同时授权经武汉理工大学认可的有关机构或论文数据库使用或收录本学位论文,并向社会公众提供信息服务。献均已在论文中作了明确的说明并表示了谢意。权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅C艿穆畚脑诮饷芎笥ψ袷卮斯娑刀.
第绪论研究背景对数据进行一些表层地处理,比如统计和查询等,因而深入挖掘数据之间的内存在大量不同类型的信息资源,蕴含着具有巨大潜在价值的知识。同样,世界上还存在很多蕴藏丰富信息的数据源,人们迫切希望从这些数据源中有效地获数据挖掘作为一种能够智能地、自动地把数据转换成有用信息和知识的技术,成为了信息技术的焦点。这是一个基于统计学、模式识别、人工智能、机器学****数据库技术以及高性能并行计算等领域的交叉新学科,已经在经济、金融、天文等行业得到了成功的应用。原始数据集可以是结构化的、半结构化的,甚至是分布在网络上的异构数据;挖掘知识可以采用数学的、非数学的、演绎的和归纳的方法;挖掘出的模型可以被用于信息管理查询、优化决策、支聚类分析是数据挖掘的一种基本方法,它将数据区分为自然的群体,并给成的多个类的过程,以至于同簇中的对象是相似的,而不同簇间的对象是差异较大。与分类不同,聚类不需要标记对象的分类标号,因此,聚类是一种无监督学****技术;相对应的,分类属于监督学****聚类是最重要的无监督学****技术之一。在无监督学****中,数据没有预先定义的标号。聚类被视为以某种方式将数据组织为具有某种相似性的簇、组的过程。研究聚类算法有着很重要的意义,聚类分析已经广泛地应用在许多领域,包括模式识别、数据分析、图像处理以随着信息技术的迅猛发展,我们可以方便地获取和存储各种数据信息。然而,我们现在面临着信息资源丰富而知识相对缺乏的问题。人们已经不能满足在关系和隐藏信息,自然成了一个重要的任务。魑R桓鲎畲蟮氖菰矗取这些有价值的资源和知识。持过程控制等方面。出每个群体特征描述的一种数据挖掘方法。聚类分析是探索数据结构的工具,它基于“物以类聚”的朴素思想,将物理或抽象对象的集合分组为由相似的对象组及市场研究等等。武汉理工大学硕士学位论文
研究的目的和意义面对现在大规模数据以及大型数据库的分布式存放形式,聚类分析面临着很多问题:当前绝大多数可用的聚类算法需要所有数据驻留在内存,需要大量的计算时间和计算能力:由于容错目的或带宽、隐私等约束,数据本身就是分布式数据的聚类分析最好都采用分布式聚类。分布式聚类是基于分布式数据和计算资源,对大规模、分布的数据进行聚类分析,是分布式数据挖掘的一个重对于分布式问题的求解环境,基于面向服务的体系架构是很理想的解决方案。袷荢的关键技术之一。窦际醪捎肵技术能为待挖较之其它形式的系统将得到大大的提高。这种系统能够方便地集成如的分布式聚类算法也可以调用其它数据挖掘算法的瘢鏦峁┑数据挖掘算法瘛架构为分布式数据挖掘系统提供了一种动态的、架构下的分布式聚类算法也可以随着新算法服务的出现而使算法的聚类质量和效率不断的提高。基于竦腟与分布式聚类分析相结合,能够给分布式聚类分析的易用性和可扩展性等方面带来深远的影响。技术实现分布式聚类算法的必要性、可行性、有效性以及具体的实现方案。其研究意义在于将芄褂敕植际骄劾嗨惴ㄏ嘟岷希岣分布式聚类算法的易用性和可扩展性,它可以方便的调用已有算法的或者最新提出聚类算法的瘢佣岣呔劾