文档介绍:【摘要】聚类分析是数据挖掘中非常重要的方法,并且在很多领域发挥了巨大的作用。本文以研究网格聚类算法为目的,介绍了常见的基于网格的聚类算法,并比较分析了各类算法的基本思想和优缺点。中国论文网【关键词】网格聚类算法;STING算法;WaveCluster算法;CLIQUE算法 ,每个类中的对象之间具有较高的相似度,而不同类的对象相似度低。聚类算法是数据挖掘中的重要算法,可以应用于机器学习、统计学、模式识别、图像处理、考古学、市场营销和生物学等多个领域。聚类是数据挖掘的主要任务之一,目前常见的文献中主要有以下几类聚类算法:划分方法、层次方法、基于密度的算法、基于网格的算法及基于模型的算法等。一些聚类算法集成了多种聚类方法的思想,所以有时不能将某个给定的算法划分为属于某一类特定的聚类方法。各类算法各有自己的特点,应用于不同的领域并且发挥了很大的作用,实现了数据的有效聚类。 (grid-basedmethod) 基于网格的方法采用了网格的数据结构,首先将数据空间划分成为有限个单元(cell),这些单元就形成了网格结构,所有的处理都是以单个的单元为对象的。这种方法的主要优点就是处理速度很快,处理时间与目标数据库中记录的个数无关的,但是又依赖于数据空间的单元数目。代表算法有:STING[1]、WaveCluster、CLIQUE。 (StatisticalInformationGrid,统计信息网格)算法 STING算法是一种基于网格的多分辨率聚类算法,其基本思想是:先将数据空间区域划分成矩形单元。对于不同级别的分辨率,通常存在着不同级别的矩形单元,这些单元形成一个层次结构,高层的每一个单元被划分为多个低一层的单元。每个网格单元属性的统计信息如均值等都被预先计算和存储起来,以方便下一步的查询操作。高层单元的统计参数可以通过计算低层单元获得,这些参数包括:属性无关的参数count(计数);属性相关的参数mean(平均值),stdev(标准偏差),min(最小值),max(最大值),以及该单元中属性值遵循的分布(distribution)类型,例如一致分布、正态分布等。当数据被装载进数据库时,底层单元的一些参数(如min、max、stdev、mean)可以直接由数据进行计算。如果分布的类型已经确定,distribution的值可以由用户指定,也可以通过假设检验来获得。高层单元的分布类型的确定可以基于它对应的低层单元多数的分布类型,通过阈值过滤过程的合取计算来得到。如果低层单元的分布彼此不同,阈值检验失败,那么此时高层单元的分布类型就为none。当得到上述的统计参数后,就可以根据统计参数来进行查询处理。统计参数的使用可以按照自顶向下的基于网格的方法来进行查询。大体过程如下:首先,在层次结构中,选定一层(通常选定含少量单元的层)作为查询答复过程的开始点。对选定的当前层次的每个单元,估算其概率范围或者计算置信度区间,该概率用以反映该单元与给定查询的相关程度。此时得到一些不相关的单元和相关单元,不相关单元在以后操作中不再考虑。相关单元用于下一层较低单元的处理。反复进行该处理过程,直到达到底层。最后,如果满足查询要求,则返回相关单元。否则,检索和处理落在相关单元中的数据,直到它们满足查询要求。