1 / 8
文档名称:

基于密度聚类分析的相关算法研究.doc

格式:doc   大小:69KB   页数:8页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于密度聚类分析的相关算法研究.doc

上传人:sssmppp 2020/7/9 文件大小:69 KB

下载得到文件列表

基于密度聚类分析的相关算法研究.doc

相关文档

文档介绍

文档介绍:基于密度聚类分析的相关算法研究摘要:聚类分析是数据挖掘的重要方法。该文阐述了基于密度聚类分析的基本概念及其经典的算法思想,并提出了一种基于边界对象进行聚类的新算法。该算法首先对边界对象分类,形成各个聚类的边界曲线,然后采用夹角和法对其它对象进行聚类。作为聚类边界检测算法的后续步骤,新算法保证了数据处理的完整性,为聚类分析方法提供了新思路。关键词:聚类;邻域;核心对象;聚类边界;夹角和中图分类号TP301文献标识码:A文章编号:1009-3044(2013)30-6714-03数据挖掘(DataMining)是人工智能和数据库领域研究的热点问题。简单地说,数据挖掘是从大量的数据中提取或“挖掘”知识。数据挖掘要应用一系列技术从人型数据库或数据仓库中提取人们感兴趣的信息和知识,这些知识或信息是隐含的,事先未知而潜在有用的,提取的知识表示为概念、规则、规律、模式等形式。数据挖掘常用的方法有:关联分析、预测建模、聚类分析、异常检测筹。1数据挖掘中的聚类分析所谓聚类,就是将数据对象分组成多个类或簇,在同一个簇中的对象之间具有较高的相似度,而不同簇屮的对彖差别较大[1]。作为数据挖掘的重要方法,聚类分析旨在发现紧密相关的观测值组群,使得与属于不同簇的观测值相比,属于同一簇的观测值相互之间尽可能类似。聚类与分类的不同在于,聚类所要求划分的类是未知的。也就是说,在开始聚类之前不知道要把数据分成几组,也不知道怎么分。因此在聚类之后要有一个对业务很熟悉的人来解释这样分群的意义。很多情况下一次聚集得到的分群对业务来说可能并不好,这时需耍删除或增加变量以影响分群的方式,经过几次反复之后才能最终得到一个理想的结果。为了有效聚类,人们提出了许多聚类分析算法,并在许多领域得到了广泛的应用[2]。聚类分析的算法可以分为基于划分的方法、基于层次的方法、基于密度的方法、基于网格的方法和基于模型的方法等等。不同的聚类方法将产生不同的聚类结果。2传统的密度聚类算法基于密度的聚类方法将数据空间的高密度对象区域看成是簇,这一个个簇是被低密度区域分割开来的,该方法能够识别出各种形状的聚类。:对于构成簇的每个对象,其邻域包含的对象个数必须不小于一个给定值(MinPts),也就是说其邻域的密度必须不小于某个阈值。,使得对象p和q是从o关于£和MinPts密度可达的,那么对象p和q关于£和MinPts密度相连(对称)。;不在任何簇中的对象被认为是“噪声”。、OPTICS、DENCLUE等,其中DBSCAN算法最具代表性。DBSCAN(Density-BasedSpatialClusteringofApplicationswithNoise)算法[3]通过检查数据集中每个点的£-邻域来寻找聚类。该算法的基本步骤是:1) 任意选择没有加簇标签的点P;2) 找到从p关于£和MinPts密度可达的所有点;3) 如果p是核心对象,则将p和从p关于£和MinPts密度可达的所有点组成一个新的簇,并给簇内所有的点加簇标签;如果p是边界点,则处理数据集中的下一点;4) 重复上