1 / 2
文档名称:

聚类算法-人工智能论文.docx

格式:docx   大小:11KB   页数:2页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

聚类算法-人工智能论文.docx

上传人:mazhuangzi1 2022/8/1 文件大小:11 KB

下载得到文件列表

聚类算法-人工智能论文.docx

相关文档

文档介绍

文档介绍:对聚类算法的研究学****br/>摘要:本文首先描述了聚类算法的产生过程和要求。然后分别介绍了有五类聚类 算法:基于层次的,基于划分的,基于密度的,基于网格的和基于模型的,阐述 了他们具体的实现方法并分析了其优缺点。文章最后描述了聚类算法目前在很多 对聚类算法的研究学****br/>摘要:本文首先描述了聚类算法的产生过程和要求。然后分别介绍了有五类聚类 算法:基于层次的,基于划分的,基于密度的,基于网格的和基于模型的,阐述 了他们具体的实现方法并分析了其优缺点。文章最后描述了聚类算法目前在很多 领域得到了应用,也展望了其未来的发展前景。
关键字:聚类算法的产生、五类方法、现状及未来发展
当今社会经济和科技都处于迅猛发展中,使得各行各业有大量的数据需要进 行合理高效的处理,聚类是将数据划分成群组的过程,即把数据对象分成多个类 或簇,在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大, 它对未知数据的划分和分析起着非常重要的作用:通过聚类,能够找出这些数据 的分布特点以及他们之间的关系。
但是对于聚类算法是有一些要求的,主要有可伸缩性,处理不同类型属性 的能力,发现任意形状的聚类,用于决定输入参数的领域知识最小化,处 理“噪声”数据的能力,处理“噪声”数据的能力,高维度,基于约束的 聚类,可解释性和可用性。基于以上要求人们从不同角度提出了许多效率高、 通用性强的聚类方法,一般可分为基于层次的,基于划分的,基于密度的,基于 网格的和基于模型的五大类。
划分法
给定一个有N个元组或者纪录的数据集,分裂法将构造K个分组,每一个分 组就代表一个聚类,K<N。而且这K个分组满足下列条件:(1)每一个分组至少 包含一个数据纪录;(2)每一个数据纪录属于且仅属于一个分组(注意:这个要 求在某些模糊聚类算法中可以放宽);对于给定的K,算法首先给出一个初始的 分组方法,以后通过反复迭代的方法改变分组,使得每一次改进之后的分组方案 都较前一次好,好的标准是:同一分组中的记录越近越好,而不同分组中的纪录 越远越好。使用这个基本思想的算法有:K-MEANS算法、K-MEDOIDS算法、CLARANS 算法。
划分法的优点是收敛速度快,在对中小规模的数据库中发现球状簇很适用。 缺点是它倾向于识别凸形分布大小相近、密度相近的聚类,不能发现分布形状比 较复杂的聚类,它要求类别数目k可以合理地估计,且初始中心的选择和噪声会 对聚类结果产生很大影响,还要求用户预先指定聚类个数。
层次法
这种方法对给定的数据集进行层次似的分解,直到某种条件满足为止。具体 又可分为“自底向上”和“自顶向下”两种方案。代表算法有:BIRCH算法、CURE 算法、CHAMELEON算法等;
自顶向下的优点在于研究者可以把注意力集中在数据的结构上面。一般情况 下不使用这种方法,因为在较高的层很难进行正确的拆分。
基于密度的方法
这种方法说的是,只要一个区域中的点的密度大过某个阈值,就把它加到与 之相近的聚类中去。代表算法有:DBSCAN算法、OPTICS算法、DENCLUE算法等;
基于密度的方法与其它方法的一个根本区别是:它不是基于各种各样的距离 的,而是基于密度的。这样就能克服基于距离的算法只能发现“类圆形”的聚类 的缺点。
基于网格的方法
这种方法首先将数据空间划分成为有限个单元(ce