1 / 9
文档名称:

数据流聚类算法研究.doc

格式:doc   大小:45KB   页数:9页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据流聚类算法研究.doc

上传人:小博士 2019/11/6 文件大小:45 KB

下载得到文件列表

数据流聚类算法研究.doc

文档介绍

文档介绍::..数据流聚类算法研究摘要:近几年来,流数据成为主流的数据形式之一。如网络入侵监测数据,股票数据等都是不断变化的流数据。聚类作为数据挖掘领域的主要技术手段2—,因此流数据的聚类也受到了众多学者的广泛关注。而流数据不同于静态数据的特性给流数据的聚类带來了挑战。本文总结了传统数据的聚类算法和流数据聚类挖掘的研究方法,并提出了对未来将群智能应用于流数据聚类算法的展望。关键词:流数据;聚类;数据挖掘;群智能中图分类号:TP311文献标识码:A文章编号:2095-2163(2014)01-0013-040引言随着无线传感网络以及有关领域的相应发展,流数据日益成为主要的数据形式Z-o例如无线传感器中的监测数据,网络入侵监测数据,以及金融产业中不断变化的股票数据等,即属于此类。这些数据都具有与传统静态数据不同的特性,诸如实时、有序、快速变化等。而对于冃前较为有限的存储空间,数据流却又无法长期保存在计算机中,因此如何在线实时有效地处理这些数据,从中挖掘提取有用的知识,即成为数据挖掘领域的热点问题Z-o数据挖掘,亦称作知识发现,是指从大量的数据中挖掘得到人们感兴趣的知识的具体发现过程。现如今,人们可以通过多种渠道获取信息数据,随着数据量的大幅增长,如何从这些数据中找到有价值的信息,就成为数据挖掘的首要任务。数据挖掘的分析方法主要有以下几种:(1) 关联分析。两个或多个数据变量之间存在着某种相关性,这就是关联。通常情况下,数据库中庞人数据的关联性很难发现,而且关联分析又具有一定的不确定性,因此产生的规则必须带有可信度。(2) 分类分析。分类是数据挖掘领域的一个重要技术手段。一般分为训练学习过程和测试过程。例如,决策树、神经网络、k近邻算法、贝叶斯算法等都是常见的分类技术。(3) 聚类分析。作为数据挖掘、模式识别等工程和技术领域的研究热点2—,聚类分析表现了高度优良的性能和效果。聚类就是将一个整体的数据集划分成若干个簇,使得不同簇之间的相似性尽可能地小,而同一个簇中的相似性又尽可能地大。综上所述,可知聚类技术是数据挖掘领域的重要技术方法之一,而数据流高速动态变化和一次扫描等特性却给数据流聚类带来了巨人的挑战。如何能够仅利用一次扫描就达到最好的聚类效果,以及如何生成任意形状的聚类,则是近些年來研究者们深度探讨的重点课题之一。1传统的数据聚类算法传统静态的数据聚类算法对于后期数据流聚类算法的进•步研究具有相当重要的现实意义,很多数据流聚类算法都是一些常见的经典聚类算法的变形。聚类算法一般可以分为三类,分别是基于划分的方法、基于层次的方法、基于密度的方法。在此,对这三类方法进行分别的探讨和解析,具体如下。(1) 基于划分的方法(2) 基于层次的聚类方法基于层次的方法通常分为自顶向下和自底向上两种情况。在这些方法中,比较常用的就是Birch算法[1]。Birch算法中引入了CF聚类特征和CFtree聚类特征树这两个概念。具体过程为:首先全面扫描数据库,建立一个初始的聚类特征树;从根节点向下,计算与要插入的数据点间的距离,找寻最短距离,直至找到与该数据点最近的叶节点;如果吸收后大于阈值T,删除或分裂叶节点。Birch算法适用于大数据集的聚类处理,具有较低的算法空间复杂

最近更新