1 / 27
文档名称:

数据流聚类算法介绍.ppt

格式:ppt   大小:1,010KB   页数:27页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据流聚类算法介绍.ppt

上传人:文库新人 2021/10/29 文件大小:1010 KB

下载得到文件列表

数据流聚类算法介绍.ppt

相关文档

文档介绍

文档介绍:数据流聚类算法介绍
第一页,共27页
背景
随着计算机软硬件的不断升级,人们获取数据能力越来越高。在电信、金融、天气预报、网络入侵检测、传感器网络等领域出现了一种不同于传统静态数据的流数据。这种数据流有自己的特点。
第二页,共27页
数据流特点
1、数据实时达到
2、数据到达次序独立,不受系统控制
3、数据量是巨大的,不能预知其大小
4、单次扫描,数据一经处理,除非特意保存,否则不能再次被处理
第三页,共27页
数据流聚类
聚类是数据挖掘中一类重要的问题,在许多领域有其应用之处。
聚类定义:给定一个有许多数据元素组成的集合,我们将其分为不同的组(类、簇),使得组内的元素尽可能的相似,不同组之间的元素尽可能的不同。
由于数据流的特点,对它的聚类算法提出了新的要求。
第四页,共27页
数据流聚类算法要求
1、压缩的表达(概要数据)
2、迅速、增量地处理新到达的数据
3、快速、清晰地识别离群点
第五页,共27页
CluStream概要
C. C. Aggarwal等人在2003年提出了该著名的经典数据流聚类框架。它引入了簇和时间帧结构两个主要的概念,将数据流聚类过程分为在线部分(微聚类)和离线部分(宏聚类)。在线部分实时处理新到达的数据,并周期性的存储统计结果;离线部分就利用这些统计结果结合用户输入得到聚类结果。
第六页,共27页
CluStream的影响
CluStream两阶段框架是一个著名的框架,后续有许多算法在其基础上进行各方面的改进。它的在线部分可以实时处理较快速度的流数据,并得到统计结果。离线部分结合用户输入的参数可以近似得到过去某些时候的聚类结果。
第七页,共27页
CLuStream算法的核心概念
微簇(Micro-clusters)
时间衰减结构(Pyramidal Time Frame)
第八页,共27页
数据流一种形式化描述
第九页,共27页
数据流计算模型
界标模型
滑动窗口模型
衰减模型
第十页,共27页