1 / 27
文档名称:

数据流聚类算法介绍.ppt

格式:ppt   大小:1,022KB   页数:27页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据流聚类算法介绍.ppt

上传人:文库新人 2021/11/26 文件大小:1022 KB

下载得到文件列表

数据流聚类算法介绍.ppt

文档介绍

文档介绍:数据流聚类算法介绍
第一页,课件共27页
背景
随着计算机软硬件的不断升级,人们获取数据能力越来越高。在电信、金融、天气预报、网络入侵检测、传感器网络等领域出现了一种不同于传统静态数据的流数据。这种数据流有自己的特点。
第二页,课件共27页
数据流特点
1、数据实时达到
2、数据到达次序独立,不受系统控制
3、数据量是巨大的,不能预知其大小
4、单次扫描,数据一经处理,除非特意保存,否则不能再次被处理
第三页,课件共27页
数据流聚类
聚类是数据挖掘中一类重要的问题,在许多领域有其应用之处。
聚类定义:给定一个有许多数据元素组成的集合,我们将其分为不同的组(类、簇),使得组内的元素尽可能的相似,不同组之间的元素尽可能的不同。
由于数据流的特点,对它的聚类算法提出了新的要求。
第四页,课件共27页
数据流聚类算法要求
1、压缩的表达(概要数据)
2、迅速、增量地处理新到达的数据
3、快速、清晰地识别离群点
第五页,课件共27页
CluStream概要
C. C. Aggarwal等人在2003年提出了该著名的经典数据流聚类框架。它引入了簇和时间帧结构两个主要的概念,将数据流聚类过程分为在线部分(微聚类)和离线部分(宏聚类)。在线部分实时处理新到达的数据,并周期性的存储统计结果;离线部分就利用这些统计结果结合用户输入得到聚类结果。
第六页,课件共27页
CluStream的影响
CluStream两阶段框架是一个著名的框架,后续有许多算法在其基础上进行各方面的改进。它的在线部分可以实时处理较快速度的流数据,并得到统计结果。离线部分结合用户输入的参数可以近似得到过去某些时候的聚类结果。
第七页,课件共27页
CLuStream算法的核心概念
微簇(Micro-clusters)
时间衰减结构(Pyramidal Time Frame)
第八页,课件共27页
数据流一种形式化描述
第九页,课件共27页
数据流计算模型
界标模型
滑动窗口模型
衰减模型
第十页,课件共27页

最近更新

如何在人力资源管理中提高决策的科学性 5页

奥克斯的薪酬管理浅析 6页

大数据下企业财务共享分析——以TCL集团为例 4页

《税收与博弈》 81页

多级模糊综合评价方法在企业人力资源信息系统.. 6页

基层安全生产和应急管理思考 4页

基于守敬创新工作室的技术创新型人才培养模式.. 4页

基于单片机的电机调速系统课程设计 5页

基于单片机的循环彩灯设计开题报告 5页

基于作业成本法的高校成本核算业务流程研究 6页

基于PLC的皮带集中控制系统设计毕业论文 4页

基于AT89C52单片机的智能家居系统设计 6页

培训师评估模型与评估方法(共43) 4页

在线论文管理系统及其方法 7页

国美电器案例分析 5页

国有企业优化考核分配工作,完善市场化经营机制.. 4页

国有企业专业技术人才梯队建设工作探究 6页

导购天工作流程 49页

《嗜血细胞综合征》 15页

员工绩效考评存在的问题与对策 3页

员工关系管理包含的要素及发展情况 5页

《市场营销策略模块》 36页

采购管理考试资料 26页

印章管理审计的17个核心要点 6页

银行大堂经理工作要点 39页

单位管理制度范文汇编【人力资源管理】 5页

单位管理制度优秀大全【人力资源管理】 6页

华南理工大学网络教育人力资源管理随堂练习 4页

华东理工大学论文开题报告模版-清爽大气优秀完.. 5页

医院人力成本构成、控制与分析 5页