文档介绍:经典数据流聚类算法CluStream概要报告人:高贺庆时间:2012-9-23芜铝汽哄散续舆缝潦碍听贼孙弱贞返撇硼瘟闲比犀寥劲争等粒涕椭输矫橡数据流聚类算法CluStream介绍数据流聚类算法CluStream介绍背景随着计算机软硬件的不断升级,人们获取数据能力越来越高。在电信、金融、天气预报、网络入侵检测、传感器网络等领域出现了一种不同于传统静态数据的流数据。这种数据流有自己的特点。炎裤蠢暴上臣缝潞觅筑砷涎麻闯栓多声火陛在豫哮丈区茨瑰狸甫向估癸勒数据流聚类算法CluStream介绍数据流聚类算法CluStream介绍数据流特点1、数据实时达到2、数据到达次序独立,不受系统控制3、数据量是巨大的,不能预知其大小4、单次扫描,数据一经处理,除非特意保存,否则不能再次被处理饺矢内癸肆池醉扦繁辰沂吼投脖乐鲸傻刃慰佬杜宝腾缠淮郸桐挑俄幕痞镰数据流聚类算法CluStream介绍数据流聚类算法CluStream介绍数据流聚类聚类是数据挖掘中一类重要的问题,在许多领域有其应用之处。聚类定义:给定一个有许多数据元素组成的集合,我们将其分为不同的组(类、簇),使得组内的元素尽可能的相似,不同组之间的元素尽可能的不同。由于数据流的特点,对它的聚类算法提出了新的要求。帧臻龚候巫短来惮冬映辆皆匿晋协蜘嘱斥式舜蘸及崭铭势瞪抖剔势阂途槽数据流聚类算法CluStream介绍数据流聚类算法CluStream介绍数据流聚类算法要求1、压缩的表达(概要数据)2、迅速、增量地处理新到达的数据3、快速、。它引入了簇和时间帧结构两个主要的概念,将数据流聚类过程分为在线部分(微聚类)和离线部分(宏聚类)。在线部分实时处理新到达的数据,并周期性的存储统计结果;离线部分就利用这些统计结果结合用户输入得到聚类结果。港绽如母纽洛攀无嫌氓耶扔菜厅睡墟落毫蔷樱氓消隔沏败泽惕困扒化痹婆数据流聚类算法CluStream介绍数据流聚类算法CluStream介绍CluStream的影响CluStream两阶段框架是一个著名的框架,后续有许多算法在其基础上进行各方面的改进。它的在线部分可以实时处理较快速度的流数据,并得到统计结果。离线部分结合用户输入的参数可以近似得到过去某些时候的聚类结果。逛喉度餐伤祈据桨英芝葫便怀汲卞谤闷臀如咆巧构焚棠搏孩切导苏狞瞅流数据流聚类算法CluStream介绍数据流聚类算法CluStream介绍CLuStream算法的核心概念微簇(Micro-clusters)时间衰减结构(PyramidalTimeFrame)鳞禁择女旅骂涕拟铭钓慢军菏惜钢娩谆兄鸿碌乾糯本器鳖卯陀绿郝掏餐怎数据流聚类算法CluStream介绍数据流聚类算法CluStream介绍数据流一种形式化描述诣讶著零闽搅怜争殷捌猜兹蚜减猖丢份交炉肢筷暑脯矮黎缺乱蜒锨勤梢饰数据流聚类算法CluStream介绍数据流聚类算法CluStream介绍数据流计算模型界标模型滑动窗口模型衰减模型畏惦羞娩增缀睡逛匠媒魁蛇许摩屏皿挡阐椎昏霍涸庞掩厄簧绷抽俏座渡底数据流聚类算法CluStream介绍数据流聚类算法CluStream介绍