文档介绍:●hn画大浮
基于密度和中心点的分布式数据流
聚类算法的研究
姓名:侯杰
学号:YS20092402
专业:计算机应用技术
研究方向:数据挖掘与分布式计算
指导老师:高宏宾
报告内容
■主要研究内容
计划步骤
对聚类算法的初步研究
高维数据流降维
后期拟完成的研究工作及进度安排
分布式聚类算法的研究
基于密度和中心点的聚类方法研究
■高维数据流的降维处理
序号
阶段及内容
起讫日期
阶段成果形式
论文全过程
-
[2]确定研究项目,查阅相关文献资料,进行开题
-20
已结束
[3]研究分布式数据流聚类相关算法
-
研究了经典的 DBSCA
[4]-201106
未正式开始
5
高维数据流降维技术的研究
-
数据流预处理阶段已
经基本结束
,完成算法与测试数据
2011,10-2011,12
7]总结研究成果,完成论文
-
表1开题报告计划表
高维数据?
低数据
寻找核心对象集
值的候选对象
寻找完毕
广度优先算法BSF
图1论文整体流程图
目前已经对经典的k均值算法和 DBSCAN算法
做了初步研究,计划在此基础上研究基于密度和
中心点的分布式聚类算法。
+
34
梅
红色为第一类;蓝色为第二类;绿色0为第三拱
2K均值图示
图3 DBSCAN图
本部分在近期占用时间较多,已经就“基于核主成分
分析的数据流降维研究”完成期刊论文,目前正在修改
中,该部分作为数据流的预处理部分在整篇论文中具有
重要作用
数据空同
特征空间
线性操作
缸空间回自非
o(x)p(y)性国归等
K(x, y,)
2核函数
K(x, y)=exp(
( GKPCA
句1原始数据分有
PA律后的数据分
cA维后的数据分
f4p峰后的据分形
图4降维方法与效果图示