文档介绍:摘要�����盟惴ň哂幸韵绿氐悖���杓鳦����算法处理数据流的框架,将系统分为在线层和离线层。在近年来,由于计算机及应用技术的高速发展,人们获取数据的能力得到极大的提高,数据流作为一类重要的数据来源,受到越来越多的关注。数据流是连续的、有序的、快速变化的、海量的数据。数据流不同于传统的存储在磁盘上的静态的数据,而是一类新的数据对象。当前在数据挖掘领域中,数据流已经成为一个研究热点。数据流聚类分析成为聚类研究的一个重要本文的工作重点就是设计并开发一个具有较快速度和很高准确性的数据流聚类算法。为此本文做了这些工作:介绍了课题的相关背景与意义;总结了目前比较成熟的各种聚类算法的优缺点和适用范围:重点研究了数据流的特点和处理数据流聚类的关键技术点;并在此基础上;通过修改摘要数据结构的方法、设计并实现了基于网格和密度的数据流聚类算法��甋�����线层快速处理数据流,并将相关信息保存在摘要数据结构中;离线层在摘要数据上进行计算提供精确聚类,以达到聚类准确度和算法速度的平衡。���猛�窭幢4媸�萘鞯奶卣餍畔ⅲ��锹计渫臣菩畔⑼猓�辜尤肓思锹�其空间信息的数据结构,能减少数据流信息丢失。��谠谙卟阒校��谜RJ�萁峁辜锹嫉目占湫畔ⅲ��萘鞫寥∷惴ū冉闲�数据到相关网格的距离,并把新记录映射到正确网格中,能解决部分网格边缘信息丢失的问题,比较准确地记录数据流信息。��诶胂卟阒校�捎没�诿芏鹊木劾嗨惴ǎ�低衬芊⑾秩我庑巫吹氖�菁��通过引入网格帧和演化差等概念,系统能满足用户对历史信息聚类和演化分析基于人造数据集和真实数据集的实验表明,算法具有较好的适用性和准确性,能对数据流进行高效的聚类分析。关键词:数据流、聚类、双层处理模型、网格、密度方向。的需求。���������
,����酣������.�������������.�����,����琧���������甒����.������瑆��������甈�����������������珿�—���������珿�����珼���������琤��������,���’�����瓺�����,����.�����琩�����瓹������.�����.���,�����瓸��������瑆�����瓸������琓���瓸�������甇�������琣���,�����甌���������甇����瑆�����—����,���
,�����,��猼�������珿��珼����酣������������������,�����������:�����甌������.������
研究生�┟�:—彳�日期二与乙£生公关于论文使用授权的说明同期一竺���独创性声明本人声明,所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。本人完全了解武汉理工大学有关保留、使用学位论文的规定,即:学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权武汉理工大学可以将本学位论文的全部内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段保存或汇编本学位论文。同时授权经武汉理工大学认可的国家有关机构或论文数据库使用或收录本学位论文,并向社会公众提供信息服务。�C艿穆畚脑诮饷芎笥ψ袷卮斯娑�研究生�┟�:导师�┟�:
第��绪论��课题研究背景和意义随着信息技术的高速发展,人们处理的数据量越来越大,对数据操作的需求也越来越高,从最初的简单保存数据,到对数据进行简单的统计分析,再到发现隐藏在庞大数据中的各种关系;于此同时我们处理数据的方法,也经历了几个阶段的变化,从六十年代前最初的文件系统�������,到七八十年代的数据库管理系统���珼��代的数据仓库和数据挖掘技术�������取�数据挖掘技术的产生,来自与这一现实——大量庞杂的数据充斥着我们,这些数据,但实际上这些数据中只有很小部分会被我们利用。这是因为人们在创建一个数据集时,往往都将精力集中在如何有效地存储、访问这些数据上,而并没有认真的去思考这些数据最终将怎样分析使用。结果,随着数据的不断积累,由于缺乏从海量数据中提取有价值知识的工具,那些被收集在大型数据库中快速增长的数据变成了“数据坟墓”。如何将知识的有价值的信息从海量数据中挖掘出来�饩托枰J�萃诰蚣际酢綢��数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、事先不为人知的,但又是潜在有用的信息和知识数据挖掘技术从提出到快速发展,在短短的十几年里,已经提出很