1 / 11
文档名称:

基于网格的聚类方法研究.docx

格式:docx   大小:18KB   页数:11页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于网格的聚类方法研究.docx

上传人:feng1964101 2019/2/27 文件大小:18 KB

下载得到文件列表

基于网格的聚类方法研究.docx

文档介绍

文档介绍:基于网格的聚类方法研究摘要:已有的聚类算法对于发现任意形状的聚类和处理离群点效果不理想,分析了现有基于网格的聚类算法。使用网格方法的数据分析方法将空间划分为由(超)矩形网格单元组成的网格,然后在网格单元上进行聚类。最后,总结全文并提出基于网格的聚类需要进一步研究的方向。关键词:数据挖掘;网格;聚类 1引言数据挖掘是指从大型数据库或数据仓库中提取隐含的、未知的及有应用价值的信息或模式。它是数据库研究中的一个很有应用价值的领域,融合了数据库、机器学习、统计学等多个领域的理论和技术[1]。编辑。聚类分析是数据挖掘中广为研究的课题之一,是从数据中寻找数据间的相似性,并依此对数据进行分类,从而发现数据中隐含的有用信息或知识。目前已经提出了不少数据聚类算法,其中比较著名的有CLARANS[2]、BIRCH[3]、DBSCAN[4]和CLIQUE[5]等。但对于高维、大规模数据库的高效聚类分析仍然是一个有待研究的开放问题。网格方法是空间数据处理中常用的将空间数据离散化的方法。基于网格的聚类算法由于易于增量实现和进行高维数据处理而被广泛应用于聚类算法中。研究人员已经提出了很多基于网格的聚类算法,包括STING[6],它利用了存储在网格单元中的统计信息;WaveCluster[7]它用一种小波转换方法来聚类数据对象;CLIQUE在高维数据空间中基于网格和密度的聚类方法等。本文对已有的基于网格的聚类算法进行了研究,从网格的表示,划分网格单元的方法,到统计网格内信息,搜索近邻网格单元,聚类超过指定阙值的网格单元的各个步骤进行了分析,最后对基于网格方法聚类的研究方向做了展望。网格的定义与划分网格的基本概念,设A1,A2,…,Ar是数据集O={O1,O2,…,On}中数据对象的r个属性的有界定义域,那W=A1×A×…×Ar就是一个r维空间,将A1,A,…,Ar看成是W的维(属性、字段),则对于一个包含n个数据点的r维空间中的数据集O={O1,O,…,On},其中Oi={Oi1,Oi,…,Oir}(i=1,,…,n),Oi的第j个分量Oij∈Aj。将W的每一维M等分,即把W分割成个网格单元。基于网格聚类算法的第一步是划分网格结构,按搜索子空间的策略不同,主要有基于由底向上网格划分方法的算法和基于自顶向下网格划分方法的算法。由底向上的划分方法由底向上的网格划分方法按照用户输入的划分参数(即每维段数ki,1≤i≤d),将数据空间均匀划分为相等大小的网格单元,假设落入同一网格单元内的所有数据点都属于同一个簇,每个网格单元保存落入其内数据的统计信息,比如数据点个数,数据点之和。包含一定数目数据点的网格单元被称为高密度网格单元。 WaveCluster与CLIQUE是采用由底向上网格划分方法的代表性算法。WaveCluster处理低维空间数据,它的性能超越了BIRCH、CLARANS,与DBSCAN等优秀的聚类算法[15]。CLIQUE考虑了高维子空间聚类,但它的时间复杂度较高,需要用户指定全局密度阈值。算法MAFIA[8]对CLIQUE进行了改进,为了减少聚类算法需要处理的网格单元数目,MAFIA将均匀划分网格中每一维上数据分布密度相似的相邻段合并,由此得到一个不均匀划分的网格。这个网格在数据分布较均匀的区域划分粒度大,在数据分布不均匀的区域划分粒度小,这种不均匀划分网格的方法能够提高聚类的质量,被后续的许多算法所采用。采用由底向上的网格划分方法的优点在于,它能通过对数据的一遍扫描,将数据压缩到一个网格数据结构内,并基于这个网格数据结构,发现任意形状的簇。此外,如果网格单元的粒度较小(即体积较小),那么得到的聚簇的精度较高,但是算法的计算复杂度较大。此外,由底向上的网格方法存在不适合处理高维数据的问题。在高维空间,数据的分布是非常稀疏的,网格方法失去其压缩作用,而且属于同一个簇的高密度网格单元也可能不相连,这使聚类算法不能发现合理数目的簇。 (divideandconquerprinciple),对数据空间进行递归划分,使问题的规模不断减小。首先将原数据空间划分为几个较大的区域。对于每个得到的区域,划分过程反复执行,直到每个区域包含属于同一个簇的数据点,那么这些区域就是最终的网格单元。基于自顶向下网格方法的聚类算法直接将高密度网格单元识别为一个簇,或是将相连的高密度网格单元识别为簇。 OptiGrid[9]与CLTree[10]是两个典型的基于自顶向下网格划分方法的聚类算法。其中,OptiGrid则是用空间数据分布的密度信息来选择最优划分。通过一个密度函数来决定切割平面,可以将数据空间划分为规则的或不规则单元,与传统的等间距的划分相比,可以用此来解决高维聚类的问题。而CLTree用划分后的信息增益来选取最

最近更新

2025年医院后勤年终工作总结5篇 10页

2019年贵州省安顺市中考化学试卷及答案 12页

2025年度工程合同管理及招投标实训师资力量引.. 16页

2019年湖南省湘西州中考语文真题及答案 8页

2025学生读书心得体会交流会5篇 最新的学生读.. 6页

2019年海南三亚中考地理真题及答案 11页

2025年度建筑行业包工头劳务承包合同范本 13页

2025医院护士长年终工作总结5篇 11页

2025初中英语教师年终工作总结3篇 7页

2019年江苏淮安中考历史真题及答案 6页

2025优秀教师教育个人工作总结5篇 6页

2025中秋节演讲稿600字4篇 5页

2025年度房屋租赁合同租赁物租赁价格调整通用.. 9页

2025年度拆迁房买卖合同范本,保障购房人隐私.. 16页

2025年度搬家服务及家居整理合同范本 13页

2025年度数字经济产业园区建设二零二五版标准.. 15页

2025年度文档多场景应用培训与实施合同 4页

2025年度新型殡葬服务合作协议书范本 16页

2025年度新能源创新咨询服务协议书 16页

2025年度无司机长期租赁车辆,打造专属商务出.. 16页

2025年度智慧城市数据更新与创建综合服务合同.. 17页

2019中国石油报社应届高校毕业生招聘试题及答.. 23页

2025年度智能家居设备销售与安装合同 3页

2018年重庆南川中考语文真题及答案B卷 14页

2025年度机动车交通事故责任认定及赔偿协议书.. 16页

2025年度标准商业保理合同 16页

2025年度水沟加固与承包劳务合同范本 16页

2025年度汽车维修技术支持居间服务合同A 13页

2025年度火锅店直营店合作经营合同范本 16页

2025年度物流搬运服务合同细则 15页