1 / 41
文档名称:

针对非均匀数据集DBSCAN过滤式改进算法.pdf

格式:pdf   页数:41页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

针对非均匀数据集DBSCAN过滤式改进算法.pdf

上传人:2286107238 2015/9/2 文件大小:0 KB

下载得到文件列表

针对非均匀数据集DBSCAN过滤式改进算法.pdf

相关文档

文档介绍

文档介绍:摘要计算出印研,为后面的过滤式聚类作好准备。在得到参数印��螅�盟惴ǜ�莶煌�挠�分别进行聚类,从而找出非均匀印毋,然后再根据印毋进行过滤式聚类。因此,在针对密度不均匀的数据集时,改的知识和规则。聚类分析是数据挖掘领域中的一个重要研究课题。所谓聚类是将物理或抽象的集合分组成为类似的对象组成的多个类的过程。由聚类所生成的类是一组数据对象的集合,这些对象与同一个类中的对象彼此相似,与其它类中的一个较大的、复杂的、连续的、有许多变量的数据库和完全未知的结构时,聚类基于网格的方法和基于模型的方法。���算法是一种典型的基于密度的方法,该算法的优点是可以发现任意形状的聚类,且聚类结果受噪音点影响小。但是该算法存在如下缺点:算法中需使用到全局变量��蚆����舯淞咳≈挡坏保�会影响聚类质量;当数据分布不均匀时,采用全局统一的变量,会降低聚类质量。了一种���过滤式改进算法。该算法首先对�猟���萁�幸晃�劾啵���数据集中的各种聚类。在聚类过程中,每当下一次调用聚类算法进行聚类时,将去掉已经聚成类的数据点,以避免数据点被重复聚类。由于改进算法首先通过对�猟���萁�幸晃�劾啵�缘玫讲煌�芏人�降�关键词:数据挖掘,聚类,非均匀密度,���,过滤数据挖掘是从海量的数据中挖掘出隐含的、先前未知的、对决策有潜在价值对象相异。在许多应用中,可将一个类中的数据对象作为一个整体处理。当分析是一个非常有用的工具。目前,聚类分析算法大体上分为划分的方法,层次的方法,基于密度的方法,针对���算法的缺点,本文在结合一种减少邻域搜索思想的同时,提出去掉噪声类,从而得到能代表主要密度水平的类;然后再根据一维聚类结果自动进算法的聚类质量更好,并更能反映数据集的分布特征。重庆大学硕��宦畚�中文摘要
韎���閕�����鷈���������:�痠���鰀�����甇�������甒���踫�垩校瑃��上≯研��畚悖琣��正≯研�重庆大学硕十学位论文英文摘要��.�������������.������伊��������,��������,�������.������.����,������瑃��猟����������瑄��������������.������琣���’�����.���������,����琧�����,����������.����琧��������砌.�����,����甦����孤.����琲�������瑃�������.���,�����,����.�����������.��猟������.���,�����琣���趓������瑆������甋�瑆�������,�玎�
,�����,���重庆人学硕十学位论文英文摘要���‘�:�������珼���現�������
兰龚匿受籍篙舞氅髭票�甭ǔ锏示�甘嘱┍垮黥酥卷枥隰阋0暌炝穗�俎下简称··章程”��敢饨ū救撕妒垦�宦畚摹杜�碰塑壹查堑垡鱼�樗壳等鎞挝彳荡学位论文作者签名:炙椎毅学位论文独创性声明学位论文使用授权书该论文属于涉密论文,其密级是——,涉密期限至——年一月一日。签字日期:川寄��奕�签字日期:∥��甖.£,说明:本声明及授权书:�抛岸┰谔峤坏难�宦畚淖詈笠灰场�变工作�叭∪斓难芯空焦�>∥宜�#��宋募滋乇鸺右员曜⒑椭滦坏牡胤酵猓��导师签名:人呈位本人完全了解重庆大学有关保留、使用学位论文的规定。本人完全同意《中国博士学位论文全文数据库、中国优秀硕士学位论文全文数据库出版章程》��提交中国学术期刊�馀贪�电子杂志社���在《中国博型学位论文全列数’�据库》、《中国优秀硕士学位论文全文数据库》以及《重庆大学博硕学位论文全文数据库》中全文发表。《.中国博士学位论文全文数据库》、《中国优秀硕士学位论文全文数据库》可以以电子、网络及其他数字媒体形式公开出版,并同意编入�菼《中国知识资源总库》,在《中国博硕士学位论文评价数据库》中使用和在互联网上传播,同意按“章程�娑ㄏ硎芟喙厝ㄒ婧统械O嘤σ逦瘛1救耸谌ㄖ厍齑�学可以采用影印、缩印或其他复制手段保存论文,可以公开论文的全部或部分内容。备注:审核通过的涉密论文不得签署。授权书一,须填写以下内容:本声明所的士学论文作者签名:导师签.。
绪论��研究背景和意义不同密度水平,产生相应的印�,然后依次调用不同的印��芯劾啵�佣�虾��随着计算机和通信技术的飞速发展,收集和存储的各种各样类型的数据正在以爆炸性的速度不断地增长。人们利用信息技术的能力大幅度提高,成千上万的数据库被用于商业管理、政府办公、科学研究和工程开发等等。与此同时,人们正面对着这样一个矛盾:一方面,人们拥有海量的数据;另一方面,人们却为信息和知识的缺乏而苦恼。如何从海量的数据中,提取出人们所关心的、未知的、有利于分析决策过程的信息和知识是人们迫切需要解决的问题。数