1 / 65
文档名称:

基于最近邻相似度的孤立点检测及半监督聚类算法.pdf

格式:pdf   页数:65页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于最近邻相似度的孤立点检测及半监督聚类算法.pdf

上传人:cherry 2014/4/1 文件大小:0 KB

下载得到文件列表

基于最近邻相似度的孤立点检测及半监督聚类算法.pdf

文档介绍

文档介绍:基于最近邻相似度的孤立点检测及半监督聚类算法浙江工业大学硕士学位论文作者姓名:指导教师:
—ⅲ琲磇篫篐
日期:弘年孪叭日期:抑年日期:加年了月习日学位论文原创性声明学位论文版权使用授权书浙江工业大学⒉槐C馨本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进行研究工作所取得的研究成果。除文中已经加以标注引用的内容外,本论文不包含其他个人或集体已经发表或撰写过的研究成果,也不含为获得浙江工业大学或其它教育机构的学位证书而使用过的材料。对本文的研究作出重要贡献的个人和集体,均已在文中以明确方式标明。本人承担本声明的法律责任。本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留人授权浙江工业大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本学位论文属于作者签名:并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本⒈C芸冢年解密后适用本授权书。朐谝陨舷嘤Ψ娇蚰诖颉啊ⅲ导师签名:
基于最近邻相似度的孤立点检测及半监督聚类算法摘要聚类分析是数据挖掘领域的一种重要方法,聚类结果的好坏不仅依赖于相似度或者距离的定义,而且数据集中的孤立点也会影响聚类的效果。传统聚类分析是一种无监督的学习,没有先验知识的指导。在实际应用中,人们往往可以利用样本空间的一些先验知识或背景信息来解决类标号难的问题,因此产生了半监督聚类。本文首先介绍了聚类分析的相关知识,对数据挖掘中最基本的相似性度量进行了总结。对传统聚类算法进行了分析,给出了传统聚类算法的分类以及主要算法的性能比较:并详细论述了半监督聚类算法的框架以及它与传统聚类算法的不同之处。其次提出了基于最近邻的孤立点检测算法。首先分析了孤立点检测的重要性,给出了最近邻集的确定方法,并详细介绍了检测算法的具体步骤,并使用人工数据集和真实数据集验证了算法的准确性与高效性。本文还提出了基于共享最近邻的半监督聚类算法。首先研究了半监督算法中先验知识的相关情况,介绍了先验知识的获取方式以及表现形式,并提出对约束集扩展的两种方法:根据约束集本身的传递性以及数据集的特点对约束进行扩展。算法结合了扩展后的最近邻集,根据数据点间的嗨贫裙菇⊿相似度图,使用图形分割方法得到聚类结果,并通过真实数据集验证了约束扩展方式的有效性以及聚类算法的高性能。最后,本文结合孤立点检测算法和半监督聚类算法,在一个含有孤立点的数据集上进行实验,先对数据集进行“去噪恚缓蠖云浣邪爰喽骄劾啵ü笛檠橹ち怂惴在孤立点检测以及半监督聚类方面,比其他算法具有更高的准确性。关键词:相似度,孤立点,先验知识,共享最近邻,半监督聚类浙江工业大学硕士学位论文
Ⅵ酣遇孺輎錯飉雠礶捌瞔鷌雠礶诬韙吨鮡洮眦眦缸眦血劬盟沁﹔曲雨娜.,缸研衙蜘玬肫孚矾’衙萨,的“蒾鰈眦访憾缸,鉺腿琤與與豫·器辸鴚印鱡靌器辸咄鱝叩,辒印鷊礶皊№甌出:辒蒳催礶痵瑃鰄弱∞】瑙·,钯鮡闐瑃记頴仃∞.膃趖羣’゛
第滦髀邸!!摘枣⋯⋯——————。。——⋯————⋯——⋯⋯⋯.基于最近邻的孤立点检测算法⋯⋯———录目第课题研究背景与意义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。国内外研究现状⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯本文主要内容及创新之处⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯聚类分析的相关知识传统聚类算法分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯研究意义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。算法特点⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯浙江工业大学硕士学位论文数据挖掘概述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯数据的相似性度量⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯最近邻集的确定⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯算法描:遣⋯⋯⋯⋯⋯”.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯实验分析.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯相似度的定义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..常用的相似性度量方式⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.蚕碜罱谙嗨贫取传统聚类算法简述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯传统聚类算法分类⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯