1 / 70
文档名称:

基于半监督的高维聚类算法及研究.pdf

格式:pdf   页数:70页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于半监督的高维聚类算法及研究.pdf

上传人:tswng35 2016/3/28 文件大小:0 KB

下载得到文件列表

基于半监督的高维聚类算法及研究.pdf

文档介绍

文档介绍:分类号!殴窆! 密级公五 UDC 004 江荨大擎硕士学位论文基于半监督的高维聚类算法研究 Study on High--Dimension Clustering Algorithm Based on Semi--supervised 申请学位级别亟± 专业名称i±簋扭应届撞苤论文提交日期至Q】】生鱼旦论文答辩日期2Q!!生鱼旦学位授予单位和日期洹菱太堂至Q】】笙鱼旦答辩委员会主席评阅人独创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已注明引用的内容以外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果,也不包含为获得江苏大学或其他教育机构的学位或证书而使用过的材料。对本文的研究做出重要贡献的个人和集体,均己在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名:殳正宣 2,-t1年e只t2 n 学位论文版权使用授权书江苏大学、中国科学技术信息研究所、国家图书馆、中国学术期刊(光盘版) 电子杂志社有权保留本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一致, 允许论文被查阅和借阅,同时授权中国科学技术信息研究所将本论文编入《中国学位论文全文数据库》并向社会提供查询,授权中国学术期刊(光盘版)电子杂志社将本论文编入《中国优秀博硕士学位论文全文数据库》并向社会提供查询。论文的公布(包括刊登)授权江苏大学研究生处办理。本学位论文属于不保密口。学位论文作者签名:是正童办,f年6月侈日指导教师签名∥,f年易日摘要半监督学****足近几年来机器学****的一大研究热点,相比于传统的无监督和监督学****半监督学****同时利用有标记和无标记样本来提高学****效果。其中,半监督聚类是半监督学****的一个重要分支,在处理图像分类以及人脸识别等应用中可见其重要作用。随着数据采集技术的发展,数据采集的种类越来越多,维数越来越高。现有的半监督聚类算法和传统的聚类算法一样,时间效率随着数据的维数增长呈指数增长。一个行之有效的方法是先通过对数据集进行降维,再用传统的算法进行聚类。但现有的半监督降维算法在利用未标记数据时,没有考虑数据点之间的距离关系,导致降维以后数据点之间的距离关系产生偏差,降维效果并不理想。同时, 现有的半监督聚类算法通常使用单个质心来代表一个簇,只适合类球形的簇,难以适合非球形的簇。而且当数据集中出现离群点时,也会干扰数据集的聚类效果。因此,本文主要研究能保持数据点之问距离关系的高维数据的降维算法;研究非球形簇的聚类问题;研究消除离群点对聚类精度影响的半监督聚类算法。论文的主要贡献如下: (1)通过对现有的半监督聚类和降维算法的分析,发现现有的半监督聚类算法存在只适合球形簇的聚类,聚类结果对离群数据敏感;数据在降维以后不能够保持数据集之问的距离远近关系等局限。(2)提出基于代表点的方法解决非球形簇的聚类问题,即基于成对约束的半监督聚类算法SBIRCH(Semi—supervised Balance IterativeReducing and clustering usingHierarchies)。算法在BIRCH算法的基础上,通过选取多个点来代表一个簇, 解决传统算法只用单个质心来表示一个簇,不适合非球形的几何形状簇的问题。同时在聚类算法结束前通过剔除单个点的簇来解决离群点对聚类的影响。实验结果表明,该算法可有效解决任意形状簇的聚类问题,减少离群点对聚类结果的影响,提高聚类精度。(3)提出基于距离权值的方法解决高维数据降维后距离关系发生偏差的问题,即基于权值的局部保持半监督降维算法WSSDR(weight localpreserving based semi—supervised dimensionality reduction)。该算法不仅利用正、负约束信息,同时江苏大学硕士学位论文利用数据点之间的距离权值来保持数据点之间的距离关系,使得高维数据在降维以后仍保持远近关系不变,从而保持数据集所在的低维流形结构。通过实验表明, 该算法能够有效解决降维后数据点之间因维数的缺少而产生的远近关系偏差,提高降维效果。(4)提出~种基于半监督的高维聚类算法。该算法首先利用WSSDR算法对高维数据进行降维处理,然后再利用SBIRCH算法对降维后的数据进行聚类。实验结果表明,该算法在降维阶段能够有效的保持数据点之间的距离远近关系,同时解决任意形状簇的聚类问题,提高高维数据聚类精度。关键词:半监督聚类,半监督降维,高维数据,代表点,距离权值江苏大学硕士学位论文 ABSTRACT In recent years,semi—supervised learning es ahotspot inmachine learning. Co