1 / 62
文档名称:

基于图的半监督学习算法研究.pdf

格式:pdf   页数:62页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于图的半监督学习算法研究.pdf

上传人:peach1 2014/5/15 文件大小:0 KB

下载得到文件列表

基于图的半监督学习算法研究.pdf

文档介绍

文档介绍:中山大学
硕士学位论文
基于图的半监督学习算法研究
姓名:陈文晖
申请学位级别:硕士
专业:计算机软件与理论
指导教师:印鉴
20090416
摘要监督学习算法,其中更详细介绍了目前半监督学习领域的热点——基于图的半监论文题目:专业:硕士生:指导教师:基于图的半监督学习算法研究计算机软件与理论陈文晖印鉴教授近年来,半监督学习成为机器学习领域中的研究热点,并越来越受到国际机器学习研究者的关注。其理论研究也越趋成熟,并且开始逐步应用于实际问题。本文首先对半监督学习的相关背景知识进行了介绍,并回顾了几种经典的半督学习算法。在回顾几种重要算法的同时,本文还对基于图算法的相关问题进行了探讨,如图的构造,图核的转换以及不相似信息的处理等。接着重点描述了本文的主要工作。由于在基于图的半监督学习中,类标签的数目和分布位置都会对算法的性能产生很大影响,基于此,本文尝试将不受标签影响的聚类分析算法同基于图的半监督学习算法相结合以减少初始标签数目和分布情况所带来的影响。另外,鉴于聚类算法聚类方向的不确定性,为减少这种不确定性,本文引入了与半监督学习密切相关的主动学习。综合上述思想,本文提出一种结合基于密度的聚类算法和主动学习的基于图的半监督学习算法,并进而给出该算法的一个框架。实验证明,本文提出的算法能够有效减少初始标签数目和分布情况所带来的影响,使得基于图的半监督学习算法对初始标签的鲁棒性更好。关键词:半监督学习、聚类、图
.甒.—.篜甁琲甅,,猙瓸産篠猄:!猙——,,.,·,瑆瓵瑆瑂瑃.,,.,瑆猙琣.,Ⅱ
靴做作者签名聪坟晖翩魏舻镶女蛘日期:檀莄月玉论文原创性声明学位论文使用授权声明铷们.Ⅸ日期:锍本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究作出重要贡献的个人和集体,均己在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名:本人完全了解中山大学有关保留、使用学位论文的规定,即:学校有权保留学位论文并向国家主管部门或其指定机构送交论文的电子版和纸质版,有权将学位论文用于非赢利目的的少量复制并允许论文进入学校图书馆、院系资料室被查阅,有权将学位论文的内容编入有关数据库进行检索,可以采用复印、缩印或其他方法保存学位论文。日期:
引言啪和标注数据传统的机器学习领域包括无监督学习喽窖约扒炕渲形藜喽窖如聚类等豢疾煳薇曜⒌氖菁埃;监督学习绶掷嗟首先利用已标注的数据集■,,⋯,耄醒埃佣孕率莨そ蟹掷嗷蛟げ獾龋而强化学习则是通过学习系统不断观察环境,产生动作,获得评价,,从而改进行动策略以适应环境。从前面可以看出由于无监督学习仅使用未标注数据进行学习,而不用已标注的数据,这样导致无监督学习方向具有不确定性,往往很难达到人们预期的分类目标。例如给出一系列数码产品让计算机进行分类,人们期望计算机能按类别进行归类,如分类成阆窕龋呛芸赡芤蛭H鄙俦曜⑿畔⒌贾录扑慊照品牌进行分类,如分类成,等。另外,监督学习只使用标注数据作为训练数据进行学习,但是训练数据的大量获得需要耗费大量的资源暇寡盗肥据的标记需要人工进行K裕笔褂梦幢曜⑹,半监督学习也成为了机器学习中的重要研究领域之一。无论在理论还是实际应用中半监督学习也都得到了长足的发展,并被广泛应用于各领域,如文本分类,网页检索,视频和图像挖掘,语音识别,生物结构预测等。正如上文所述,半监督学习不同于传统的机器学习方式,它是介于无监督学习与监督学习之间的一种机器学挥部分存在的情况下,或者训练数据的部分信息不存在的情况下,如何获得具有良好性能以及推广能力的学习机器。⒆匝、自标号鹊取这些方法主要是在分类算法中加入未标注数据来进行学习,从而获得效果更好的学习机器。同期,文献【岢隽艘恢种蓖或的概念,直推不同于归纳推理,直推只对训练和测试数据基于图的半监督学习算法研究引言
中的未标注数据进行分类或预测,而不能对训练和测试数据外的数据进行分类或预测,而归纳推理可以将学习到的分类器用于训练和测试数据以外的数据。而目前基于图的半监督学习算法大多属于直推算法。ò爰喽椒掷—<杏诎爰喽椒掷喾矫妫缥南【一偕杳恳焕嗍莘夏骋恢帜P头植迹敲凑鍪菁氖莘植际腔旌的,于是用有限混合模型对数据的概率分布进行建模,最后利用标注数据和未标注数据作为训练集并通过等算法来学习模型参