文档介绍:硕士学位论文
Hadoop平台下基于SVM主动学习的分类算法研究
Research on Classification Algorithm
Based on Active Learning SVM in Hadoop Platform
A Dissertation Submitted for the Degree of Master
Candidate:Pan Xingjiang
Supervisor:Prof. Wen Guihua
South China University of Technology
Guangzhou, China
学位论文原创性声明
本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。
作者签名: 日期: 年月日
学位论文版权使用授权书
本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。
涉密论文按学校规定处理。
作者签名: 日期: 年月日
导师签名: 日期: 年月日
华南理工大学
学位论文原创性声明
本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。
作者签名: 日期: 年月日
学位论文版权使用授权书
本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属华南理工大学。学校有权保存并向国家有关部门或机构送交论文的复印件和电子版,允许学位论文被查阅(除在保密期内的保密论文外);学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。本人电子文档的内容和纸质论文的内容相一致。
本学位论文属于:
□保密,在年解密后适用本授权书。
□不保密,同意在校园网上发布,供校内师生和与学校有共享协议的单位浏览。
(请在以上相应方框内打“√”)
作者签名: 日期:
指导教师签名: 日期:
摘要
实际分类过程中,在解决某些分类问题时,需要进行训练样本集的构建,以为分类模型的产生提供训练样本,但提供的原始样本只有属性,并没有给出类别信息,这样就需要花费大量的时间进行评价、标注每一个样本。为了解决这个问题,则需要研究一种方法能够在减少训练样本的同时,提升分类器的分类性能。于是,主动学习作为解决这类问题的一种方法被提出来,该算法能够从未标注样本集中选择信息量最大的样本交由用户进行标注,在减少所需评价的样本数量的同时,不断完善自身的识别效果。
SVM基于结构风险最小化原理,避免了局部最优问题,用核函数在输入空间计算特征空间的向量点积,避免了维数灾难问题,最优分界面使得SVM在小训练样本条件下也具有高的泛化能力。而主动学衡训练样例干扰较小等特点,与SVM组合能降低构建高性能分类器的代价,获得较高的分类性能。因此,本文采用主动学习与支持向量机相结合的分类算法,并针对传统SVM主动学习算法对不均衡数据集学习能力较差导致SVM主动学习在选择过程中选择效率较低的问题引入了一种均衡采样的SVM主动学习算法(BC-SVM)。同时,由于初始样本集会影响SVM主动学习的收敛,本文在BC-SVM的基础上采用模糊聚类构建初始样本集,并改进模糊选择算法模型,提出了一种模糊聚类的均衡采样SVM主动学习算法(FBC-SVM),使得初始样本的选取更具代表性和信息量,加速SVM主动学习算法的收敛。
同时,本文还分析了SVM主动学台的研究基础上,利用Hadoop对SVM主动学习询问机制进行Map/Reduce化,使Hadoop对SVM主动学台之上。在有效地利用了多台计算机的运算能力后,通过实验证明了Hadoop平台下的SVM主动学习询问机制能有效地调度每台计算机的计算资源,减少高维数据分类的运行时间。
关键词:主动学台;分类
Abstract
In the actual classification process