文档介绍：基于监督聚类的极限学习机的增量学习
算法研究

重庆大学硕士学位论文
(学术学位)

学生姓名:曾新苗
指导教师:张敏副教授
专业:计算机软件与理论
学科门类:工学

重庆大学计算机学院
二 O 一三年四月
Study on Incremental Algorithm based on
Supervised Clustering and Extreme
Learning Machine

A Thesis Submitted to Chongqing University
in Partial Fulfillment of the Requirement for the
Master’s Degree of Engineering
By
Zeng Xinmiao

Supervised by Ass. Prof. Zhang Min
Specialty: Computer Software and Theory

College puter Science of
Chongqing University, Chongqing, China
April 2013
重庆大学硕士学位论文中文摘要

摘要

传统的学习算法都是批量学习算法,即假设一次性获得所有样本,或者获得
有代表性的样本,然后用其对分类器进行训练。但在实际的生活中,要一次性获
得所有样本,或者获得有代表性的样本是不现实的。针对这种情况,传统的批量
学习算法,面对新来样本时,总是将新增样本和之前所有已经学习过的样本进行
再次学习,但这样会耗费很多时间,且对内存的要求也比较高。增量学习,能够
在保存以前已经学习到的―旧知识‖的基础上,实现对样本的增量学习。仅对新样本
进行增量学习,加快了算法的学习速度,也减少了算法对内存的需求,较好的解
决了上述问题。国内外对增量学习已经进行了广泛的研究,主要有基于支持向量
机的增量学习算法、基于贝叶斯网络的增量学习算法、基于神经网络的增量学习
算法。极限学习机是单隐层前馈神经网络的一种典型学习算法,具有学习速度快、
拟合度高、泛化性能好、分类速度快、参数设置容易等优点。
本文在极限学习机的基础上,引入监督聚类的概念,提出了一种新的增量学
习算法--CW-ELM 算法。论文中首先说明了监督聚类中,我们所拥有的重要先验知
识--样本的类别信息;然后阐述了传统的、基于距离的聚类标准的缺点,从理论上
说明了采用―样本输出‖是否接近作为新的聚类标准的合理性,在此基础上提出了一
种新的监督聚类标准,即基于―样本类别‖和―样本输出‖的监督聚类准则。将同一样
本类别的、―样本输出‖接近的样本分为同一簇。在构造极限学习机时,首先对样本
进行聚类,并用一个矩阵去记录每个簇的簇中心;在进行增量学习时,我们只需
将每个簇的簇中心和新来样本进行学习即可,而不用学习全部―旧样本‖,这样既加
快了算法的学习速度,也减少了对内存的需求。此外,在计算极限学习机的隐层
与输出层之间的连接权重时,如果采用传统的 Moore-Penrose 算法求广义逆矩阵,
并不能满足极限学习机所要求的―分类后,数据集整体损失最小‖。为此,本文提出
了一种加权的 Moore-Penrose 算法求广义逆矩阵。实验结果表明,CW-ELM 算法具
有拟合度高、泛化性能好等优点。

关键字:极限学习机,监督聚类,增量学习,分类
I
重庆大学硕士学位论文英文摘要

ABSTRACT

Traditional learning algorithms are all batch learning algorithms, which assume all
the samples(or representative samples) is available in advance, then use the samples we
have obtained to train the classifier. However, in reality, we can’t obtain all samples in
advance, or get a representative set of training examples. In this case, traditional batch
algorithms usually choose to retrain the classifier using all