文档介绍:摘 要
特征选择方法的优劣极大地影响着分类器的设计和性能,它是模式识别核心问
题之一,为了提高分类识别算法的可靠性及效率,需要对特征进行合理的选择,以选
择出对该分类器而言最能有效区分不同类别的特征。本文把支持向量机 SVM 用于特
征选择,SVM 是模式识别的新技术之一,它已经被广泛应用于许多领域,特征选择
和支持向量机核参数的设置是影响它的分类准确度的两大重要因素。
特征选择能视为一个多目标优化问题,因为在最简单的情况下它包括特征子集
规模最小化和性能最优两个目标。针对特征选择和 SVM 参数同步优化的实现做得不
理想、目前用单目标遗传算法进行特征选择存在稳定性差、且得到的分类准确率较
低等问题,本文提出了基于非劣分类遗传算法和 SVM 的多目标特征选择方法,非劣
分类遗传算法 NSGA 是一性能优良的多目标遗传算法。文中的特征选择方法通过
Wilcoxon-test 方法做相应的粗选择和预处理,并在 SVM 学****过程中采取在小样本下
有很强优势的留一交叉验证法得到单个特征的分类准确率和它们的优劣排序后,把
SVM 以封装的方式嵌套在非劣分类遗传算法中,通过特征维数最小和误分率最低两
个目标为指引进行随机搜索,在逐步进化过程中得到最佳特征子集和 SVM 同步优化
参数。
文中提出的策略通过两个基准数据集进行实验和评估。实验表明了策略的可行
性和有效性,在单目标特征选择方法中出现的问题也得到了解决,它能获得最佳特
征子集且 SVM 参数也得到同步优化,即最佳特征子集的选择在不降低 SVM 分类性
能的前提下得到实现、SVM 的泛化能力也得到提高。
关键词:特征选择;支持向量机;多目标优化;非劣分类遗传算法
I
Abstract
Feature selection methods impacts badly on the design and performance of classifiers,
it is one of the most important problem in Pattern Recognition, selecting the most
discriminative features for classifiers is needed in order to improve the reliability and
efficiency of classification algorithms. In this paper, Support Vector Machines are used in
feature selection, Support Vector Machines (SVM), one of the new techniques for Pattern
Recognition, have been widely used in many application areas. Feature selection and the
kernel parameters setting for SVM in the training process are the two important factors
that impact the classification accuracy.
Feature selection can be viewed as a multi-objective optimization problem, because
in the simplest case it involves feature subset size minimization and performance
maximization. For the defects such as the bad stability and low classification accuracy of
using Standard Genetic Algorithm (SGA) for feature selection and the bad realizati