1 / 3
文档名称:

特征选择方法综述.doc

格式:doc   大小:76KB   页数:3页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

特征选择方法综述.doc

上传人:sssmppp 2019/11/13 文件大小:76 KB

下载得到文件列表

特征选择方法综述.doc

相关文档

文档介绍

文档介绍::..特征选择方法综述为什么要解决正确有效的特征选择?1、 在样本有限的情况下,用大量特征来设计分类器无论是从计算机开销还是从分类器性能來看都不合时宜2、 特征和分类器性能之间并不存在线性关系,当特征数量超过一定限度时,会导致分类器性能变坏特征获取过程经典特征选择定义:从N个特征集合中选出M个特征的子集,并满足条件M<=N特征提取 广义上是指一种变换,将处于高维空间的样本通过映射或变换的方式转换到底维空间,达到降维的目的特征选择 从一组特征中去除冗余或不相关的特征来降维二者常联合使用要考虑特征子集的稳定性特征获取的定义出了考虑对分类结果等的影响外,特征自身稳定性也是一个应该注意的因素,因此定义特征获取为获得尽可能小的特征子集过程,并满足不显著降低分类精度、不影响分类分布以及特征子集应具有稳定、适应性强的特点特征获取方法分类特征获取要解决的问题:1、 确定选择算法在允许的时问内,以可以忍受的代价找出最小的、最能描述类别的特征组合2、 确定评价标准衡量特征组合是否最优,得到特征获取操作的停止条件分两步进行特征获取,产生特征子集,然后对子集进行评价,如果满足条件,则操作完毕,否则重复前述两步知道条件满足为止按照特征子集形成方式分类:图1按选择算法分类穷举(exhaustion)法遍历特征空I'可中所有特征的组合,选取最优特征组合子集的方法。假设特征个数为N时,计算复杂度为0(2的N次方)。常用的方法有回溯方法及其变体。优点在于一定能得到最优子集,但实际情况下由于特征空间过于庞大,时间耗费和计算复杂度太大,导致实用性不强启发法(heuristic)—种近似算法,具有很强的主观倾向。实际应用中通过采用期望的人工机器调度规则,重复迭代产生递增的特征子集。特征个数为N吋,复杂度一般小于或者等于0(N的二次方)。这种方法实现过程比较简单而且快速,在实际中应用非常广泛,如向前(向后)选择、决策树法、relief方法及其变体等,但不能保证结杲最优,一般获得近似最优解得解随机法(random)相对较新的方法,细分为完全随机方法和概率方法;完全随机方法是指“纯”随机产生子集,概率随机是指子集的产生依照给定的概率进行。虽然计算复杂度仍为0(2的N次方),但通过设置最大迭代次数可以限制复杂度小于0(2的N次方)。常用的方法有LVF、遗传算法、模拟退火算法及其变体,这些方法需要进行参数设置,并且参数值决定是否能得到最优解。如何设置是个问题??总得来说,只有穷举法能保障最优,但耗时并且计算复杂度很高,后两者以性能为代价换取简单、快速的实现,但不能保障最优。先使用relief算法去除无关的特征,其次采用k均值法去除冗余特征,然后进行标准的组合特征方法,取得了较好的效果按照特征评价标准分类哪些特征组合有助于分类,哪些特征组合存在冗余性、部分或者完全无关根据评价函数与分类器的关系,特征选择方法分成:筛选器评价函数与分类器无关筛选器的评价函数可以分为:距离测度 利用距离来度量样本之间相似度的一种方式。分布于不同区域的样本,样本之间距离越小越相似,样本之间距离越大,其可分性就越大。最为常用的一些重耍距离测度有欧式距离、s阶Minkowski测度、chebychev距离、平方距离、非线性测量等,其屮欧