1 / 7
文档名称:

特征选择算法综述.docx

格式:docx   大小:103KB   页数:7页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

特征选择算法综述.docx

上传人:yusuyuan 2022/4/11 文件大小:103 KB

下载得到文件列表

特征选择算法综述.docx

文档介绍

文档介绍:特征选择方法综述

问题的提出
特征选择框架
基于搜索策略划分特征选择方法基于评价准则划分特征选择方法结论
一、问题的提出
特征选择是从一组特征中挑选出一些最有效的特征以降低特征空间维数的过程,是模式识别的dancyandmaximal-relevance)方法。思想:最大化特征子集和类别的相关性,最小化特征之间的冗余。
j⑺=1©/)—=£不;/),
8cs
「°⑺.
西牙(,⑺
FCBF(fastcorrelation-basedfilter)。基于相互关系度量给出的一种算法。对于线性随机变量,用相关系数分析特征与类别、特征间的相互关系。对于非线性随机变量,采用对称不确定性(SUMB度量,对于两个非线性随机变量X和Y,它们的相互关系表示为:
su()=2
1G(X\Y)
H():信息嫡
基本思想:根据所定义的C相关(特征与类别的相互关系)和F-相关(特征之间的相
互关系),从原始特征集合中去除C4目关值小于给定阈值的特征,再对剩余的特征进
行冗余分析。
CMIM(conditionalmutualinformationmaximization)。利用条件互信息来评价特征的重要性程度,即在已知已选特征集S的情况下通过候选特征f与类别C的依赖程度来确定f的重要性,其中条件互信息I(C;f|S)值越大,f能提供的新信息越多。
J(/)^argmin/(C;7|5).
)依赖性度量。有许多统计相关系数被用来表达特征相对于类别可分离性间的重要性程度。如:Pearson相关系数、概率误差、Fisher分数、先行可判定分析、最小平方回归误差、平方关联系数、t-test、F-Statistic等。
Hilbert-Schmidt依赖性准则(HSIC)可作为一个评价准则度量特征与类别
的相关性。核心思想是一个好的特征应该最大化这个相关性。
Zb—argmaxS&t.
SCF
t:所选特征个数上限;F:特征集合;S:已选特征集合;J(S)评价准则
从式中可知需要解决两个问题:一是评价准则J(S的选择;二是算法的选择。
)一致性度量
给定两个样本,若他们特征值均相同,但所属类别不同,则称它们是不一致的;否则,是一致的。试图保留原始特征的辨识能力,找到与全集有同样区分类别能力的最小子集。典型算法有Focus、LVF等。
Filter方法选择合适的准则函数将会得到较好的分类结果。
优点:可以很快地排除很大数量的非关键性的噪声特征,缩小优化特征子集搜索的规模,计算效率高,通用性好,可用作特征的预筛选器。
缺点:它并不能保证选择出一个优化特征子集,尤其是当特征和分类器息息相关时。因而,即使能找到一个满足条件的优化子集,它的规模也会比较庞大,会包含一■些明显的噪声特征。
2)Wrapper法:评价函数是一个分类器,采用特定特征子集对样本集进行分类,根据分类的结果来衡量该特征子集的好坏。Wrapper实质上是一种有导师学****算法。
训练集测试集
优点:准确率高
缺点:1)为选择出性能最好的特征子集,Wrapper算法需要的计算量巨大;
)该方法所选择的特征子集依赖于具体学****机;
)容易产生“过适应”问题,推广性能较差
Embedde昉法。将特征选择集成在学****机训练过程中,