文档介绍：Ch
Part 1 特征降维
误差与维数
例子
贝叶斯误差概率
r增加,误差概率减小
,
假设各特征独立:
到的马氏距离
引入新的特征可使r增大,进而降低误差概率
维度灾难
在实际应用中
当特征个数增加到某一个临界点后,继续增加反而会导致分类器的性能变差——“维度灾难”(curse of dimensionality)
原因?
假设的概率模型与真实模型不匹配
训练样本个数有限,导致概率分布的估计不准
……
对于高维数据,“维度灾难”使解决模式识别问题非常困难,此时,往往要求首先降低特征向量的维度
降维
降低特征向量维度的可行性
特征向量往往是包含冗余信息的!
有些特征可能与分类问题无关
特征之间存在着很强的相关性
降低维度的方法
特征组合
把几个特征组合在一起,形成新的特征
特征选择
选择现有特征集的一个子集
降维
降维问题
线性变换 vs. 非线性变换
利用类别标记(有监督) vs. 不用类别标记(无监督)
不同的训练目标
最小化重构误差(主成分分析,PCA)
最大化类别可分性(线性判别分析,LDA)
最小化分类误差(判别训练,discriminative training)
保留最多细节的投影(投影寻踪,projection pursuit)
最大限度的使各特征之间独立(独立成分分析,ICA)
主成分分析(PCA)
用一维向量表示d维样本
用通过样本均值m的直线(单位向量为e)上的点表示样本
最小化平方重构误差
唯一决定了
(xk-m)在e上的投影
主成分分析(PCA)
用一维向量表示d维样本
e
ak
xk
m
主成分分析(PCA)
寻找e的最优方向
散布矩阵(scatter matrix)
主成分分析(PCA)
使最小的e最大化
拉格朗日乘子法(约束条件)
结论:e为散布矩阵最大的本征值对应的本征向量
是S的本征值(eigenvalue)
e是S的本征向量(eigenvector)
最大本征值对应的最大值
主成分分析(PCA)
将一维的扩展到维空间
用来表示
最小化平方误差