1 / 61
文档名称:

主成分分析(ppt课件).ppt

格式:ppt   大小:8,913KB   页数:61页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

主成分分析(ppt课件).ppt

上传人:1017848967 2018/11/20 文件大小:8.70 MB

下载得到文件列表

主成分分析(ppt课件).ppt

文档介绍

文档介绍:Ch
Part 1 特征降维
误差与维数
例子
贝叶斯误差概率
r增加,误差概率减小
,
假设各特征独立:
到的马氏距离
引入新的特征可使r增大,进而降低误差概率
维度灾难
在实际应用中
当特征个数增加到某一个临界点后,继续增加反而会导致分类器的性能变差——“维度灾难”(curse of dimensionality)
原因?
假设的概率模型与真实模型不匹配
训练样本个数有限,导致概率分布的估计不准
……
对于高维数据,“维度灾难”使解决模式识别问题非常困难,此时,往往要求首先降低特征向量的维度
降维
降低特征向量维度的可行性
特征向量往往是包含冗余信息的!
有些特征可能与分类问题无关
特征之间存在着很强的相关性
降低维度的方法
特征组合
把几个特征组合在一起,形成新的特征
特征选择
选择现有特征集的一个子集
降维
降维问题
线性变换 vs. 非线性变换
利用类别标记(有监督) vs. 不用类别标记(无监督)
不同的训练目标
最小化重构误差(主成分分析,PCA)
最大化类别可分性(线性判别分析,LDA)
最小化分类误差(判别训练,discriminative training)
保留最多细节的投影(投影寻踪,projection pursuit)
最大限度的使各特征之间独立(独立成分分析,ICA)
主成分分析(PCA)
用一维向量表示d维样本
用通过样本均值m的直线(单位向量为e)上的点表示样本
最小化平方重构误差
唯一决定了
(xk-m)在e上的投影
主成分分析(PCA)
用一维向量表示d维样本
e
ak
xk
m
主成分分析(PCA)
寻找e的最优方向
散布矩阵(scatter matrix)
主成分分析(PCA)
使最小的e最大化
拉格朗日乘子法(约束条件)
结论:e为散布矩阵最大的本征值对应的本征向量
是S的本征值(eigenvalue)
e是S的本征向量(eigenvector)
最大本征值对应的最大值
主成分分析(PCA)
将一维的扩展到维空间
用来表示
最小化平方误差