文档介绍：线性判别分析（LDA）
精选ppt
介绍
线性判别分析(Linear Discriminant Analysis, LDA)，也叫做Fisher线性判别(Fisher Linear Discriminant ,FLD)，是模式线性判别分析（LDA）
精选ppt
介绍
线性判别分析(Linear Discriminant Analysis, LDA)，也叫做Fisher线性判别(Fisher Linear Discriminant ,FLD)，是模式识别的经典算法，1936年由Ronald Fisher首次提出，并在1996年由Belhumeur引入模式识别和人工智能领域。
精选ppt
基本思想
线性判别分析的基本思想是将高维的模式样本投影到最佳鉴别矢量空间，以达到抽取分类信息和压缩特征空间维数的效果。投影后保证模式样本在新的子空间有最大的类间距离和最小的类内距离，即模式在该空间中有最佳的可分离性。
因此，它是一种有效的特征抽取方法。使用这种方法能够使投影后模式样本的类间散布矩阵最大，并且同时类内散布矩阵最小。
精选ppt
LDA
LDA与PCA(主成分分析)都是常用的降维技术。PCA主要是从特征的协方差角度，去找到比较好的投影方式。LDA更多的是考虑了标注，即希望投影后不同类别之间数据点的距离更大，同一类别的数据点更紧凑。
精选ppt
下面给出一个例子，说明LDA的目标：
可以看到两个类别，一个绿色类别，一个红色类别。左图是两个类别的原始数据，现在要求将数据从二维降维到一维。直接投影到x1轴或者x2轴，不同类别之间会有重复，导致分类效果下降。右图映射到的直线就是用LDA方法计算得到的，可以看到，红色类别和绿色类别在映射之后之间的距离是最大的，而且每个类别内部点的离散程度是最小的（或者说聚集程度是最大的）。
精选ppt
精选ppt
LDA
要说明白LDA，首先得弄明白线性分类器(Linear Classifier)
：因为LDA是一种线性分类器。对于K-分类的一个分类问题，
会有K个线性函数：
当满足条件：对于所有的j，都有Yk > Yj,的时候，我们就说x
属于类别k。对于每一个分类，都有一个公式去算一个分值，
在所有的公式得到的分值中，找一个最大的，就是所属的分类
。
权向量（weight vector）
法向量（normal vector）
阈值（threshold）
偏置（bias）
精选ppt
LDA
上式实际上就是一种投影，是将一个高维的点投影到一条高维的直线上，LDA最求的目标是，给出一个标注了类别的数据集，投影到了一条直线之后，能够使得点尽量的按类别区分开，当k=2即二分类问题的时候，如下图所示：
红色的方形的点为0类的原始点、蓝色的方形点为1类的原始点，经过原点的那条线就是投影的直线，从图上可以清楚的看到，红色的点和蓝色的点被原点明显的分开了，这个数据只是随便画的，如果在高维的情况下，看起来会更好一点。下面我来推导一下二分类LDA问题的公式：
精选ppt
LDA
假设用来区分二分类的直线（投影函数)为：
LDA分类的一个目标是使得不同类别之间的距离越远越好，同
一类别之中的距离越近越好，所以我们需要定义几个关键的值:
精选ppt
LDA
类别i的原始中心点(均值)为：（Di表示属于类别i的点):
类别i投影后的中心点为：
衡量类别i投影后，类别点之间的分散程度（方差）为：
最终我们可以得到一个下面的公式，表示LDA投影到w后的目标优化函数：
精选ppt
LDA
我们分类的目标是，使得类别内的点距离越近越好（集中），类别间的点越远越好。
精选ppt
LDA
分母表示每一个类别内的方差之和，方差越大表示一个类别内的点越分散，分子为两个类别各自的中心点的距离的平方，我们最大化J(w)就可以求出最优的w
精选ppt
LDA
我们定义一个投影前的各类别分散程度的矩阵，这个矩阵看起来有一点麻烦，其实意思是，如果某一个分类的输入点集Di里面的点距离这个分类的中心店mi越近，则Si里面元素的值就越小，如果分类的点都紧紧地围绕着mi，则Si里面的元素值越更接近0.
带入Si，将J(w)分母化为：
精选ppt
LDA
同样的将J(w)分子化为：
这样目标优化函数可以化成下面的形式：
 推导过程忽略了，最后推导结果如下：
精选ppt
LDA
对于N(N>2)分类的问题，就可以直接写出以下的结论：
这同样是一个求特征值的问题，求出的第i大的特征向量，即为对应的Wi。
精选ppt
LDA在人脸识别中的应用
精选ppt
主要应用方法
K-L变换
奇异值分解
基于主成分分析
Fis