文档介绍:线性判别分析(LDA)
1
基本思想
线性判别分析的基本思想是将高维的模式样本投影到最佳鉴别矢量空间,即把高维空间中的数据点投影到一条直线上去,将多维降为一维。并且要求投影后各样本的类间散布距离最大,同时类内散布距离最小。
2
LDA 二分类问题公式推导
假设A和B为分类明确的两类症状。在总体A中观察了P例,在总体B中观察了q例,每一例记录了n个指标,分别记为x1,x2,…,xn。令y是n个指标的一个线性函数,即 y=w1x1+w2x2+…+wnxn y=wTx 其中w1,w2,…,wn 是待估计的未知系数。我们称上述线性函数是线性判别法的判别函数。
3
假设用来区分二分类的直线(投影函数)为:
类别i的样本均值:
类别i投影后的均值为:
投影后,类别内点之间的分散程度(方差)为:
最终我们可以得到一个下面的公式,称为准侧函数。
为了找到最有利于分类的的方向W,还需要建立一个准侧函数:
4
LDA
我们分类的目标是找到一个最优化的W,使得类别内的点距离越近越好(集中),类别间的点越远越好。
分母表示每一个类别内的方差之和,方差越大表示一个类别内的点越分散,分子为两个类别各自的中心点的距离的平方,我们最大化J(w)就可以求出最优的w
5
定义:
(1)样本类内离散度矩阵Si和总类内离散度矩阵
(2)样本类间离散度矩阵 SB
LDA
6
LDA
然后将J(w)分子和分母分别化为:
这样目标优化函数可以化成下面的形式:
瑞利商
7
根据广义Rayleigh商的性质:
J(w)的极值与w的大小无关,只与w的方向有关。
8
Fisher算法步骤总结:
由Fisher线性判别式 求解向量 的步骤:
① 把来自两类 的训练样本集 分成 和 两个子集 和 。
② 由 ,i=1,2 ,计算 mi。
③ 由 计算投影后各类的类内离散度矩阵
④ 计算类内总离散度矩阵
⑤ 计算 Sw 的逆矩阵 。
⑥ 由 求解w* 。
9
月份/年龄
男孩体重(kg)
男孩身高(cm)
女孩体重(kg)
女孩身高(cm)
出生时
1~2 个月
2~3 个月
3~4 个月
4~5 个月
5~6 个月
6~7 个月
7~8 个月
8~9 个月
9~10 个月
幼儿不同年龄段的身高体重指标:
10