文档介绍:第三章判别函数分类器
经过特征抽取之后,一个模式可以用维特征空间中的一个点来表示,当特征选择适当时,可以使同一类模式的特征点在特征空间中某个子区域内分布,另一类模式的特征点在另一子区域分布(例如苹果和橙子的问题)。这样,我们就可以用空间中的一些超曲面将特征空间划分为一些互不重叠的子区域,使不同模式的类别在不同的子区域中。这些超曲面称为判别界面,可以用一个方程来表示:,其中的是一个从维空间到一维空间的映射,称为是判别函数(Discriminant Function)。
在所有的函数形式中,线性函数是一种最简单的形式,下面我们就从线性判别函数入手来研究判别函数分类器。
预备知识
在介绍线性判别函数之前,先来帮助大家复习一下有关于矢量和矩阵的知识。
矢量
这里的矢量可以看作是维欧氏空间中的一个点,用一个列矢量表示:
矩阵
有的时候矩阵可以看作是由若干个矢量构成的:
是一个的矩阵,其中的称为是矩阵的行矢量。
矩阵的秩
矩阵所有行向量中的最大无关组个数称为行秩,矩阵所有列向量中的最大无关组个数称为列秩。一个矩阵的行秩等于列秩,称为矩阵的秩。
转置
列矢量的转置为一个行矢量,的矩阵的转置为一个的矩阵。
矢量和矩阵的乘法
设和为维列矢量,为一个的矩阵。则:
,是一个数值,称为与的内积;
,是一个的矩阵;
,是一个维的列矢量
正交
设和为维列矢量,如果和的内积等于零,,则称和正交,也称垂直于。
逆矩阵
设为一个的方阵,的逆阵用表示,满足,为单位阵。一个矩阵的逆阵存在条件是,首先是一个方阵,其次是一个满秩矩阵,即矩阵的秩为。
矩阵的特征值和特征向量
设为一个的方阵,如果存在一个数和一个维的非零列矢量,使得:成立,则称为的特征值,为属于的特征向量。
一般来说一个矩阵应该有个特征值(可能相等),对应有个特征向量。
矩阵的迹和行列式值
设为一个的方阵,的迹为主对角线元素之和:;的行列式值表示为。
如果矩阵有个特征值,则有,。
矩阵微分
矩阵对数值变量微分
如果矩阵的每一个元素是变量的可微函数,则称
可微:
其结果还是一个的矩阵。
矩阵函数对矩阵的微分
设,元函数,定义对矩阵的导数为:
其结果是一个的矩阵。
特殊的,函数对一个矢量的微分是一个矢量。
常用微分的性质
设和是维的矢量,是一个维的矩阵,
,;
,;
,。
线性判别函数
一、两类问题
维空间中的线性判别函数可以表示为:
其中为待识模式的特征矢量,称为权矢量。一般为了处理方便,我们可以将特征矢量和权矢量改为另外一种方式表示:称为增广的特征矢量,称为增广的权矢量。则线性判别函数可以以一种简单的内积形式表示:。
在二维空间中,判别界面可以用一个直线方程来表示:;在三维空间中,判别界面为一个平面;在高维空间中,判别界面为一个超平面。
当我们已知线性判别函数的权矢量时,可以构造这样一个分类器:
但模式处在分类界面上时,,这是一种极端情况,可以采用两种办法来处理,一种是认为它既不属于类,也不属于,拒绝识别;另一种办法是认为。
对于线性判别函数来说,权向量在线性空间中是一个垂直于分类界面的矢量。
二、多类问题
设有个类别,模式为维空间中的矢量。
情况一:每一类模式可以用一个超平面与其它类别分开,即可用线性判别函数将属于和不属于类的模式(记为)分开。这种情况可以把个类别的多类问题分解为个两类问题解决,需要个判别函数。此时判别函数为:
例如在二维空间中的三类问题,判别函数分别为:
,,
分类器可以按照如下规则设计:
当,而且时,判别;
当,而且时,判别;
当,而且时,判别;
其它情况,拒识(对应IR区域)。
情况二:每两类之间可以用一个超平面分开,但是不能用来把其余类别分开。这是需要将个类别的多类问题转化为个两类问题。判别函数为:
,,
其中:。分类器可以采用如下规则:如果,,则决策。
在这种情况下,同样存在着拒识区域,例如图中的阴影区域,,,,所以它不属于任何一个类别。
:一个三类问题,有三个判别函数:
,,
现有模式,判别它属于哪一类?
带入三个判别函数:
,得;
,得;
,得。
可见,所以可以判别。
情况三:在情况一和情况二中都存在着拒识区域。拒识区域的存在,对某些问题来说是必要的,而对某些问题来说是不必要的。情况三是情况二的一个特例,在这种情况下不存在拒识区域。
首先我们需要对个类别分别个线性函数:
,,
然后按照如下的规则作出判别:
,则。
这样构造的分类器也称为是最大值分类器。它也可以看作是一种特殊形式的情况二的分类器,第类与第类之间的判别函数可以写成:
,,。
实际上,情况三的分类器我们在距离分类器中已经遇到过,使用