文档介绍:基于支持向量机的语种识别方法 报告提纲?支持向量机的原理?广义线性区分序列核函数?基于支持向量机的语种识别系统?其他支持向量机的原理?在低维特征空间,线性支持向量机:线性可分和线性不可分 svsv支持向量机原理?通过一个非线性函数ф将低维特征空间的数据 x映射到高维特征空间,从而把线性不可分的数据在高维空间转化为线性可分; ?非线性支持向量机:线性可分和线性不可分???????????????????nibxwy w ii,,2,1,1 2 1 min 2????????????????????????????nibxwy ni i w iiiiC,,2,1,0,1 1 2 1 min 2?????支持向量机核函数????????????????????????????????????????????????? ni iii ji jiyC ni ni nj xxKj yi yjii ni ni nj xxj yi yjii 10,0 111 ,2 1 max 111 2 1 max???????????上述式子中, 称为核函数,常见的有 4种核函数: ?????? jijixxxxK????,?采用拉格朗日乘子法求解上述二次规划问题,得到对偶最优化问题如下: ?????? jijixxxxK????,核函数特征映射原理?以多项式核函数为例,假设多项式的阶数 q =2 ,每帧的特征向量为 2维??????????????????????????????????????????????????????????? 22 21 21 2 122 21 21 2 12211 2 21112 2 2 12 2 2 111, ,,,y y yy y yx x xx x xyxyxyxyxK yyyyxx= 那么即?这样,就把特征向量由 2维空间映射到了 6维空间,这个过程等价于:使用多项式展开公式先把特征向量映射到 6维空间,然后使用线性核函数做内积,即?????????????????????????????????????????????????????????????????????????? 22 21 21 2 122 21 21 2 1 22 212121 22 212121 221 22 212121 22 212121 2212 2 2 12 2 2 1, ,,2,2,2,122211 ,,2,2,2,122211y y yy y yx x xx x xYXYXK yyyyyyyyyyyyyyY xxxxxxxxxxxxxxX上述 4种核函数用于语种识别或说话人识别存在的问题?假设有两个说话人(或两个语种),每个说话人有训练样本(每帧的特征向量) 100 个,假设在低维空间这 200 个样本不可分,那么我们是否可以把这些低维空间的样本通过核函数映射到高维空间进行区分呢?答案是否定的,这主要基于两点主要原因: –由于帧与帧特征向量之间没有很好的区分性,所以当两类的训练帧很多时(达到上万个,并不仅限于这 200 个),支持向量机训练通常会失效; –上述方法是基于一种假设,其假设每帧之间是独立的,不相关的,其忽略了帧与帧之间的连续性和相关性; ?正是基于以上两点原因,我们需要找到一种新的核函数,其能够对帧与帧之间的相关性建模,换句话说,应该能够把一定时长的序列(包含很多帧)数据转换成一个特征向量,并把该特征向量映射到高维空间,由此提出了广义线性判别序列核函数( Generalized Linear Discriminant Sequence Kernel )。广义线性判别序列核函数?假设有一个句子,其包括 N帧,当把每帧特征向量使用多项式展开公式ф映射到高维空间之后,对某个分类器模型 w来说,得到广义线性判别函数的输出概率可以用下式表示: ?怎么得到模型 w呢?可以使用最小平方误差准则( MSE )训练得到。假设训练时该说话人训练样本 x i(帧数)有 N 1个,背景说话人训练样本 y i有N 2个,该说话人的理想输出为 1,背景说话人的理想输出为 0,那么寻找 w的过程相当于求解下列最优化问题的最优解: ?求解过程如下: ???????????????????? 2 11 2 211 min Ni i t Ni i tywxw???????????????? 1,,, 1 1 12 12 1 1???? tx tN N N xMRwMMRy y x xMx x xM ???????????????????????????????????????那么令????????? 1?? 2?? 3 ???????? wbbwyN wywN wyyP tyy t Ni i t Ni i tN????????????