文档介绍：基于特征空间轨迹移动匹配算法的字母数字串的模式识别钱俊宏(上海交通大学网络教育学院计算机科学与技术专业),它结合了声学、数学、物理、计算机等学科中的主要技术。语音识别正逐渐成为信息技术中解决人机交互的新的方法。语音识别技术和语音合成技术结合使人们能够甩掉键盘,(KWS)是语音识别研究中的一个重要领域,其目的旨在从连续语音中检测并确认给定的若干个特定词。关键词识别与连续语音识别(CSR)的主要区别在于对输入语音的限制。相对于KWS,CSR资源耗费大,速度慢,抗噪能力不强,这是CSR短时间内难以取得突破的问题所在。而KWS允许在嘈杂的环境中使用,可以通过诸如电话线等质量较差的信道。因此,许多应用领域不适合使用CSR,:基于特征空间轨迹移动匹配算法,:特征轨迹、关键字识别一、语音识别的基本思路:第一步:将输入的语音先分帧,然后将每帧从时域转化为频域,从而得到在时域上的一个频域集合F(n),将每个F(i)提取特征Ci(x1,x2,….,xj)组成一个n*j的矩阵,为简单期间只取x1,x2两个特征,在特征空间x1-x2中画出各点,按照时间顺序连接各点,组成了特征轨迹。第二步:时间规整化基本原理设R为标准模式,X为测试模式,两者均为P维特征矢量的时间序列。即:R:R(t)=(R1(t),R2(t),…,RP(t))T;(0≤t≤Tr)X:X(t)=(X1(t),X2(t),…,XP(t))T;(0≤t≤Tx)如图timewarp所示,DTW的基本概念是通过寻找一个时间伸缩函数tr(tx),该函数将测试模式X的时间轴tx非线性地映射到标准模式R的时间轴tr上,并使X与R的相对距离为最小。由此可见,对同一字(词)的语音而言,在理想情况下,即除时间轴的变动因素之外,如果没有其它什么变动因素的话,则X与R的相对距离应为零。即:(1)另一方面,从数学的角度来看,X(tx)(0≤tx≤Tx)和R(tr)(0≤tr≤Tr)也可以看作是对应在P维特征空间中的两条轨迹(Trajectory)。显然,当X(tx)和R(tr)满足式()时,这两条轨迹是完全重叠的。                  设sx=sx(tx)表示沿着X(tx)的轨迹从始点到达tx时的轨迹长,dsx表示这条轨迹的微小线段,则有:(2)若dsx/dt>0,则可求得式()的逆函数,即:(3)此时,若考虑沿轨迹提取新的特征点X’(sx)的话,则可根据式()将X’(sx)定义为:(4)同样,可定义R’(sr)为:(5)根据式()、()、(),则有:(6)根据轨迹的不变性,sx=sr(=s),所以,可将式()改写为:(7)式()即表示,在理想的情况下,对同一字(词)音的两个特征矢量X(tx)和R(tr),按相同的轨迹长s沿其各自的轨迹所提取出的新的特征矢量X’(S)和R’(S)具有对时间轴伸缩的不变性,这也就是基于特征空间轨迹对语音模式进行时间轴规整的基本原理。.TimeWa