1 / 9
文档名称:

为残疾人提供的语音识别.doc

格式:doc   大小:186KB   页数:9页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

为残疾人提供的语音识别.doc

上传人:mkjafow 2018/1/22 文件大小:186 KB

下载得到文件列表

为残疾人提供的语音识别.doc

相关文档

文档介绍

文档介绍:为残疾人提供的语音识别
摘要
在过去的几年里,多亏了数据处理的演变,我们经历了一个语音识别系统很重要的演变。所开发的系统
取决于应用程序,它具有孤立词识别和系统的连续语音识别系统。孤立词的识别的系统作为声带命令的应用而连续语音识别系统的系统主要应用有类似的声乐听写。
对于残疾人士缺少数据基础和多样性的发声障碍是建立可靠的语音识别系统的重大障碍,这也说明为残疾人建立的语音识别系统在市场上所遇到困境。
这项工作发展在于适应一些现有语音识别系统为那些有发声障碍的人。
对于孤立词识别系统,我们使用动态方法的培训,这使得该系统有可能逐步适应用户在他的使用过程中。
这种方法有可能使残疾用户使用该系统,不用通过长时间的培训,而这培训一般是沉重,对这些人是痛苦的。在同等测试条件它还允许识别系统使用一个训练基地。
对于连续识别系统 ,我们使用两种方法:
1- 一个为残疾人士动态适应的连续语音识别系统的模型。这种方法使我们能够让用户适应的识别系统并可以像正常人一样说话。
2 –为识别使用一个独立的语言分割(ALISP)。这种方法包括使用之间的对应关系ALISP分割和语音和模型ALISP的段,以建立识别系统。
对于字识别系统,我们使用了DTW的动态培训。
关键词:言语;认知;适应;充满活力;残疾;培训
绪论
在非特定人语音识别系统,培训令扬声器变化要求发言者广泛的人参与。 这个令扬声器变化更重要的是当发言者有发音障碍。特别是,残疾人很难有独立的扬声器电话模型。
在这项工作中,我们使用的手机模型都是从独立扬声器训练有素的BREF数据库中选取适应每次系统识别正确的句子模型。
我们第一次提出的方法被运用于最大似然线性回归(MLLR)和动态时间规整(DTW的),然后我们提出了实验结果和结论。
2 动态时间规整
在这种类型的语音识别技术测试数据被转换为模板。识别过程,然后由语音输入与匹配存储的模板。从输入模式模板中最低的距离测量模板是已识别的词。最佳匹配(最低距离度量),是基于在动态规划。这就是所谓的动态时间规整(DTW的)文字识别者。
为了了解DTW,需要两个概念被处理
*特点:在每个信号信息必须以某种方式表示。
*距离:一些度量形式已被用于为了获得匹配的路径。
有两种类型:
o地方:在一个信号特征及其他特点之间计算差异。
o全球:整体计算整个信号之间的区别和另一个信号可能不同的长度。
由于特征向量可能有多个元素,一种计算局部距离的方法是需要的。两个特征向量之间的距离测量采用的是欧氏距离度量来测量。因此,特征向量之间的信号特征信号1和2给出了向量X的Y局部的距离,
算法:
言语是随时间变化的过程。因此,对同一个词会有不同的发音周期,与具有相同的周期同一个词在话语中会有所不同,这是由于不同地区的话,人们讲的时候速度不同。要获得两个全球距离的话语模式(作为一个向量序列为代表)一个时间序列必须执行。
这个问题可以参考下图0,在这种时候,时间“矩阵是用于可视化的路线。对于所有的时间序列例子参考模式(模板)上升侧面和底部的输入模式去。在本图中输入SsPEEhH“是一个'噪音'的模板版本讲话”。
这个想法是,'h'是一个更接近匹配的H比其他任何模板中。输入SsPEEhH“将在所有模板进行匹配该系统的信息库。最佳匹配的模板的其中之一