1 / 7
文档名称:

榨汁机.doc

格式:doc   大小:65KB   页数:7页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

榨汁机.doc

上传人:012luyin 2017/2/21 文件大小:65 KB

下载得到文件列表

榨汁机.doc

文档介绍

文档介绍:榨汁机:加权有限状态传感器演讲解码器摘要: 发展的一个主要组件的任何语音识别系统是译码器。任务的复杂性,因此, 系统复杂性不断增加解码问题已经成为一个越来越重要的组件在整个语音识别系统的开发工作, 与高效译码器设计有助于显著提高解码时间和搜索错误之间的权衡。在本文中, 我们目前的“榨汁机”( 换能器) 大词汇连续语音识别(LVCSR) 解码器基于加权有限状态传感器(WFST) 。一开始我们讨论需要开源的, 最先进的解码软件 LVCSR 研究以及这如何导致榨汁机的发展, 其次是解码技术的简要概述和译码器设计中的主要问题。我们现在的榨汁机, 其主要特征, 强调其潜力不仅是发展的一个关键组成部分 LVCSR 系统, 本身也是一个重要的研究工具, 基于灵活 WFST 范式。我们还提供基准测试的结果已经进行到目前为止, 证明在许多方面榨汁机, 虽然仍处于早期发展, 已经达到最先进的。这些基准测试服务不仅证明了实用的榨汁机的现状, 但也被用于指导未来的发展, 因此, 我们用一个简短的总结讨论的一些扩展,目前正在进行或正在考虑榨汁机。介绍语音识别技术利用大量的知识来源和集成这些在演讲中译码器来估计最可能的单词序列从给定的声学的证据。通常这些知识来源表示形式的隐马尔科夫模型(HMM), 发音 lexica, 和语法的语言模型。方法结合这些知识来源声输入和有效的解码是一个要求很高的任务和一系列优化技术和启发式方法是用来实现更低的计算和内存需求最少牺牲识别准确性[1] 。在本文中, 我们目前的“榨汁机”解码软件在 IDIAP 发达。译码器是基于加权有限状态传感器(WFST) 理论, 允许简单的译码器设计通过一个静态解码网络的有效成分。我们开始本文简短的导言, 提出我们的动机发展榨汁机解码器, 随后在第三节简要概述的译码器技术和主要的设计考虑, 从而导致第四节我们榨汁机系统。在第五节然后我们后续进行了一些初步的基准测试的日期和第六节概述榨汁机的未来发展方向。第七节给出了一些简短的结论有关的材料 ? 多年来许多解码软件包使用许多不同的解码策略和体育不同功能已提供给研究社区和公众, 经常以开源的形式。等等,还有 HVite HTK[4] 的一部分,斯芬克斯[11], 决不[8] 不要忘记 IDIAP 自身的努力, 早些时候 TODE[15] 。一个功能, 所有这些解码器的共同点是, 他们雇佣声, 语音, 词汇和语言知识来源的方式是解码器与生俱来的架构,从而使解码器修改不平凡。这可以使公司新解码器的研究的一项重大的任务(为给定的解码器架构), 甚至可能不可行,因此,这意味着进步的最先进的语音识别通常不包括在用于 rescorin g译码器的译码器,而输出,其影响可能会更为有限。并不是所有的解码器架构受到这样的限制。近年来已经有了投资的发展更加灵活的解码器架构基于的理论加权有限状态传感器[14 日 2] 的解码器的解码网络是独立编译, 从而实现更灵活的方法来整合各种演讲识别的知识来源。这种方法也有一些严重的缺陷, 特别是内存要求编译静态 LVCS R解码网络系统可以迅速超出大多数机器的功能,但也一直在努力解决这个问题(10 、 2) 。虽然已经迈进重要努力开发解码器技术基于 WFST, 不幸的是,对于研究社区,我们所知的最先进的的可用性,开源解码器基于