文档名称：

基于HTK的维吾尔语连续数字语音识别的研究.pfg.pdf.pdf

格式：pdf 页数：60页

下载后只包含 1 个 PDF 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

预览

下载此文档

基于HTK的维吾尔语连续数字语音识别的研究.pfg.pdf.pdf

上传人:313327417 2016/3/7 文件大小：0 KB

下载得到文件列表

基于HTK的维吾尔语连续数字语音识别的研究.pfg.pdf.pdf

相关文档

文档介绍

文档介绍：新疆大学硕士学位论文摘要目前,语音识别研究进入连续语音识别的高级阶段,而大词汇量连续语音识别系统精确度不高,得到高识别率的语音识别结果的方法是用统计模型技术。本文用统计模型的方法设计语音识别的声学分析,研究了基于HMM模型的维吾尔语连续数字语音识别的语音库建立、声学模型建立和语言模型建立等关键技术,并利用HTK(HMM ToolKit)工具实现了维吾尔语连续数字语音识别系统。本文的具体工作如下: (1)建立了一个适合于维吾尔语连续数字识别的小型语音语料库。按照语音语料库评价规范建立了相关语音库和文本库信息。(2)利用HTK工具建立了维吾尔语连续数字语音声学模型(隐马尔可夫模型),并对模型进行了改进和优化。引入了上下文相关的三音素模型,解决了维吾尔语的音联和协同发音问题。使用了中间树、三音子绑定、修补哑音、高斯混合分量的增加等算法,不断地调整系统模板参数,使HMM模型参数向最佳状态逼近。(3)建立了基于规则的语言模型,使语法、语义知识和语音识别过程有效的结合。用广度优先算法搜索词节点网络,在识别率相似或相近的情况下,用语言模型排除掉不符合语义结构的可能句子,提高了识别率和减少搜索范围,这也是本文的主要创新之处。(4)用Visual“+的进行二次开发,修改语音识别器,使其可以脱离CMD命令的方式而独立运行,改单线程为多线程,增加对内存的管理,生***机对话的应用程序。(5)最后使用编译好的语音识别器,进行了实验。实验分三种:不同识别基元、增加高斯混合分量的数目、建立上下文相关和无关的语言模型对系统识别率影响的比较a通过实验结果分析、验证了系统提出的单音素和三音素建模技术,和上下文相关的语言模型的组织框架的可实施性。%,词识别率达到 91.】9%。关键词:维吾尔语、连续数字识别、HTK、语言模型、隐马尔可夫模型新疆大学硕士学位论文 Abstract Presently,speech recognition goes into thelargevocabulary,continuous speech recognition there stillissystem’S accuracy high rateofspeechrecognition isusedstatistical model paper designed speech recognition acoustic model ofthe statistical connecteddigit speech recognition established OnHMM technology,including speechcorpus,acoustic model and hnguage HTK(HMM toolkit)tool,Uighur continuous speech recognition system realized,in thispaper,work asfollows: (1)A suitable small corpus isestablished ofUighur connecteddigitspeech recognition, Thus we established thespeech and textdatabase ording withthe standard ofcorpus. (2)Uighur connected digit speech recognition’s acoustic model established mK This model was improved and solve theUighur coarticulativeproblems thecontext oftriphones model using themiddle tree,establishing audible dictionaries and triphones-binding,mending mute,adding Gaussian ponents of algorithm and adjusting system template parameters,the HMM model parameters could be quite well optimized. (3)Language model isestablished on ,semantic knowledge and voice recognitio