文档介绍:南开大学
硕士学位论文
基于可训练文语转换系统的韵律模型优化
姓名:武执政
申请学位级别:硕士
专业:计算机软件与理论
指导教师:张波
20090501
摘要文语转换是人机交互技术的核心技术之一。尽管当前的文语转换系统可以合成出良好可懂度和自然度的声音。但是合成声音的自然度并不是让人满意,听起来平淡且节奏感不强。本文主要研究在基于奈挠镒;幌低持性下赡P偷统。在此系统的基础上,本文针对韵律平淡和节奏感不强的问题进行了一下两方面的改进:一是改进时长模型,在产生时长的时候同时优化状态、音子和音节三层模型似然值,以弥补只考虑状态时长模型生成时长的不足;二是改进基频生成算法,传统的方法只考虑了状态级的基频模型,本文通过分析韵律的层次结构,优化。本文采用基于隐马尔可夫模型的文语转换技术搭建了中、英文语音合成系提出了生成基频时同时优化状态、音节和音节段三层韵律模型的似然值,来提高生成基频的自然度。本文通过实验对这两方面的改进进行了验证,实验结果表明:通过时长模型的改进,中英文时长的均方根误差分别提高了%和%;。关键词语音合成,隐马尔可夫模型模型,时长模型,基频模型,离散余弦变换
甌;,,,—甌’瓾瑃猙,甌瓸,%.珼Ⅱ
南开大学学位论文版权使用授权书学位论文作者签名:氏拭莎久本人完全了解南开大学关于收集、保存、使用学位论文的规定,同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版本;学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、扫描、数字化或其它手段保存论文;学校有权提供目录检索以及提供本学位论文全文或者部分的阅览服务;学校有权按有关规定向国家有关部门或者机构送交论文的复印件和电子版;在不以赢利为目的的前提下,学校可以适当复制论文的部分或全部内容用于学术活动。年拢日经指导教师同意,本学位论文属于保密,在年解密后适用本授权书。指导教师签名:学位论文作者签名:解密时间:年欢月日各密级的最长保密年限及书写格式规定如下:
南开大学学位论文原创性声明学位论文作者签名:氏挑砂≮辍耭本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行研究工作所取得的成果。除文中已经注明引用的内容外,本学位论文的研究成果不包含任何他人创作的、己公开发表或者没有公开发表的作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集体,均已在文中以明确方式标明。本学位论文原创性声明的法律责任由本人承担。沙
第一章引言语音合成概述加高效。在计算机中,通常人机交互界面以键盘为主。为了使计算机的界面与人更加“友好’’,科学家一直致力于开发易学易懂、操作简单的界面。其中最方便最自然的界面首推语音交互。基于语音识别、语音合成及自然语言理解的人机语音对话技术对应着人类的听、说、想,是世界公认的一个难度很大,极富挑战性的展和国际互联网的迅速成长推动了人机语音对话的研究,促进了语音学、语音理大发展。语音合成与语音识别和语言理解比较起来,技术上相对成熟,已经能够是让计算机能够像人类一样通过语音来表达信息的技术。通俗的说就是让计算机“开口说话K且幻诺湫偷慕徊嫜Э疲婕暗神经活动等众多学科的理论和技术】。通常,语音合成可以分成三类层次,分别是:游淖值接镆舻暮铣甋璻;痈拍畹接镆舻暮铣..从意向到语音的合成..R阅前语音合成的技术水平,只能做到从文字到语音的合成这个最低的层次,因此我随着计算机逐渐成为人类生活不可缺少的一部分,人与计算机的交互需要更高技术领域。近年来超大规模集成电路、电子计算机、人工智能的突飞猛进的发解和语音感知的较大发展。语音合成是人机交互的关键技术之一,近年来在技术和应用方面都取得了较实时的将任意文本转换成连续可懂的自然语句输出,合成语音的自然度和音质得到了明显的改善,能基本满足用户的要求,从而促进了其在实际中的广泛应用。语音合成技术已经成功应用在自动应答呼叫系统、电话信息查询、电子邮件阅读等场合,针对娱乐和教育方面的应用也正在开展。总而言之,语音合成正在和将要影响我们的生活,给我们提供便利。语音合成了语言学、语音学、信息论、数字信号处理、人工智能、心理学以及人类的大脑们一般所说的语音合成即指文语转换1疚乃档挠镆艉铣啥际侵肝挠镒换。
·一语音——文率前段部分主要有如下几个作用:一是文本规整化处理是将原始输入的文本诸如字母缩写、数字等转化为相应的完整可读的形式。比如把“.转化为“二零零八年五月十二日选癳;!癳二是字到音素的转换,通过查字典,标记出每个字或词的发音。最后是句法分析,根据一定的规则把句子分割成若干个短语或子句,以便标记韵律信息。不同文语应用的要求,不同的系统会采用不同的标记输出对原始文本的语音及韵律分