文档介绍:大连理工大学
硕士学位论文
汉语语音合成系统及其韵律调整
姓名:李芳
申请学位级别:硕士
专业:软件工程
指导教师:曹晓东
20071215
要摘目前,语音对话系统、语音呼叫中心、语音触发的网站、语音电子邮件服务等实际应用的迅速发展,掀起了对文语转换或语音合成技术枨蟮囊桓銮八从械母叻濉大量的应用需求也促使际醯难芯亢涂7⒙跎狭艘桓鲂绿ń住P纬晒婺;谐〉挠用主要集中在一些有明确领域限定的场合,如航班信息查询、股票信息查询、天气信息无领域限定的语音合成技术的应用不能大规模走向市场的主要原因是合成语音质量还不尽人意。主要表现在两方面:一是音质的差距。语音合成通常是一个从语音中提取参数,经过适当变化再生成语音的过程。经过语音到参数再从参数返回到语音的转换过程,恢复出来的语音在音质上会有明显的损失,出现杂音、回声、机器声等现象。另一方面是韵律的差距,语音合成系统通常只能生成有限的语调模式,因而使合成语音听起来很单调枯燥,而且语音合成系统还可能在节奏、重音、停顿等方面处理不完美,使合成语音听起来很别扭。本文的工作主要是针对这两个方面所作的改进。音质方面的改善着重于语音特征参数的提取,韵律方面的调整着眼于合成单元时长的调节。本文的对比实验及相应的改进基础是基于ぷ髯榭7⒌目T吹幕贖的语音合成系统。首先,从语料库中选择出训练语句,根据汉语的语音特征,对训练语句进行韵律标注,并设计了用于基频、谱参数和时长聚类的上下文属性和问题集:然后,用目前常用的两种参数合成方法,进行谱参数提取及后期语音合成,作了对比试验。比较两种参数提取方法的合成语音,最终采用的方法是合成音质与原始发音人的音色最为接近的,或者音质相近但在提取阶段和合成阶段耗时最少的参数;接着,针对合成语句节奏感不强的问题,采取了以下措施:首先是用伽玛分布取代了原来的高斯分布;接着在原始的时长预测模型基础上,加入了声韵母的时长预测处理;最后在原来的决策树聚类结果基础上进行稻劾唷但是本文在合成语音时引入了一些噪声,可能和参数提取过程有关,这也是论文在下一步要改进的地方。关键词:语音合成;隐马尔科夫模型;参数提取;时长预测;语音自然度查询等。大连理工大学硕士学位论文
畁琺瑂琫瓹鳌辧汉语语音合成系统及其韵律调整篹’甌,瑂簅..,刀砖对、Ⅳ瞨;:,疭一Ⅱ一.、
篜大连理工大学硕士学位论文:篐;;Ⅱ一
日期:趔钮印独创性说明作者郑重声明:本硕士学位论文是我个人在导师指导下进行的研究工作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得大连理工大学或者其他单位的学位或证书所使用过的材料。与我一同工作的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。作者签名:
导师躲:塑速垒茎垒】乌己£蔓月』大连理工大学学位论文版权使用授权书本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学位论文版权使用规定”,同意大连理工大学保留并向国家有关部门或机构送交学位论文的复印件和电子版,允许论文被查阅和借闲。本人授权大连理工大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论文。作者签名:大连理工大学硕:示可宦畚
绪论语音合成概述语音合成是指由机器产生人类语音。语音合成系统蛴镆艉铣善能把输入的一连串的词语转换为语音输出。因此,语音合成系统也通常称为畇系统。该系统的最终目的就是要产生出高质量的接近人声的语音。际蹩梢员挥τ玫接没需要与计算机程序进行交流的任何地方。典型的例子如发声的电子邮件、电子书和游戏等。语音合成系统一般可分为三大模块:文本分析模块,韵律修改模块,语音生成模块。但是一个特定的算法实现或技术运用到语音合成系统中时,通常要把这三个部分都实现了才能比较出此算法或技术的优劣。所以这三个部分关系比较紧密,前一个模块的实现方法会影响到后一个模块的实现细节。文本分析主要使计算机知道要发什么音、怎么发音,并将发音的方式告诉计算机。对于汉语来说,还要让计算机知道文本中的词边界、短语边界、句子边界,以便发音时设置不同长度的停顿,并将汉字、符号、数字等转换成适当的拼音。然后还要告诉计算机以什么方式发音。如:发音的声调;音节是长还是短;是重还是轻;是高还是低;到韵律产生器将语言特征参数送入韵律产生器来产生文本的每个音节的对应韵律讯息,包含基频轨迹、音量、音长等,将说话的声调、语气、停顿方式、发音长短转换成语音生成模块根据需要发的音从声音数据库中选择出合适的声学参数,然后根据在韵律模型中得到的韵律参数,通过语音合成算法产生语音。一个语音合成系统的实现涉及到语音学、声学、信号处理等领域的知识,所以它的完善需要各方面技术的支持。语音合成的技