文档介绍：
基于 HMM 的中文语音合成研究
徐文晖,刘刚*
(北京邮电大学信息与通信工程学院,模式识别与智能系统实验室,北京 100876)
5
10
15
20
25
30
35
40
摘要:语音合成被广泛应用于社会中的每个角落,语音合成技术也正被越来越多的研究机构、
大学以及企业所研究。本文首先给出可训练语音合成(Trainable TTS)系统框架,并将详细介
绍每一个模块的主要功能,最后结合汉语自身的特点,搭建基于隐式马尔科夫的中文语音合
成系统,以验证本文技术的可行性。
关键词:模式识别;语音合成;可训练;隐马尔科夫模型;参数合成
中图分类号:
HMM-based Chinese Text to Speech Synthesis Research
Xu Wenhui, Liu Gang
(Beijing University of Posts and munications, Pattern Recognition and Intelligent System
Lab, Beijing 100876)
Abstract: Speech synthesis is widely used in every corner of society, speech synthesis technology
is also being widely studied by large amounts of research institutes, universities and research
enterprises. In this paper, firstly trainable speech synthesis (Trainable TTS) system framework
will be introduced, then each module's main function will be explanded, and bined
with Chinese own characteristics, Hidden Markov Model Based Chinese Text to Speech system
will be set up, in order to verify the feasibility of the technique described in this paper.
Keywords: Pattern Recognition; Speech Synthesis; Trainable; Hidden Markov Model; Parameter
Synthesis
0 引言
语言是人类特有的功能,语音是语言的声学表现形式,用语音传递信息是人类交流信息
最自然、最有效、最快捷的手段,是人类进行思想沟通、感情交流的主要途径。语音合成和
语音识别技术是实现人机语音通信,建立一个有听说能力的口语系统所必需的两项关键技
术。使电脑具有类似于人一样的说话和听懂人说话的能力,是信息产业的重要竞争市场。
语音合成主要分为波形拼接和参数合成两种。波形拼接合成方法最大的优势就是在于保
持了原始发音人的音质。但是波形拼接方法也有着明显的不足,例如合成的声音较为单一,
基于大数据库的波形拼接一般需要使用一个很大的音库,这就阻碍了它在移动设备或嵌入式
设备中的应用。
1 研究现状
语音合成根据合成器的不同主要分为两大类:波形拼接和参数合成型。
波形拼接合成方法的基本原理就是根据输入文本分析得到的信息,从预先录制和标注好
的语音库中挑选合适的单元,进行少量的调整(也可以不进行调整),然后拼接得到最终的合
成语音,其中用来进行单元挑选的信息可以是前端分析得到的韵律文本,也可以是生成的声
学参数(比如基频、音长和谱参数),或者两者兼有。由于最终合成语音中的单元都是直接
从音库中复制过来的,其最大的优势就是在于保持了原始发音人的音质。
波形拼接方法的优势在于:直接使用自然语音进行拼接,在语音库足够大或语音库与合
作者简介:徐文晖,(1987-),男,硕士,研究方向:模式识别,语音识别,语音合成。 E-mail:
xwhugh1022@
通信联系人:刘刚,(1973-),男,副教授,模式识别,语音识别,音频检索。E-mail: ******@bupt.
-1-

成文本的领域相关时,合成语音十分自然,甚至可以达到真人的说话水平。
同时,波形拼接方法也有着明显的不足:首先,基于大数据库的波形拼接一般需要使用
一个很大的音库,这就阻碍了它在移动设备或嵌入式设备中的应用;其次,波形拼接的方法
45
50
55