文档介绍:摘要
摘要
随着信息全球化发展,人们对文语转换技术的需求也日益迫切,这促使
该技术的研究和开发取得了突破性进展。虽然合成语音的质量已经能够使人
们感觉基本上可以接受,但其自然度仍然不尽如人意。本文从文语转换系统
前端的部分技术——字音转换、韵律短语边界识别、朗读重音判别入手,解
决了文语转换中常出现的读音错误,节奏、停顿、轻重方面的处理不当,从
而改善汉语语音合成的自然度。
在分析了基于规则和基于统计的方法进行多音字处理的不足之后,提出
了较为完备的多音字处理机制:查穷举表、匹配词性规则及计算语义相似度
三步骤。本文详细介绍了《知网》,并将其作为语义计算和推演的环境,计
算词语相似度及上下文窗口语义相似度。通过实验证明了该多音字处理机制
在处理新词和多音词读音方面的优势:语义相似度的计算可以找出未知读音
词的语义相似词,通过后者的读音给出前者中多音字的读音。因此该机制不
仅使多音字读音判断正确率大幅提高,更改善了文语转换系统的整体字音转
换正确率。
虽然一些研究者在韵律短语边界识别方面取得了很好的实验结果,但他
们所采用的方法都过于复杂。本文运用在句法分析方面取得成功的基于转换
的错误驱动算法建立了一个韵律短语边界识别规则的自学习系统。在建立了
一个拥有 5725 句文本和语音相对应的标注语料库之后,通过自学习系统获
取了大量规则,这些规则的获取方法不仅简单易行,更在应用于自动识别韵
律短语边界时取得了很高的正确率。为了解决大量规则在系统中进行匹配时
会带来的负担,本文提出在文语转换系统中树形组织规则,使韵律短语边界
自动识别在系统中取得了极佳的实用效果。
尽管汉语是否存在固定的词重音模式还没有定论,但对于文语转换系统
来说,汉语重音的研究非常重要。因此,本文从韵律词重音的产生和感知机
理入手,对二字词的重音规律进行了分析,并利用同于韵律短语边界识别的
自学习系统获取了韵律短语重音规则,但实验结果说明其实用性仍然达不到
要求,有待于进一步研究。
关键词:多音字;语义相似度;韵律短语;韵律词;重音
- I -
哈尔滨工业大学工学硕士学位论文
Abstract
Under the development of information globalization, people need text-to-
speech technique more and more. This has made outstanding improvement in
research and development of text-to-speech technique. Although the quality of
synthesized speech has been accepted, the naturalness is still dissatisfying. This
paper starts with part of the front end technique, which are text-to-syllable,
detection of prosody phrase boundaries and speech stress determining, in order to
solve the pronunciation errors and the improper handling in rhythm, pause, stress
during text to speech. So the synthesized speech of text-to-speech system can be
made more natural.
After analyzing the ings of dealing with polyphones in methods
based on rule and on statistics, we introduce paratively self-contained flow,
which are three steps: look in the polyphone list, fit the part of speech rules and
compute semantic similarities. This paper describes in detail and
regards it as the setting of putation and deduction in order to
compute the word simi