文档介绍:上海交通大学
硕士学位论文
汉语语音识别文本的自动纠错研究
姓名:余涛
申请学位级别:硕士
专业:计算机软件与理论
指导教师:陆汝占
20030201
汉语语音识别文本的自动纠错研究摘要自动校对技术研究汉语输入獭淖远榇砗途来怼5蘼巯窒蠛驮过程。本文虽题为文本纠错,但不拘泥于文本层面,而是深入到语音识别系统内部,本文以主流产品——镜腣形牧镆絷啃聪低澈蚔自然语言处理已历时三十年了,热潮莫过于机器翻译。机器翻译的热潮过去后,运渐进入平静、现实的务实阶段。近期人们将目标定在资料整理、因特网上检索、摘要、过滤以及限定应用领域的人机对话、语言服务等方面。本文介绍汉语语音识别文本自动纠错的研究。汉语语音识别技术己发展到一定阶段,但连续汉语语音识别的效果离实用还有一定差距,表现之一是识别文本含错多。目前,学术界尚未明确提出语音识别文本的自动纠错技术。从形式上看,语音识别文本的自动纠错也可以看成是文本自动校对技术在语音输入方面的应用。文本语音输入出错都比键盘、丛樱镆羰侗鸫砦蟮幕指慈撇豢6杂镆羰侗鹣低所用语言模型的研究。所以本质上,语音识别文本的自动纠错属于语音识别后处理从语音识别系统所用语言模型的角度研究出错和纠错。本文的工作,也围绕语言模型和文本校对两条主线展开。缁坝镆羰侗鹣低匙魑Q芯肯低呈道G罢哂糜谕ㄓ昧煊蛭谋镜氖淙耄后者用于限定领域煌ú檠的信息提取。考虑到目标的难度,用特定人和新闻稿测试前者,以获得较高的文本正确率和纠错起点。
关键字:通用领域句式复杂多变,不深入语音识别系统内部寻找规律的话很难有所作为。单纯使用4史P停雎粤舜市院陀镆宕钆湫畔ⅰ1疚奶岢龅后处理方法,通过大规模语料训练设计出增强的语言模型,利用系统语音识别时生成的中间结果词网格魑9ぷ髌鸬悖枚婊ㄉ识别系统的中间信息,又避免了介入语音识别系统内部形成干扰。提出的语言模型针对所用语言模型的不足而设计,保证了纠错的效果。引入词性类和语义类的概念,回避了含错文本的词性和语义兼类排歧问题。限定领域句式相对简单,出错也较有规律,但统计法所必需的大规模训练语料不易获取。本文就上海市内交通电话查询特定领域用规则法处理纠错。通过总结识别文本中的出错规律,定义了相应的用于查错和纠错的词形、语义和语用规则。识别文本经切分、语义标注,逐次检查词形、语义标记搭配和语用信息,一俟匹配查错规则就激发纠错。针对识别文本含错严重的现状,该法更多地依赖对出错现象的分析和对领域信息的应用。在本实验室开发的上海市电话语音交通查询系统惺褂酶梅ê螅笤及胧氖侗鸫砦竽芄槐蛔远勒灾刂С至由于汉语查错纠错问题的特殊性,实际系统仅依赖基本方法尚难达到实用。在本文的最后,提出了纠错系统实用化的设计原则,并针对本文中两个系统实例的不足,给出了进一步改进的侧重点和方法。自然语言处理,语音识别后处理,文本校对,自动纠错,词网格蜓【洌⒁愿迷銮康挠镅阅P推烙拧@肳既能充分利用语音后续理解。汉语语音识别文本的自动纠错研究摘要
甌甌&簂甀琲—瓺,,.
猼縠坠竺垒米唑壁£垒坠卜—..琫甌琣琣甌ぁぁ,、,甀,,,瓵瑃甀,瑆甀瑆瓸瓵,琒.Ⅱ
篘,.,痙.,
指剥币躲协彬学位论文作者签名:余;霸上海交通大学学位论文版权使用授权书允许论文被查阅和借阅。本人授权上海交通大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫拜拢日本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,描等不保密口。朐谝陨戏娇蚰诖颉”解密后适用本授权书。日期:年月日
学位论文作者签名:余蕴学位论文原创性声明上海交通大学本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。日期:!年拢日
第一章绪论语音识别语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支,涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域,甚至还涉及到人的体态语言缛嗽谒祷笆钡谋砬椤⑹质频可帮助对方理解的行为动作渥钪漳勘晔鞘迪秩擞牖鹘凶匀挥镅酝ㄐ拧三个方面。此外,还涉及到语音识别单元的选取。选择识别单元是语音识别研究的第一步。语音识别单元有单词、音节和音素三种,具体选择哪一种,由具体的研究任务决定。单词单元广泛应用于中小词汇语音识别系统,但不适合大词汇系统,原因在于模型库太庞大,训练模型任务繁重,模型匹配算法复杂,难以满足实音节单元多见于汉语语音识别,主要因为汉语是单音节结构的语言,而