文档介绍:博博博士士士学学学位位位论论论文文文
基于半监督学习的统计机器翻译研究
STATISTICAL MACHINE TRANSLATION
WITH SEMI-SUPERVISED LEARNING
刘刘刘树树树杰杰杰
哈哈哈尔尔尔滨滨滨工工工业业业大大大学学学
2012 年年年 7 月月月
国内图书分类号: 学校代码:10213
国际图书分类号:62-5 密级:公开
工工工学学学博博博士士士学学学位位位论论论文文文
基于半监督学习的统计机器翻译研究
博 士 研 究 生:刘树杰
导 师:周明教授
申 请 学 位:工学博士
学 科:计算机应用技术
所 在 单 位:计算机科学与技术
答 辩 日 期:2012 年 7 月
授予学位单位:哈尔滨工业大学
Classified Index:
: 62-5
Dissertation for the Doctoral Degree in Engineering
STATISTICAL MACHINE TRANSLATION
WITH SEMI-SUPERVISED LEARNING
Candidate: Liu Shujie
Supervisor: Prof. Zhou Ming
Academic Degree Applied for: Doctor of Engineering
Specialty: Computer Application
Affiliation: School of Computer Science and Technology
Date of Defence: July, 2012
Degree-Conferring-Institution: Harbin Institute of Technology
摘 要
摘 要
互联网的飞速发展所产生的越来越多的双语数据,使得基于统计的机器
翻译( SMT )成为了机器翻译领域的主流方法。然而相比已标注数据(双语
句对,词对齐结果等),可用于统计机器翻译的未标注数据(单语的句子,未
标注对齐的双语句对等)更容易获得,其数量也远远大于已标注的数据。如
何利用未标注数据提高统计机器翻译的质量成为一个热门的研究方向。半监
督的学习方法,能够利用未标注数据参与模型的训练和优化,提高统计模型
的性能,在 SMT 中的应用也越来越受到重视。本篇博士论文将深入地研究如
何将半监督的学习方法(包括自学习、互学习和基于图的学习)应用于统计
机器翻译的各个阶段(包括词汇对齐、规则抽取,特征权重训练、翻译重排
序和解码),提高统计机器翻译的质量。论文组织如下:
1. 针对基于反向转换文法词汇对齐中的 1-1 对齐约束,本文通过引入短
语对和层次短语对提出了增强的反向转换文法,并使用半监督训练方法来训
练对数线性模型中的特征值和特征权重,以提高基于反向转换文法的词汇对
齐的性能,从而可以抽取更为准确的翻译规则,提高 SMT 的性能。
2. 针对基于句法的 SMT (SSMT) 的规则抽取中词汇对齐和句法分析不一
致的问题,本文提出了基于边界集的目标化自学习方法和基于强制对齐的重
训练方法,来利用词对齐信息修正句法分析结果中的错误,从而改善了翻译
规则的质量,提高了 SSMT 的性能。
3. 针对特征权重训练中的领域适应问题,本文提出了基于最小贝叶斯风
险的自学习和互学习方法。为解决自学习和互学习训练过程中