文档介绍:北京大学计算语言学研究所博士论文开题报告基于模板的统计翻译模型研究及汉英机器翻译系统实现博士生:刘群导师:俞士汶摘要:本文综述了已有的各种基于语料库的机器翻译方法,提出了一种基于模板的统计翻译模型,该模型综合了基于模板(规则)的机器翻译方法和统计机器翻译方法的优点。然后在现有的工作基础上,给出了一个汉英机器翻译系统设计方案,最后对下一步的工作进行了探讨。关键词:基于模板的机器翻译统计机器翻译汉英机器翻译引言本文的主要围绕两方面内容:提出一个基于模板的统计翻译模型以及相应的训练和翻译算法;根据这种算法模型实现一个汉英机器翻译系统。首先,我们将提出一个基于模板的统计机器翻译算法。这种算法是传统的基于转换的方法和统计机器翻译方法的有效结合。克服了现有的统计机器翻译方法忽视语言结构的缺点,同时又继承了其数学推导严密、模型一致性好的优点。然后,在我们已有工作的基础上,我们将根据以上算法,提出一个完整汉英机器翻译系统及其测试系统的实现方案。本文第一章是对已有的各种基于语料库的机器翻译方法以及机器翻译评测方法的一个综述,第二章结合我们已有的工作,提出我们自己的研究思路——基于深层结构的统计机器翻译方法,第三章给出一个具体的汉英机器翻译系统的实现方案,第四章是总结。综述机器翻译方法概述和自然语言处理的其他技术一样,机器翻译方法也主要分为两类:人工编写规则的方法和从语料库中学习知识(规则或参数)的方法。从目前的趋势看,从语料库中学习知识的方法已经占到了主流。当然从语料库中学习知识并不排斥人类语言学知识的应用,不过这种语言学知识的应用一般不再表现为直接为某个系统手工编写规则,而更多的是通过语料库标注、词典建设等大规模语言工程的方式体现出来,应该说,这是一种计算机研究者和语言学研究者互相合作的一种更为有效的方式。基于语料库的机器翻译方法主要有:基于实例的机器翻译方法、基于统计的机器翻译方法、混合(Hybrid)的方法。这几种方法各有特点。其中,统计机器翻译方法由于其数学推导严密、模型一致性好、可以自动学习、鲁棒性强等优点,越来越受到人们的重视。本文中提出的机器翻译方法就是统计机器翻译方法中的一种。根据我所查阅的文献,我把基于统计的机器翻译方法大体上分为以下三类:第一类是基于平行概率语法的统计机器翻译方法,其基本思想是,用一个双语平行的概率语法模型,同时生成两种语言的句子,在对源语言句子进行理解的同时,就可以得到对应的目标语言句子。这种方法的主要代表有Alshawi的HeadTransducer模型和吴德恺的ITG(InversionTransductionGrammars)模型以及Takeda的Pattern-basedCFGforMT。第二类是基于信源信道模型的统计机器翻译方法,这种方法是由IBM公司的PeterBrown等人在1990年代初提出的,后来很多人都在这种方法的基础上做了很多改进工作,这也是目前最有影响的统计机器翻译方法,一般说的统计机器翻译方法都是指的这一类方法。第三类是德国Och等人最近提出基于最大熵的统计机器翻译方法,这种方法是比信源信道模型更一般化的一种模型。机器翻译的范式机器翻译经过50多年的发展,产生了很多种不同的范式(Paradigm),大致归纳起来,可以分为以下几类,如下图所示:直接翻译方法:早期的不经过句法分析直接进行词语翻译和词序调整的方法;基于转换的方法:基于某种深层表示形式进行转换的方法,典型的转换方法要求独立分析,独立生成;注意,这里的深层表示既可以是句法表示,也可以是语义表示;基于中间语言的方法:利用某种独立于语言的中间表示形式(称为中间语言)实现两种语言之间的翻译。源语言文本(如汉语)目标语言文本(如英语)中间语言源语言深层表示目标语言深层表示直接翻译法转换法中间语言法基于平行概率语法的统计机器翻译方法这一类方法的基本思想是,用一个双语平行的概率语法模型,即两套相互对应的带概率的规则体系,同时生成两种语言的句子,在对源语言句子进行理解的同时,就可以得到对应的目标语言句子的生成过程。这一类方法有几个共同的特点:有明确的规则形式;源语言规则和目标语言规则一一对应;源语言与目标语言共享一套概率语法模型,对于两种语言的转换过程不使用概率模型进行描述。以下我们分别介绍这一类方法的有代表性的几种形式。Alshawi的基于加权中心词转录机的统计机器翻译方法有限状态转录机(Finite-StateTransducer)和有限状态识别器(Finite-StateRecognizer)是有限状态自动机(Finite-StateAutomata)的两种基本形式。其主要区别在于有限状态转录机在识别的过程中同时可以产生一个输出,其每一条边上面同时有输入符号和输出符号两个标记,而有限状态识别器只能识别,不能输出,其每一条边上只有一个