文档介绍:一个依存统计翻译模型第二届统计机器翻译研讨会
史晓东
厦门大学人工智能研究所
18/10/2006
北京
11/11/2017
1
Outline
基于句法的统计机器翻译简介
为什么依存文法?
模型
解码
训练
问题?
11/11/2017
2
基于句法的统计机器翻译简介
句法模型有很多好处:
容易表示语序变换,如SOV SVO
可以表示翻译模式(所谓的不连续短语只是一种最简单的翻译模式)
张大鲲:与…不同=〉 different with…
Quirk: ne…pas => not …
可以表示句法限制
主谓一致(人称,性,数,格……)
采用更高级的句法语言模型
11/11/2017
3
几种主要的句法模型
吴德凯:ITG(1997)
A=>[B C] | <B C>
特例:BTG
熊德意(Bruin)的改进
Alshawi 2000
Head transducer:Simultaneous induction of source and target dependency trees
Yamada,2001
Tree-To-String:在目标语言的树(对汉英翻译是英语树)
Gildea 2003
树到树
Cmejrek, 2003
依存模型
Graehl,2004
Tree-to-string transducer, extends Yamada
Melamed, 2004
Synchronous Multitext grammar.
GenPar
Fox,2005
依存模型
Ding, 2005
Probabilistic synchronous dependency insertion grammar
Quirk, 2005
Dependency tree to string, treelet
刘洋,2006
String-To-String:在源语言的树(对汉英翻译是汉语树)
Syntax MT的一种划分
Synchronous models [Aho 1969, Rambow 2000]
Largely isomorphic
Non-Synchronous models
Learnable mapping
为什么依存文法?
依存文法没有非终结符,比CFG简单
依存文法是天然lexicalized
依存文法比较跨语言【fox2002】
依存结构离深层语义(如谓词变元结构)比较接近,语义可能在统计翻译中起更重要的作用
11/11/2017
9
一种新的基于依存树的方法
Tree-To-Tree (? 1,3,4 of slide 3)
Treelet: A treelet is an arbitrary connected subgraph (not necessarily a subtree) of a dependency tree. (Quirk)
Treelet: A treelet in my sense is a generalized pattern of a treelet in Quirk’s sense
定义适合于非依存文法,如CFG