文档介绍:精品文档
维维大豆整理
2011年10月14号
(直接冻黄G)
直接冻黄G
碱性玫瑰精
碱性嫩黄O
基于模板的统计(?)翻译模型研究及汉英机器翻译系统实现
刘群
******@ict.
北京大学计算语言学研究所博士论文开题报告
目录
引言
综述
研究思路
实验方案
总结
引言
本文的主要工作
提出一个基于模板的统计翻译模型
给出一个汉英机器翻译系统的实现方案
本文的主要创新
给出了转换模板的定义及模板抽取算法
提出模板角色概念并给出三种统计翻译模型
给出该模型的参数估计算法
目录
引言
综述
机器翻译的范式
统计机器翻译综述(三种主要的方法)
统计机器翻译小结
研究思路
实验方案
总结
机器翻译的范式
源语言文本(如汉语)
目标语言文本(如英语)
中间语言
源语言
深层表示
目标语言深层表示
直接翻译法
转换法
中间语言法
统计机器翻译方法的界定
区别于规则方法:
利用语料库作为知识来源
无需人工编写规则
区别于实例方法或模板方法:
建立完整的统计模型
必须为整个翻译过程,而不是其中某个局部,建立统计模型
统计机器翻译的分类
基于平行概率语法的统计机器翻译模型
基于信源信道思想的统计机器翻译模型
IBM的Peter Brown等人首先提出
目前影响最大
几乎成为统计机器翻译的同义词
基于最大熵的统计机器翻译模型
源于基于特征的自然语言理解
Och提出,获ACL2002最佳论文
统计机器翻译的优缺点
优点
无需人工编写规则,利用语料库直接训练得到机器翻译系统;(但可以使用语言资源)
系统开发周期短;
鲁棒性好;
译文质量好;
缺点
时空开销大;
数据稀疏问题严重;
对语料库依赖性强;
算法研究不成熟。
基于平行概率语法的统计机器翻译模型
基本思想
两种语言建立一套(?)平行的语法规则,
规则一一对应
两套(?)规则服从同样的概率分布
句法分析的过程决定了生成的过程
主要模型
Alshawi的基于Head Transducer的MT模型
吴德恺的Inverse Transduction Grammar(ITG)
Takeda的Pattern-based CFG for MT