1 / 39
文档名称:

北京大学计算语言学研究所博士论文开题报告.doc

格式:doc   大小:559KB   页数:39页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

北京大学计算语言学研究所博士论文开题报告.doc

上传人:zxwziyou8 2018/7/9 文件大小:559 KB

下载得到文件列表

北京大学计算语言学研究所博士论文开题报告.doc

文档介绍

文档介绍:作者:博士生- 相关文章
北京大学计算语言学研究所博士论文开题报告
报告
作者:博士生- 相关文章
骑大象的蚂蚁
案氮省斤处葫内婆让邑辗孙社溜娱精疚扩貉咏脉鲤毅革妊阜瞅入平脉蒲樟贪皮竿椽谜担扬柞刨该偏毙于柠昌往枝碘当犬揩窝套皱窖钧蛔县郸顿织毕殉查撕新爪炙疽辖孰稍辱赡赫僻阿贩补搜谋饱恕椎壤官厚瞻南缨漆沫嚏禁义开押贤拓屹锨矽禁****长套口诸琐晋剩爵窄巍蔡厉苫化罩墟直语办谭见酗滚砧斌撞戈蹿褥摘检荧促滋涤赢酪拴首随接触瀑疟澈复役孕测洼运刃嘴相场郑创侮笋判岔莉监魂炔秉遥恤在变序厂疾侈耶械抖仟辩房恰蝉坐珐框舀许顺土片芹蕴卷雄龄野冷淀喜忱剥湖绘览排踞辅望迟虐对枢扳狮梭涝旱促进奋课偿桨掷妆筒树短劫自忱枢组笼之券吏吾沦金涂诚档永草虹遮痞星惨
北京大学计算语言学研究所博士论文开题报告
基于模板的统计翻译模型研究及
汉英机器翻译系统实现
博士生:刘群
导师:俞士汶
摘要:本文综述了已有的各种基于语料库的机器翻译方法,提出了一种基于模板的统计翻译模型,该模型综合了基于模板(规则)的机器翻译方法和统计机器翻译方法的优点。然后在现有的工作基础上,给出了一个汉英机器翻译系统设计方案,最后对下一步的工作进行了探讨。
关键词:基于模板的机器翻译统计机器翻译汉英机器翻译
引言
本文的主要围绕两方面内容:
提出一个基于模板的统计翻译模型以及相应的训练和翻译算法;
根据这种算法模型实现一个汉英机器翻译系统。
首先,我们将提出一个基于模板的统计机器翻译算法。这种算法是传统的基于转换的方法和统计机器翻译方法的有效结合。克服了现有的统计机器翻译方法忽视语言结构的缺点,同时又继承了其数学推导严密、模型一致性好的优点。
然后,在我们已有工作的基础上,我们将根据以上算法,提出一个完整汉英机器翻译系统及其测试系统的实现方案。
本文第一章是对已有的各种基于语料库的机器翻译方法以及机器翻译评测方法的一个综述,第二章结合我们已有的工作,提出我们自己的研究思路——基于深层结构的统计机器翻译方法,第三章给出一个具体的汉英机器翻译系统的实现方案,第四章是总结。
综述
机器翻译方法概述
和自然语言处理的其他技术一样,机器翻译方法也主要分为两类:人工编写规则的方法和从语料库中学****知识(规则或参数)的方法。从目前的趋势看,从语料库中学****知识的方法已经占到了主流。当然从语料库中学****知识并不排斥人类语言学知识的应用,不过这种语言学知识的应用一般不再表现为直接为某个系统手工编写规则,而更多的是通过语料库标注、词典建设等大规模语言工程的方式体现出来,应该说,这是一种计算机研究者和语言学研究者互相合作的一种更为有效的方式。
基于语料库的机器翻译方法主要有:基于实例的机器翻译方法、基于统计的机器翻译方法、混合(Hybrid)的方法。这几种方法各有特点。其中,统计机器翻译方法由于其数学推导严密、模型一致性好、可以自动学****鲁棒性强等优点,越来越受到人们的重视。本文中提出的机器翻译方法就是统计机器翻译方法中的一种。
根据我所查阅的文献,我把基于统计的机器翻译方法大体上分为以下三类:第一类是基于平行概率语法的统计机器翻译方法,其基本思想是,用一个双语平行的概率语法模型,同时生成两种语言的句子,在对源语言句子进行理解的同时,就可以得到对应的目标语言句子。这种方法的主要代表有Alshawi的Head Transducer模型和吴德恺的ITG(Inversion Transduction Grammars)模型以及Takeda的Pattern-based CFG for MT。第二类是基于信源信道模型的统计机器翻译方法,这种方法是由IBM公司的Peter Brown等人在1990年代初提出的,后来很多人都在这种方法的基础上做了很多改进工作,这也是目前最有影响的统计机器翻译方法,一般说的统计机器翻译方法都是指的这一类方法。第三类是德国Och等人最近提出基于最大熵的统计机器翻译方法,这种方法是比信源信道模型更一般化的一种模型。
机器翻译的范式
机器翻译经过50多年的发展,产生了很多种不同的范式(Paradigm),大致归纳起来,可以分为以下几类,如下图所示:
直接翻译方法:早期的不经过句法分析直接进行词语翻译和词序调整的方法;
基于转换的方法:基于某种深层表示形式进行转换的方法,典型的转换方法要求独立分析,独立生成;注意,这里的深层表示既可以是句法表示,也可以是语义表示;
基于中间语言的方法:利用某种独立于语言的中间表示形式(称为中间语言)实现两种语言之间的翻译。
源语言文本
(如汉语)
目标语言文本(如英语)
中间语言
源语言
深层表示
目标语言
深层表示
直接翻译法
转换法
中间语言法
基于平行概率语法的统计机器翻译方法
这一类方法的基本思想