1 / 37
文档名称:

北京大学计算语言学研究所博士论文开题报告.doc

格式:doc   页数:37
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

北京大学计算语言学研究所博士论文开题报告.doc

上传人:机械CAD论坛 2011/11/18 文件大小:0 KB

下载得到文件列表

北京大学计算语言学研究所博士论文开题报告.doc

文档介绍

文档介绍:北京大学计算语言学研究所博士论文开题报告基于模板的统计翻译模型研究及汉英机器翻译系统实现博士生:刘群导师:俞士汶摘要:本文综述了已有的各种基于语料库的机器翻译方法,提出了一种基于模板的统计翻译模型,该模型综合了基于模板(规则)的机器翻译方法和统计机器翻译方法的优点。然后在现有的工作基础上,给出了一个汉英机器翻译系统设计方案,最后对下一步的工作进行了探讨。关键词:基于模板的机器翻译统计机器翻译汉英机器翻译引言本文的主要围绕两方面内容:提出一个基于模板的统计翻译模型以及相应的训练和翻译算法;根据这种算法模型实现一个汉英机器翻译系统。首先,我们将提出一个基于模板的统计机器翻译算法。这种算法是传统的基于转换的方法和统计机器翻译方法的有效结合。克服了现有的统计机器翻译方法忽视语言结构的缺点,同时又继承了其数学推导严密、模型一致性好的优点。然后,在我们已有工作的基础上,我们将根据以上算法,提出一个完整汉英机器翻译系统及其测试系统的实现方案。本文第一章是对已有的各种基于语料库的机器翻译方法以及机器翻译评测方法的一个综述,第二章结合我们已有的工作,提出我们自己的研究思路——基于深层结构的统计机器翻译方法,第三章给出一个具体的汉英机器翻译系统的实现方案,第四章是总结。综述机器翻译方法概述和自然语言处理的其他技术一样,机器翻译方法也主要分为两类:人工编写规则的方法和从语料库中学习知识(规则或参数)的方法。从目前的趋势看,从语料库中学习知识的方法已经占到了主流。当然从语料库中学习知识并不排斥人类语言学知识的应用,不过这种语言学知识的应用一般不再表现为直接为某个系统手工编写规则,而更多的是通过语料库标注、词典建设等大规模语言工程的方式体现出来,应该说,这是一种计算机研究者和语言学研究者互相合作的一种更为有效的方式。基于语料库的机器翻译方法主要有:基于实例的机器翻译方法、基于统计的机器翻译方法、混合(Hybrid)的方法。这几种方法各有特点。其中,统计机器翻译方法由于其数学推导严密、模型一致性好、可以自动学习、鲁棒性强等优点,越来越受到人们的重视。本文中提出的机器翻译方法就是统计机器翻译方法中的一种。根据我所查阅的文献,我把基于统计的机器翻译方法大体上分为以下三类:第一类是基于平行概率语法的统计机器翻译方法,其基本思想是,用一个双语平行的概率语法模型,同时生成两种语言的句子,在对源语言句子进行理解的同时,就可以得到对应的目标语言句子。这种方法的主要代表有Alshawi的HeadTransducer模型和吴德恺的ITG(InversionTransductionGrammars)模型以及Takeda的Pattern-basedCFGforMT。第二类是基于信源信道模型的统计机器翻译方法,这种方法是由IBM公司的PeterBrown等人在1990年代初提出的,后来很多人都在这种方法的基础上做了很多改进工作,这也是目前最有影响的统计机器翻译方法,一般说的统计机器翻译方法都是指的这一类方法。第三类是德国Och等人最近提出基于最大熵的统计机器翻译方法,这种方法是比信源信道模型更一般化的一种模型。机器翻译的范式机器翻译经过50多年的发展,产生了很多种不同的范式(Paradigm),大致归纳起来,可以分为以下几类,如下图所示:直接翻译方法:早期的不经过句法分析直接进行词语翻译和词序调整的方法;基于转换的方法:基于某种深层表示形式进行转换的方法,典型的转换方法要求独立分析,独立生成;注意,这里的深层表示既可以是句法表示,也可以是语义表示;基于中间语言的方法:利用某种独立于语言的中间表示形式(称为中间语言)实现两种语言之间的翻译。源语言文本(如汉语)目标语言文本(如英语)中间语言源语言深层表示目标语言深层表示直接翻译法转换法中间语言法基于平行概率语法的统计机器翻译方法这一类方法的基本思想是,用一个双语平行的概率语法模型,即两套相互对应的带概率的规则体系,同时生成两种语言的句子,在对源语言句子进行理解的同时,就可以得到对应的目标语言句子的生成过程。这一类方法有几个共同的特点:有明确的规则形式;源语言规则和目标语言规则一一对应;源语言与目标语言共享一套概率语法模型,对于两种语言的转换过程不使用概率模型进行描述。以下我们分别介绍这一类方法的有代表性的几种形式。Alshawi的基于加权中心词转录机的统计机器翻译方法有限状态转录机(Finite-StateTransducer)和有限状态识别器(Finite-StateRecognizer)是有限状态自动机(Finite-StateAutomata)的两种基本形式。其主要区别在于有限状态转录机在识别的过程中同时可以产生一个输出,其每一条边上面同时有输入符号和输出符号两个标记,而有限状态识别器只能识别,不能输出,其每一条边上只有一个

最近更新

2024年毕节职业技术学院单招职业技能测试模拟.. 39页

2024年永州师范高等专科学校单招综合素质考试.. 41页

2024年汉中职业技术学院单招综合素质考试模拟.. 39页

2024年江苏农林职业技术学院单招职业适应性测.. 41页

2024年江苏城市职业学院单招职业倾向性考试题.. 38页

2024年江苏安全技术职业学院单招综合素质考试.. 39页

2024年江苏工程职业技术学院单招职业适应性测.. 40页

2024年江苏护理职业学院单招职业适应性测试题.. 40页

2024年江苏海事职业技术学院单招职业倾向性考.. 41页

2024年江苏省常州市单招职业倾向性考试模拟测.. 40页

2024年江苏省无锡市单招职业倾向性考试模拟测.. 42页

2024年江苏省盐城市单招职业倾向性考试模拟测.. 43页

2024年江苏财会职业学院单招职业倾向性考试模.. 40页

2024年江苏食品药品职业技术学院单招综合素质.. 39页

2024年江西信息应用职业技术学院单招职业适应.. 39页

2024年江西冶金职业技术学院单招职业技能考试.. 40页

2024年江西工业职业技术学院单招综合素质考试.. 40页

2024年江西应用技术职业学院单招职业技能测试.. 38页

2024年江西建设职业技术学院单招职业倾向性测.. 41页

2024年江西新能源科技职业学院单招职业适应性.. 39页

2024年江西机电职业技术学院单招职业适应性测.. 40页

2024年江西水利职业学院单招职业技能测试题库.. 38页

2024年江西省九江市单招职业倾向性测试模拟测.. 40页

2025年重庆市《保安员证》考试题库含答案 39页

预防滑倒、绊倒及跌落专题培训课件 45页

混凝土工程培训课件优秀PPT 26页

小学数学六年级下册《鸽巢问题》作业设计 9页

住院患者自带药品使用管理规定通知 3页

栏杆计算书 2页

花卉学课件7 花卉的栽培管理 79页