1 / 10
文档名称:

ID技术报告.ppt

格式:ppt   大小:32KB   页数:10页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

ID技术报告.ppt

上传人:jianjian401 2019/2/9 文件大小:32 KB

下载得到文件列表

ID技术报告.ppt

文档介绍

文档介绍:ID)参加第四届全国机器翻译研讨会评测的汉英和英汉机器翻译系统进行描述。参加的评测项目包括汉英新闻领域机器翻译、英汉新闻领域机器翻译、英汉科技领域机器翻译。其中,汉英机器翻译系统包括一个基于规则的系统和一个基于短语的统计机器翻译系统,英汉机器翻译系统是一个基于规则和模板的系统。系统系统1:基于规则和模板的汉英机器翻译系统本系统是传统的基于规则的系统,其中融入了模板技术、统计技术,属于基于转换的机器翻译系统。其既有规则系统的适应面较宽的特点,也有规则方法固有的知识颗粒度粗的不足。另外,本系统面向新闻领域语料调试工作做得较少,也是其处理新闻语料效果不十分理想的原因之一。系统系统2:基于规则和模板的英汉机器翻译系统本系统采用规则和模板相结合的技术,面向英语新闻领域进行了针对性调试,因此处理英语新闻语料效果较好。同时,由于针对科技领域语料调试量较少,所以针对科技语料的处理效果差些。系统系统3:基于短语的汉英统计机器翻译系统本系统的训练语料包括400万句对的通用汉英平行语料,其中包括863评测提供的83万汉英平行语料。分词工具采用自己研制的分词工具,采用GIZA++、中科院计算所的Camel解码器。训练结果生成了1千万条的短语翻译表,语言模型是从其中2百万句对中的英文部分训练出来的。由于本系统的训练语料对于新闻领域的针对性不强,导致了本次测试结果的BLEU值不高。下一步时拟增加新闻领域语料的收集,这样可以有效提高系统面向新闻领域语料处理的效果。实验系统1:基于规则和模板的汉英机器翻译系统实验系统3:基于短语的汉英统计机器翻译系统本次评测(CWMT2008)中的面向新闻语料的测试结果:实验系统2:基于规则和模板的英汉机器翻译系统本次评测(CWMT2008)中的面向新闻语料的测试结果:实验本次评测(CWMT2008)中的面向科技语料的测试结果:讨论机器翻译方法中,目