文档介绍:中科院自动化所评测技术报告(SYSTEM II)
内容概要
技术说明与参评系统
短语系统
分层短语系统
基于依存树到串系统
前后处理
系统融合
CASIA_SYSTEM II英中翻译系统
评测环境概要
数据
总结
技术说明-短语系统
典型的短语系统[2]
非单调解码,任意跳转
对数线性模型
10个特征
双向短语翻译概率p(e/f)和p(f/e)
双向词汇化概率l(e/f)和l(f/e)
4gram语言模型
扭曲概率
句子长度惩罚
短语惩罚
方向概率[3]
IBM扭曲模型[4]
技术说明-分层短语系统
主要借鉴了Wei[5]的基本思想,引入分层短语的概念
有效地结合了短语模型和同步上下文无关文法
分层短语模型将语序信息包含在模型之中,克服了传统短语翻译的调序问题
沿用了统计线性对数方法进行概率计算,使用了如下6个特征:
双向短语翻译概率p(e/f)和p(f/e)
双向词汇化概率l(e/f)和l(f/e)
4gram语言模型
句子长度惩罚
技术说明-依存树到串系统
在源语言端运用依存结构进行统计翻译的新模型:Dependency-String Structure Model (DSS模型)
由于计算资源和时间的限制,参加本次评测的系统仍然沿用和分层短语相同的文法
DSS解码算法的输入是一棵树,而不是一个串,所以线图是按照树节点来索引的,而不是按照串中的跨距(span)来建立索引的
解码时使用了8个特征,最后两个为依存子树的惩罚
双向短语翻译概率p(e/f)和p(f/e)
双向词汇化概率l(e/f)和l(f/e)
4gram语言模型
句子长度惩罚
符合依存子树惩罚
不符合依存子树惩罚
技术说明-前后处理
前处理
时间,数字处理模块
地名,人名,机构名处理模块
英文转化为小写
预处理
乱码过滤(中文中的乱码、英文中的乱码以及包含中文词的句子)
标点符号及数字变换(中文中的部分标点符号、英文中的双字节符号及数字)
英文缩写处理
中文分词、英文Tokenization
后处理
大小写转换:未翻译词保留其原始格式
格式转换:去除中文中的空格
未登录词
技术说明-系统融合[6][7]
技术说明-外部技术
汉语分词工具:
双语词对齐工具:GIZA++
语言模型训练工具:SRILM工具包
英文词性标注工具:Stanford Log-linear Part-Of-Speech Tagger
英文依存树分析工具:Minimum-Spanning Tree Parser (MSTparser)
参评系统-CASIA_SYSTEM II
评测环境概要
软硬件环境
运行时间(约4000句测试集)
运行平台
操作系统
数量
CPU
RAM
PC机
Windows 2003
2
Pentium 4,
服务器
Linux (Ubuntu)
1
Xeon ×2
系统
新闻领域(小时)
科技领域(小时)
短语系统
16
分层短语
20
18
依存树到串
18
16