1 / 17
文档名称:

中科院自动化所评测技术报告(SYSTEMII).ppt

格式:ppt   大小:7,524KB   页数:17页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

中科院自动化所评测技术报告(SYSTEMII).ppt

上传人:88jmni97 2025/3/7 文件大小:7.35 MB

下载得到文件列表

中科院自动化所评测技术报告(SYSTEMII).ppt

相关文档

文档介绍

文档介绍:该【中科院自动化所评测技术报告(SYSTEMII) 】是由【88jmni97】上传分享,文档一共【17】页,该文档可以免费在线阅读,需要了解更多关于【中科院自动化所评测技术报告(SYSTEMII) 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。魏玮 于东 王韦华 宗成庆 徐波
202X
中科院自动化所评测技术报告(SYSTEM II)
内容概要
中国科学院自动化所
技术说明与参评系统
短语系统
分层短语系统
基于依存树到串系统
前后处理
系统融合
CASIA_SYSTEM II英中翻译系统
评测环境概要
数据
总结
Institute of Automation, Chinese Academy of Sciences
技术说明-短语系统
中国科学院自动化所
典型的短语系统[2]
非单调解码,任意跳转
对数线性模型
10个特征
双向短语翻译概率p(e/f)和p(f/e)
双向词汇化概率l(e/f)和l(f/e)
4gram语言模型
扭曲概率
句子长度惩罚
短语惩罚
方向概率[3]
IBM扭曲模型[4]
Institute of Automation, Chinese Academy of Sciences
技术说明-分层短语系统
中国科学院自动化所
主要借鉴了Wei[5]的基本思想,引入分层短语的概念
有效地结合了短语模型和同步上下文无关文法
分层短语模型将语序信息包含在模型之中,克服了传统短语翻译的调序问题
沿用了统计线性对数方法进行概率计算,使用了如下6个特征:
双向短语翻译概率p(e/f)和p(f/e)
双向词汇化概率l(e/f)和l(f/e)
4gram语言模型
句子长度惩罚
Institute of Automation, Chinese Academy of Sciences
技术说明-依存树到串系统
中国科学院自动化所
在源语言端运用依存结构进行统计翻译的新模型:Dependency-String Structure Model (DSS模型)
由于计算资源和时间的限制,参加本次评测的系统仍然沿用和分层短语相同的文法
DSS解码算法的输入是一棵树,而不是一个串,所以线图是按照树节点来索引的,而不是按照串中的跨距(span)来建立索引的
解码时使用了8个特征,最后两个为依存子树的惩罚
双向短语翻译概率p(e/f)和p(f/e)
双向词汇化概率l(e/f)和l(f/e)
4gram语言模型
句子长度惩罚
符合依存子树惩罚
不符合依存子树惩罚
Institute of Automation, Chinese Academy of Sciences
技术说明-前后处理
中国科学院自动化所
前处理
时间,数字处理模块
地名,人名,机构名处理模块
英文转化为小写
预处理
乱码过滤(中文中的乱码、英文中的乱码以及包含中文词的句子)
标点符号及数字变换(中文中的部分标点符号、英文中的双字节符号及数字)
英文缩写处理
中文分词、英文Tokenization
后处理
大小写转换:未翻译词保留其原始格式
格式转换:去除中文中的空格
未登录词
Institute of Automation, Chinese Academy of Sciences
技术说明-系统融合[6][7]
中国科学院自动化所
Institute of Automation, Chinese Academy of Sciences
技术说明-外部技术
中国科学院自动化所
汉语分词工具:
双语词对齐工具:GIZA++
语言模型训练工具:SRILM工具包
英文词性标注工具:Stanford Log-linear Part-Of-Speech Tagger
英文依存树分析工具:Minimum-Spanning Tree Parser (MSTparser)
01
02
Institute of Automation, Chinese Academy of Sciences
中国科学院自动化所
参评系统-CASIA_SYSTEM II
评测环境概要
中国科学院自动化所
软硬件环境
运行时间(约4000句测试集)
运行平台
操作系统
数量
CPU
RAM
PC机
Windows 2003
2
Pentium 4,

服务器
Linux (Ubuntu)
1
Xeon ×2

系统
新闻领域 (小时)
科技领域 (小时)
短语系统
16
分层短语
20
18
依存树到串
18
16
Institute of Automation, Chinese Academy of Sciences