文档介绍:统计机器翻译简明教程 兼谈相关工具的使用
何中军
2007年11月
提纲
系统结构
前处理
词语对齐
短语抽取
解码
后处理
参数训练
评测
词语对齐
训练语料库
训练语料库为双语语料库
格式不固定,可以是文本格式,xml格式等等
要求必须句子对齐
back
语料预处理
目的:将各种格式不同的生语料进行加工,形成格式统一的语料库,以便进行词语对齐
步骤:
汉语分词
工具:ICTCLAS
汉语全半角转换
功能: 将A3区的全角字符转换为半角字符
程序:A2B
命令行: A2B input output
英语分词
工具:Brill
英语首字母小写还原
功能:将英语语料库中的句首字母进行大小写转换。如果首单词在语料库中出现的次数小写多于大写,则将首字母变为小写。
程序:Truecase
命令行:Truecase input output
处理后训练语料库
双语语料库
汉语切词
高新技术产品出口 。
全半角转换
高新技术产品出口 亿美元。
英语切词
The export of High-tech Products Reached billion US dollars .
the export of High-tech Products Reached billion US dollars .
大小写转换
back
词语对齐
GIZA++词语对齐
词语对齐后处理
添加句首句尾标记
词语对齐– GIZA++训练
输入:汉语文本,英语文本,一行一句,句子对齐
chinese
english
plain2snt
mkcls
Giza++
*. …
plain2snt:统计单词数,格式转换
命令行./ chinese english
2 上海 738
3 浦东 76
4 开发 389
5 与 3724
Format:
单词编号单词单词出现次数
1
2 3 4 5 6 7 8
2 3 4 5 6 7 8 9 10 11 2 12 4 13 14 15
Format: 每个句对占3行
句子出现次数
汉语句子
英语句子
mkcls:单词聚类
命令行:
./mkcls -n1 -pchinese - opt
-n:表示训练迭代的次数,一般迭代1次
-p:要聚类的文本,一行一句(已分词)
-V:输出信息
opt:优化运行
1925年 17
1925日 47
Format:
单词词类
2:1月份,83%,AmocoCadiz,_,ⅲ,百分之三十九点四
3:+,TC,百二十万,百六十万,百五十万
Format:
词类:单词,单词