文档介绍:
第 9卷第 1期
2010年 2月
江南大学学报(自然科学版)
Journa l of J ian gnan Un iver sity( Na tura l Sc ien ce Ed it ion )
Vo l. 9 No. 1
Feb. 2010
基于平行语料库和网络的未登录词译文挖掘
1, 2 1 2 2
( ,江苏苏州 215104;
计算机学院,江苏苏州 215006 )
摘要:分别通过搜索引擎和本地的双语语料库挖掘 OOV译文。先,提出一种利用词汇重叠特
征、对齐特征和位置特征建立最大熵分类器的方法,借以自动从网页信息中抽取和构建双语平
其
译模型进行正确译文的选择。这两种挖掘方法的性能进行对比,实验表明基于网络的 Top10的包
含率达到 94. 6% ,而基于平行语料库的 Top10的包含率为 37. 5%。
关键词: OOV翻译;网络挖掘;平行双语语料库构建
中图分类号: TP 391文献标识码: A文章编号: 1671 - 7147 ( 2010 ) 01 - 0066 - 05
Study on OO V Tran sla t ion M in ing from Pa ra lle l C orpora an d the W eb
1, 2 1 2 2
(1. J iangsu P rovince Suppo rt Softwa re Engineering R &D Center fo r Mode rn Info rm ation Techno logy App lication in
En terp rise, Suzhou, 215104; 2. Schoo l pu te r Sc ience and Techno logy, Soochow U n iversity, Suzhou, 215006)
A b stra c t: Th is p ap e r p re sen ts an app roach to tran sla te OOV th rough the sea rch engine and to m ine
the tran sla tion of OOV from loca l p a ra lle l co rpo ra extrac ted from b ilingua l web p age s. A n imp roved
F requency Change M ea su rem en t wh b ine s ad jacen t info rm a tion m e thod wa s u sed to gene ra te
mode l and a tran slite ra tion mode l to se lec t the co rrec t tran sla tion. B e side s, a m in ing system u sing a
M axim um En trop y (M E) C la ssifie b ine s wo rd ove rlap fea tu re, wo rd a lign