文档介绍:万方数据
高正确率的双语语块对齐算法研究俞敬松王惠临馐だ概述中文信息学报文章编号:一英语语块母拍钭钤缬葾出,代表句子的非递归核心成分,具有句法相关性和不可嵌套性。周强等岢龅暮河锞渥幼榭榉治鎏系可能是最早的关于汉语语块的研究。对齐的双语语块是在机器翻译研究工作中发展起来的语块扩展形式,程葳等衔K镉锟橛型挠镆澹诜上可以互相转换。双语语块对齐任务可以描述为:给定输人双语句子,自动进行语块划分并按语义对齐。目前多数算法都是基于统计方法的,输出的对齐概率结果面向机器翻译,人工无法解读。语块对齐工作缺乏标准规范裁挥泄ǹ5大规模的标准训练和评测数据。单语语块都很难严谨定义,双语环境中更难。我们认为语块划分要兼顾对齐。从根本来说,语言现象的复杂性是最大的困扰。翻译过程中存在的大量省译、增译、语序调整、意译、兼类、指代等现象加大了双语对齐难度。我们提出的高质量语块互译对齐,要求系统输出的是人可辨识的有意义结果。译员们获得的是来自计算机的准确的有意义的提示,降低专业译员们的认知负担。在本篇论文中判定是否是语块,,北京;且对于人工翻译以及辞典编纂也都有巨大的应用价值。该文提出基于单词间粘合度与松弛度的语块划分评分方比,因为无需事先进行双语语块划分,而是在搜索最佳对齐时动态地考察划分效果,故可以减少边界划分错误对对В琖琖年泄蒲Ъ际跣畔⒀芯克本本┐笱砑胛⒌缱友г海本﹍摘要:高质量的自动对齐双语语块,对于机器翻译系统,特别是计算机辅助翻译系统的性能提高有重要作用,而法以及双语语块划分的双向约束算法,使得源语言和目标语言的语块的划分与对齐能相互促进。与传统方法相齐结果的影响。该算法获得了远超过传统算法的高正确率。关键词:语块对齐;机器翻译;平行文本;双语对齐中图分类号:文献标识码:,,,巧,,玎收稿日期:一—定稿日期:——甆.;琍甋:竣鯽珻..,,瑃:籱籶;琣緀
万方数据
R籵帧獇一籔:一边界上的首尾切分点切开的概率,璏一锟榍蟹值氖P偷慕记作“值越大代表连接越不紧密。假设已知叫:帧3狄形式化规则外,主要以人的主观判定为依据:首先语块必须有明确的意义;其次在其他语句中可以重复使用。符合这两条就认为语块划分且对齐正确,没有遵从任何预定义的语法体系。这一点上,本文与其他论文有较大的不同。本文工作服务于交互式机器翻译等场合:当人类译员在输入完成一个句子的时候,系统依据原文、机器翻译的假设及概率、目标语言模型等进行可能的提示,译员可判断接受从而加速正确译文的产出速度。这里的译文是人的工作成果,与机器翻译没有可比性。高质量双语语块库作为语言资源之一加入模型体系中,提高译员接受猜测的概率。侧重高正确率的算法将依赖更大规模的语料来保证高质量语块对齐结果对于机器翻译系统来说也是高价值资源。基于短语的机器翻译系统中,过长的句子由于训练时间太耗时而常常被丢弃,利用高质量对齐语块将长句子“拆解”为较短的互译片段可减少训练时间并充分利用语料。本文的语块对齐工作具有语言中立性。关于语块的研究早期多使用规则方法。吕学强等。总结了链语法的连接因子和狢的对应关系;刘冬明等谑荡识云氲幕∩匣钟锟椋磺刚⑹粤嘶诰浞ㄉ畈憬峁狗氩槐湫缘姆氲价对抽取;墓ぷ髟蚶昧硕逃锕钩傻语言学知识。近期则是统计方法占主流。姜柄圭等J峭臣品椒ㄎ;。酆显擞霉嬖蚍椒ǔ槿∮块;刘海霞等幻将既有的语义资源引入计算过