1 / 12
文档名称:

《论文 汉英机器翻译扩充 词典的建造(定稿)》.doc

格式:doc   大小:159KB   页数:12页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

《论文 汉英机器翻译扩充 词典的建造(定稿)》.doc

上传人:pppccc8 2020/3/14 文件大小:159 KB

下载得到文件列表

《论文 汉英机器翻译扩充 词典的建造(定稿)》.doc

相关文档

文档介绍

文档介绍:汉英机器翻译扩充词典的建造*刘群U2张彤2I北京大学计算语言学研究所2中国科学院计算技术研究所******@:本文首先介绍了我们在“而向新闻领域的汉英机器翻译系统”中语言资源建设的总体框架,然后着重介绍了其中扩充词典的建设方法。扩充词典是相对于核心词典而言的,特点是词汇量大,每个词的信息相対较少。扩充词典的建设包括以下几个阶段:收集;格式整理;词条拆分;词性标记归i化;词性标记补齐;词条合并。实验结果表明,采用这种方法,利用较少的人工,就可以得到规模很大、并初步可用的双语机器翻译词典,并且这部词典可以大大减少翻译中未定义词的数最,提高翻译的质量。关键词:机器翻译,双语词典获取引言现在的机器翻译研究,从一种劳动密集型的研究方式逐步过渡到了i种资源密集型的研究方式。这二者的区别在于,在劳动密集型的研究方式中,语言学家的工作是为某个具体的机器翻译系统开发词典、规则库等语言知识库,其工作依附于某个具体的机器翻译系统,不具有独立性。而在资源密集型的研究方式中,语言学家和计算机工作者的分工更加明确。语言学家的研究成果以语言资源的形式呈现出來,血不是仅仅为某一个机器翻译系统服务,其工作具有一定的独立性。同时,这种分工导致了语言资源的共享,也使得计算机工作者在算法的研究中对于语言资源的使用有了更广泛的选择余地。木项H接受国家朿点基础研究项H(973)资助,课题号为:G1998030507-4o本文简要介绍了我们在“面向新闻领域的汉英机器翻译系统”开发过程中语言资源建设的总体规划和实施情况,然后详细介绍了其屮一个子任务——“扩充词典”建设的工作流程、算法设计、实施过程和结果评价。1语言资源建设的总体规划我们在“面向新闻领域的汉英机器翻译系统”的开发过程中,非常重视语言资源的建设。我们建立了一套完整的,覆盖语言知识齐个层面的机器翻译语言资源建设规范,并启动了一系列的语言资源建设子任务。这些子任务包括:汉语语义词典子任务:在原有语义词典基础上,完善规范、修改错误、补充词语,构造一部完幣的机器翻译用汉语语义词典。目前此项工作止在进行,目标是将北京大学语法信息词典屮的七万多汉语词语加入到语义词典中;汉英扩充词典子任务:在原有核心词典的基础上构造一部机器翻译用扩充词典,本文后面将详细介绍:汉英短语库子任务:收集汉英対照的短语,标记出短语结构信息,此项工作(2告一段落,目前收入短语5万余条;汉英双语语料库收集整理子任务:收集、幣理双语语料库、进行格式整理、篇章标注、篇章对齐,此项工作第-•阶段已经完成,收录大约100万汉字的汉英对照新闻语料以及大量的其他类型语料,目前止在进行第二阶段工作;汉英双语语料库句子对齐子任务:在篇章对齐语料库基础上,完成段落对齐和句子对齐,与上一•个子任务一样,第一阶段己完成,完成了100万汉字的汉英对照新闻语料的句子对齐(约4000句对),并整理其他类型句子对齐语料约18万句对。目前止在进行第二阶段工作;汉英双语语料库短语对齐子任务:在句子対齐语料库基础上,完成子句、垠长名词短语、基本名词短语以及其他一些特定类型短语的对齐,此项工作第一阶段已经完成,大约完成了3000汉英句对的短语对齐工作。第二阶段还没有开始。本文主要介绍英中的第二项子任务:汉英扩充词典子任务。$$背**{vA}v$=[义项:”⑴驮;⑵负担”,谓词性主语:NO,系词:NO,助动词:NO,趋向动词:NO,补助动词:NO,……,语义类:搬移,配价数:2]{主体:[语义类:人I动物],客体:[语义类:具体事物],处所:[语义类:空问I集体]}=>V<bear>$=[VSUBC:VO,VMORF:IREQVD:bore,VN:bome,OBJTYPE:NP]**{vBl}v$=[义项:”(1)向~;⑵避”,谓词性主语:NO,系词:NO,助动词:NO,趋向动词:NO,补助动词:NO,……,语义类:自移I自为,配价数:1]{主体:[语义类:人],客体:[语义类:人类]}=>D<nbehindone'sback”〉$=[DVPRE:NO,DVEND:YES,DADJV:NO,DMORF:NONE]=>V(!V<do>P<behind>N<back>)%V=[VSUBC:VI,VMORF:IREG,VD:did,VN:done]**{vB2}v$=[义项:”⑷~诵”,谓词性主语:NO,系词:NO,助动词:NO,趋向动词:NO,补助动词:NO,形式动词:NO,……,语义类:对待,配价数:2]{主体:[语义类:人],客体:[语义类:人为事物I抽象事物]}=>V<recite>$=[VSUBC:VO,VMORF:REGU,OBJTYPE:NPICS]**{n}n$=[名词子类:na,前名:NO,前动:NO,后名:NO,名状语:NO,临时量词:NO,语义类:构件]=>N<ba

最近更新

新能源发电项目产权互换协议书范本 3页

2025年施工员个人工作总结报告精选模板 14页

2021年班级管理题库 31页

新能源投资合作协议担保细则 2页

新能源汽车产业投资保证金质押担保合同书 3页

新能源汽车充电桩建设与运营合作协议 3页

2025年新高考选择物化政怎么样 4页

自修复电缆材料在建筑行业的应用前景分析 38页

自动驾驶多模态技术的新研究进展 37页

主要消费地区硫酸盐市场需求调研报告 38页

综合项目部管理新规制度样本 17页

2021年科目四安全文明常识题库交通事故救护及.. 9页

新能源电动汽车制造厂房租赁合同及生产配套协.. 2页

中国在线教育行业市场调查报告 46页

新能源电池研发与应用合同 3页

重庆职业病防治院建设综合项目职业病危害评价.. 6页

新能源设备进口及分销合作协议 3页

新能源车辆制造承包招商合同模板 3页

新能源项目EPC总承包合同范本 3页

新能源项目场地调研与开发合同范本 3页

中国低碳城市建设经验分享与案例研究 31页

统信UOS桌面操作系统-基本操作用户手册 11页

门式起重机安全技术交底 6页

装饰工程施工进度计划规划方案横道图 4页

高要十大名墓 震惊全国睇下有无你条村 3页

中国成人ICU镇痛和镇静治疗指南课件 39页

部编版一年级下语文暑假作业试题汇总 12页

009分离性体验量表DES-II 3页

圣经人名地名意义汇编 6页

含油废水一体化处理成套设备 1页