1 / 14
文档名称:

“现代汉语语义词典”的结构及应用(精).doc

格式:doc   大小:1,849KB   页数:14页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

“现代汉语语义词典”的结构及应用(精).doc

上传人:文艺人生 2024/5/7 文件大小:1.81 MB

下载得到文件列表

“现代汉语语义词典”的结构及应用(精).doc

相关文档

文档介绍

文档介绍:该【“现代汉语语义词典”的结构及应用(精) 】是由【文艺人生】上传分享,文档一共【14】页,该文档可以免费在线阅读,需要了解更多关于【“现代汉语语义词典”的结构及应用(精) 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。“现代汉语语义词典”的结构及应用(精)[收稿日期]2003-10-20[作者简介]王惠,新加坡国立大学助教,博士,主要研究汉语词汇学、语义学和计算语言学;詹卫东,北京大学副教授,博士,主要研究汉语语法、语义和计算语言学;俞士汶,北京大学教授,主要研究计算语言学。3本研究得到国家973重点基础研究项目(G199803050724和(G199803050721资助,研究还得到北京大学陆俭明教授的大力支持,在此一并致谢。“现代汉语语义词典”的结构及应用3王惠1 詹卫东2 俞士汶2( 117570; 100871 [摘要]“现代汉语语义词典(”是一个面向汉英机器翻译的大规模汉语语义知识库,它以数据库文件形式收录616万余实词,不仅给出每个词语所属的词类、语义类,而且以义项为单位详细描述了它们的各种语义搭配限制。目的是为计算机语义自动分析、词义消歧等任务提供强有力的支持。本文介绍这部语义词典的结构、内容,并以实例说明这部词典可有效地解决翻译系统中的词汇歧义(WSD问题。为了给计算机自动分析提供更全面、深入的语义信息,我们应充分吸收现有的研究成果,在语法知识库的基础上构建语义知识库。不仅要进行系统的语义分类,而且要对词义组合信息加以全面描述,进一步加强动态的语义组合知识的研究和总结,建立一个与语言工程应用紧密配合的、合理的语义知识描述框架。北京大学与中科院计算所自1994年联合开发“汉英机器翻译模型系统”开始,就着手研制为汉英机器翻译服务的“现代汉语语义词典”,目的是在语法分析的基础上,为计算机提供更深入的语义信息。1996年至1998年,双方共同承担了国家863高科技项目“通用机器翻译开发平台和汉英机器翻译系统”课题(项目编号:863230620320622。作为该课题的一个重要组成部分,“现代汉语语义词典”进入到大规模开发阶段,并取得了重要的阶段性成果,完成419万名词、动词、形容词的语义分类,并在配价理论的基础上,简要描述了其语义搭配限制(王惠等,1998。从2001年开始,“现代汉语语义词典”的再开发受到国家973重点基础研究发展规划项目的支持,对词语的语义分类以及配价属性描述重新进行填写或修订。表1 语义词典规模库名词条属性字段名词3752215时间词56715处所词18515方位词20415代词23615动词2114216形容词382715区别词75315状态词99715副词99711数词10911总库665398二内容概要(一规模与结构“现代汉语语义词典”收录了66539个通用领域内的实词,采用Foxpro810实现,共有12个数据库,其中包含全部词语的总库1个,每类词语各建一库,计11个。每个库文件都详细刻画了词语及其语义属性的二维关系。总库中包括词语、拼音、同形、义项、语义类、词类、子类、兼类等8个字段。每类词的特有属性填在各类词库中,如名词库设15个属性字段,动词库设16个属性字段,如此等等。表2 名词库部分属性字段词语词类同形义项语义类配价数参照体对象WORDECAT老虎n动物0tigerN腿n11生物构件1人Π动物legN腿n22非生物构件1用具legN意见n11认知2人实体|抽象物viewN意见n22认知2人人|事件objectionN (二词语的语义分类国内外对汉语语义分类体系的研究已有不少成果,但由于各家分类体系的目的及应用范围不同,对同一事物可能有不同的定义与归类。如“动物”在一个语义体系中分为“兽类、鸟类、5312006年第1期王惠等:“现代汉语语义词典”的结构及应用鱼类、虫类、爬行类”,而在另一个体系中分为“脊椎动物、腔肠动物、软体动物”。但这些分类体系都是基于自然科学或常识而独立于语法的。在实际语言分析中,如何将这些语义知识与语法知识有机地结合起来是一件很困难的事情。与这些基于常识的各种语义分类相比,“现代汉语语义词典”中语义分类的突出特点就是分类的深度与广度取决于语法分析的需要。应用语义知识应着重于解决那些仅靠语法规则难以解决的问题。因而语义分类是在词的语法分类基础上进行的,并且只对名词、动词、形容词等实词进行语义分类描述,而那些带有明显标志的、通常用句法形式就可以表示的语义关系,如各类虚词,则不作为语义分类研究的对象。经过4年来的应用检验与研究,我们发现,对于中文信息处理来说,这种分类法是很有前途和实用价值的。为了更彻底地贯彻这个原则,和“D”(于江生、俞士汶,2002兼容,与“知网(”、《同义词词林》等已有的多种语义词典实现资源共享,我们在参照现有各家语义类的基础上,针对汉英机器翻译的需要,对语义词典(1998版的原分类体系作了较大的调整。总的来说,新的语义分类更趋合理,其特点是对名词的分类相对较细,动词、形容词的分类较粗,只要能揭示出与名词性成分、动词性组合成分的不同组合类型即可。目前我们已实际完成了616万词语的语义类划分与标注。具体分类体系如下:(Noun111 具体事物(entity11111 anism1111111 人(person111111111 个人(individual:职业身份关系姓名111111112 团体(group:机构人群1111112 动物(animal:兽鸟鱼昆虫爬行动物1111113 植物(plant:树草花庄稼1111114 微生物(microbe:细菌病毒霉菌11112 非生物(object1111211 人工物(artifact:建筑物衣物食物药物创作物计算机软件钱财票据证书符号材料器具1111212 自然物(naturalobject:天体气象地理1111213 排泄物(excrement:汗尿粪便奶水眼泪1111214 外形(shape:粉末长方形圆窟窿孔洞泡11113 构件(part1111311 身体构件(body2part:头脸鼻子嘴耳朵头发血液骨头1111312 非生物构件(object2part:梁屋檐车闸车筐112 抽象事物(abstraction11211 属性(attribute1121111 量化属性(measurable:体积面积重量质量价格1121112 模糊属性112111211 人性(propertyofhuman:胆量勇气脾气作风112111212 事性(descriptionofevent:境况形势状态环节631 语言文字应用2006年第1期112111213 物性(propertyofobject:性能效用品种式样1121113 颜色(color:黑色白色浅色素色11212 信息(information:话言语信件口信密码声明借口11213 领域(field:社会经济法律科学艺术11214 法规(rule:法律条约协议制度规章合同条文11215 生理(physiologicalstate:瘟疫疾病炎症艾滋病11216 心理特征(psychologicalfeature1121611 情感(feelings:态度感情爱情1121612 意识(cognition:意图幻想兴趣主意见解11217 动机(motivation:目的原因理由113 过程(process11311 事件(event:学潮球赛晚会课早餐战争火灾11312 自然现象(naturalphenomenon114 时间(time11411 绝对时间(specifictime:宋朝三国清代11412 相对时间(relativetime:昨天当代古代今天115 空间(space11511 处所(location:浙江西湖黄山中国亚洲11512 方位(direction:东南前面之间途中高空21形容词(Adjective211 事性值(descriptionofevent:紧急突然困难容易错误费时212 物性值(propertyofobject21211 量化属性值(measurablevalue2121111 浓度(concentration:浓稀薄2121112 温度(temperature:热冷凉爽2121113 速度(speed:快慢2121114 长度(length:长短2121115 高度(height:高矮低2121116 宽度(width:宽窄2121117 深度(depth:深浅2121118 厚度(thickness:厚薄2121119 硬度(rigidity:硬软21211110 湿度(humidity:潮湿湿润干燥21211111 粗细(degreeoffinish:粗细21211112 松紧(degreeoftightness:松紧21211113 大小(size:大中小21211114 价值(value:贵便宜21212 模糊属性值(unmeasurablevalue2121211 视感(vision:亮醒目清晰混浊7312006年第1期王惠等:“现代汉语语义词典”的结构及应用2121212 触感(tactility:紧松粗糙滑柔2121213 音质(tone:响亮低沉刺耳2121214 味道(taste:酸甜苦辣可口2121215 性质(quality:新旧真假好坏强弱2121216 内容(content:空洞晦涩清楚浅显2121217 外形(shape:方圆尖21213 颜色(color:红黄蓝绿鲜艳213 人性值(propertyofhuman21311 年龄(age:年轻幼小老21312 品格(character:善良博学幼稚优雅21313 关系(relation:亲密疏远热情冷淡21314 境况(condition:繁忙贫穷危险疲劳214 空间值(propertyofspace21411 一维值(onedimension:远近21412 二维值(twodimensions:平斜弯21412 三维值(threedimensions:拥挤杂乱整齐满壮阔215 时间值(propertyoftime:(Verb311 静态关系(state:是有等于包括312 心理活动(emotionΠcognition:喜欢尊敬反对同意怀疑思考判断313 动态行为(event31311 变化(change:死病下降长高缩小变暗31312 气象(weather:下雨刮风打雷起雾31313 身体活动(bodilycareandfunctions:蹬跳推笑咳嗽游泳31314 五官感觉(perception:看见听到闻着品尝31315 消耗(consumption:吃喝饮31316 位移(motion:跑走散步飞过来回去拉来31317 创造(creation:制作画炒写创建修筑31318 接触(contact:触摸撞击打中系挖掘31319 领属转移(possession:买卖赠送给转让借313110 munication:告诉询问请求转达叮嘱说313111 petition:竞赛赛跑打仗摔跤辩论313112 社会活动(socialbehavior:改革调价开会联欢313113 其他行为(otherevent(三词语的语义属性描写为了进一步提高机器翻译系统的性能,本词典在语义分类的基础上,进一步详细刻画了每个词的配价数及其在上下文中的语义搭配限制,见表3。831 语言文字应用2006年第1期2006年第1期王惠等“现代汉语语义词典”:的结构及应用表3 现代汉语语义词典动词库的属性字段1 39字段名词语拼音词类子类兼类1~4个字的词语字段值填每个词语的汉语拼音,声调用“1,2,3,4,5”表示,其中5”“表示轻声。如:常识”“的全拼音是“chang2shi2”“尺子”,的全拼音是chi3zi5”“。填词语所属词类的代码。如:名词填n”动词填v”形容词填a”“,“,“。填词语所属词类的子类代码。如:名词性成语填IN”动词性****用语填LV”“,“。填该词语兼属的词类代码,如:名词“锁”的兼类填v”“。对于字形、词类都相同但是应算不同词的情况,在本字段中填上字母A,B,C,如“抄近道”“抄”的