1 / 6
文档名称:

基于核模糊C均值聚类算法的词义排歧研究.doc

格式:doc   大小:64KB   页数:6页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于核模糊C均值聚类算法的词义排歧研究.doc

上传人:sssmppp 2021/3/8 文件大小:64 KB

下载得到文件列表

基于核模糊C均值聚类算法的词义排歧研究.doc

相关文档

文档介绍

文档介绍:基于核模糊C均值聚类算法的词义排歧研究
摘要:该文建立了一个无监督的词义排歧系统,并将它应用于生物 医学领域的语料中。该系统使用未进行人工标注的语料进行机器学****学****过程只需预先定义标准词义的数量,不需要其他人工干预。该系统使用 了一种通常使用于图像识别领域的基于核的模糊c均值算法。该文针对文 本应用改进该算法并将其应用在生物医学文本的词义排歧领域,并取得了 较好的效果。
关键词:词义排歧;核模糊;c均值;聚类;无监督
中图分类号:TP18文献标识码:A文章编号:1009-3044 (2015) 34-0001-03
1研究问题简介
词义排歧任务的目标是为多义词在当前上下文环境中选择合适的义 项从而消除歧义。词义排歧是自然语言处理的基础工作,它是信息抽取、 机器翻译、信息搜索等自然语言处理工作的基础。
目前主流的基于语意的词义排歧方法主要有两种:第一种是基于有指 导机器学****的方法,该方法使用一部分预先标注好的语料进行机器学****训练好的算法再之后用于测试语料测试。该类方法往往有较好的实验效 果,但是存在的问题是需要大量的人工标注语料,人工语料的标注成本较 高使得该方法应用有所局限。第二种方法是基于无指导机器学****的方法, 这种方法直接使用原始语料进行训练学****将训练好的算法用于测试语
料,直接得到结果。
2生物医学领域词义排歧研究现状
在自然语言处理中,词义排歧问题在很多领域都是一项具有挑战性的 基础工作。词义排歧的准确性会直接影响机器翻译、信息检索等工作的最 终效果。词义排歧算法在生物医学领域主要分为以下三种研究方法:有监 督学****方法、无监督学****方法和基于知识的学****方法。
目前大量的工作是基于有监督的机器学****方法。Hatzivassiloglou et ,它们是简单贝叶斯,决策树以及总结 的规则用来训练模型用于蛋白质、基因和mRNA的词义排岐工作。Gnter et 。他们将靠 近歧义词的上下文赋予更高的权重,之后使用基于SVM的分类器进行分类 工作,他们的将基因、蛋白质名称的词义排歧工作的准确率由79%提高到 了 82%。Leroy and Rindflesch提出了一种有监督的词义排歧方法将歧义 词的词义映射到了 UMLS上词义上,该方法在生物医学词义排歧领域有广 泛的影响。在非生物领域也有些学者使用了一些核函数方法来提高词义排 歧的效果。
第二类方法为基于特征的无监督学****方法。这类方法使用通用的词典 义项作为词义排歧的目标,通常使用通用词典义项作为最终评估标准,或 者使用不同词义类别的区分程度来评估词义排歧的效果。Agirre et al. 提出了一种基于图的方法实现了为另外一种常见的无监督学****思路。Duan W et ,在之前的方法基础上
准确率有所提高。
第三类方法是基于大规模外部资源的方法。Wren et 数据库包含缩略语和它们的完整义项。Jimeno-Yepes et 识的词义排歧方法进一步提高的准确率。
目前生物医学领域词义排歧问题已经研究比较深入,各个大类方法都 有学者做出了深入研究取得较佳的研究效果。我们将在前人的研究基础上 开展自