文档名称：

基于核模糊C均值聚类算法的词义排歧研究.doc

格式：doc 大小：64KB 页数：6页

下载后只包含 1 个 DOC 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

预览

下载此文档

基于核模糊C均值聚类算法的词义排歧研究.doc

上传人:sssmppp 2021/3/8 文件大小：64 KB

下载得到文件列表

基于核模糊C均值聚类算法的词义排歧研究.doc

相关文档

文档介绍

文档介绍：基于核模糊C均值聚类算法的词义排歧研究
摘要：该文建立了一个无监督的词义排歧系统，并将它应用于生物医学领域的语料中。该系统使用未进行人工标注的语料进行机器学****学****过程只需预先定义标准词义的数量，不需要其他人工干预。该系统使用了一种通常使用于图像识别领域的基于核的模糊c均值算法。该文针对文本应用改进该算法并将其应用在生物医学文本的词义排歧领域，并取得了较好的效果。
关键词：词义排歧；核模糊；c均值；聚类；无监督
中图分类号：TP18文献标识码：A文章编号：1009-3044 (2015) 34-0001-03
1研究问题简介
词义排歧任务的目标是为多义词在当前上下文环境中选择合适的义项从而消除歧义。词义排歧是自然语言处理的基础工作，它是信息抽取、机器翻译、信息搜索等自然语言处理工作的基础。
目前主流的基于语意的词义排歧方法主要有两种：第一种是基于有指导机器学****的方法，该方法使用一部分预先标注好的语料进行机器学****训练好的算法再之后用于测试语料测试。该类方法往往有较好的实验效果，但是存在的问题是需要大量的人工标注语料，人工语料的标注成本较高使得该方法应用有所局限。第二种方法是基于无指导机器学****的方法，这种方法直接使用原始语料进行训练学****将训练好的算法用于测试语
料，直接得到结果。
2生物医学领域词义排歧研究现状
在自然语言处理中，词义排歧问题在很多领域都是一项具有挑战性的基础工作。词义排歧的准确性会直接影响机器翻译、信息检索等工作的最终效果。词义排歧算法在生物医学领域主要分为以下三种研究方法：有监督学****方法、无监督学****方法和基于知识的学****方法。
目前大量的工作是基于有监督的机器学****方法。Hatzivassiloglou et ，它们是简单贝叶斯，决策树以及总结的规则用来训练模型用于蛋白质、基因和mRNA的词义排岐工作。Gnter et 。他们将靠近歧义词的上下文赋予更高的权重，之后使用基于SVM的分类器进行分类工作，他们的将基因、蛋白质名称的词义排歧工作的准确率由79%提高到了 82%。Leroy and Rindflesch提出了一种有监督的词义排歧方法将歧义词的词义映射到了 UMLS上词义上，该方法在生物医学词义排歧领域有广泛的影响。在非生物领域也有些学者使用了一些核函数方法来提高词义排歧的效果。
第二类方法为基于特征的无监督学****方法。这类方法使用通用的词典义项作为词义排歧的目标，通常使用通用词典义项作为最终评估标准，或者使用不同词义类别的区分程度来评估词义排歧的效果。Agirre et al. 提出了一种基于图的方法实现了为另外一种常见的无监督学****思路。Duan W et ，在之前的方法基础上
准确率有所提高。
第三类方法是基于大规模外部资源的方法。Wren et 数据库包含缩略语和它们的完整义项。Jimeno-Yepes et 识的词义排歧方法进一步提高的准确率。
目前生物医学领域词义排歧问题已经研究比较深入，各个大类方法都有学者做出了深入研究取得较佳的研究效果。我们将在前人的研究基础上开展自