1 / 6
文档名称:

基于扩充词汇链改进的关键词提取算法.pdf

格式:pdf   大小:5,355KB   页数:6页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于扩充词汇链改进的关键词提取算法.pdf

上传人:iris028 2021/9/27 文件大小:5.23 MB

下载得到文件列表

基于扩充词汇链改进的关键词提取算法.pdf

相关文档

文档介绍

文档介绍:第 3 4 卷 第 2 期 苏 州 科 技 大 学 学 报 (自然科学版)
2017年 6 月 Journal of Suzhou University of Science and Technology (Natural Science) Jun. 2017
基于扩充词汇链改进的关键词提取算法
王小林,朱 磊 ,邰伟鹏
(安徽工业大学计算机科学与技术学院,安徽马鞍山243002)
摘 要:关键词的准确提取在文本分类、文本聚类、信息检索等方面起着重要作用。现有的基于词汇链的关键词提
取方法在计算词语相似度时,赋予第一类独立义原系数的值最大并且通过第一类独立义原相似度约束其他三类义
原相似度;通过区域特征和词频提取关键词时,词语的权重依赖词汇链的长度,不能充分利用区域特征等问题。为了
提高关键词的提取准确率,计算词语相似度时,用对比的两个词语每类义原个数的和与四类义原个数总和的比值大
小排序后动态的获取系数取代固定系数,并且去除每类义原受到前面所有义原类的约束;提取关键词时,用词汇链
的有效权重替代词汇链的长度。实验结果表明:改进后的算法较传统的算法提高了准确率。
关键词:关键词提取;区域特征;词语相似度;有效权重;词汇链;义原
中图分类号: 文献标志码:A 文章编号:2096-3289(2017)02-0049-06
信息时代不断的发展,信息内容呈现的方式成多样化,但是以文本呈现信息内容的方式依旧不可取代。
随着网络上文本数据的不断增长,如果还靠人工去获取所需文本信息,那么将会耗费太多的时间和精力,如
何提高文本信息的获取效率变得尤为突出。在对海量的文本数据进行处理时,研究人员从文本分类、文本聚
类 、信息检索等方面进行了大量的研究,发现了一个非常关键的问题,就是如何从文本中获取能简约概括文
本信息的关键词。关键词能够具体的概括出文本所要表达的信息,使读者不必查看文本就能知道该文本是
不是自己所需要的。而且,通过计算文本关键词的相关性度量[1],就能很快的对文本进行分类、聚类,因此,可
以提高文本分类、聚类的效率。在信息检索方面,关键词的作用显得尤为突出,用户在搜索引擎中输人关键
词 ,搜索引擎会向用户给出那些包含关键词的文章。国外对关键词研究的比较早,已经建立了一些实用和试
验系统。Witter^ 采用朴素贝叶斯技术对短语离散的特征值进行训练,获取模型的权值,以完成下一步从文档
中抽取关键短语的任务。T u m e y P 股 计 的
的抽取。
由于汉语本身没有词语边界这一特点,