1 / 3
文档名称:

关键词自动抽取综述.docx

格式:docx   大小:14KB   页数:3页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

关键词自动抽取综述.docx

上传人:dlmus1 2022/6/20 文件大小:14 KB

下载得到文件列表

关键词自动抽取综述.docx

相关文档

文档介绍

文档介绍:关键词抽取综述
关键词抽取综述
关键词抽取是指自动抽取关键词,也就是从一个文本中抽取重要的、局部的短语,来表示文
本的主题。Keyphrase 一般由3个或以上的keywords组成。
语料
(1) 常用语料包括:paper abM
&
EmaiE
Enron curpus (Drcdzc el 2008)*

Live chuis
Library Ccmgrcss (Kim and Baldwin, 2012)
15
in
关键词抽取的方法
分两步:第一步,用启发式的规则,抽取得到候选关键词;
启发式的规则包括:(1)去除停用词;(2)允许词中包含词性标记信息,(3)允许n-grams
词汇作为关键词(4)抽取满足词汇句法模式的n-grams或名词短语
对候选关键词词数过多的可以进行剪枝。
第二部:使用监督或非监督的方法,从候选关键词确定哪些词是真正的关键词。

包括 Task Reformulation 和 feature design
Task Reformulation:类似一个二分类问题,分成正例和反例。算法包括:naive Bayes, decision trees, boosting, maximum entropy, multi-layer perceptron, support vector machines.
缺点是:每个候选关键词都是独立的,不能比较关键词。
改进:ranking approach,对两个候选词进行排序。
Features: 两类,within-collection features 和 external resource-based features
Within-collection features: 3 类,从训练集中得到
Statistical features: tf-idf, the distance of a phrase, supervised keyphraseness
Structural features:关键词出现的文本的不同位置
Syntactic features:对网页和科技论文的关键词提取有帮助
external resource-based features:从其他资源中获得,而不是训练集(没理解)

分为四类:graph-based ranking, topic-based clustering, simultaneous learning, language modeling
(1) graph-based ranking:顶点代表关键词,边连接两个关键词,边的权重表示两个词之间 语法或语义关系。根据临边和邻居节点来决定一个节点的打分,top-ranked的候选词作为关 键词。缺点是不能包含所有的主题。
(2) Topic-based clustering:关键词应该和主题相关,所有的关键词应该覆盖所有的主题。 包括3个代表性的系统。
keyCluster:使用Wikipedia和联合出现为基础的统计信息聚类相似的候选集。
Topical PageRank(TPK):对每个主题跑一遍,得到每个候选词与主题的相关性。
Comm