文档介绍:关键词抽取综述
关键词抽取综述
关键词抽取是指自动抽取关键词,也就是从一个文本中抽取重要的、局部的短语,来表示文
本的主题。Keyphrase 一般由3个或以上的keywords组成。
语料
(1) 常用语料包括:paper abM
&
EmaiE
Enron curpus (Drcdzc el 2008)*
Live chuis
Library Ccmgrcss (Kim and Baldwin, 2012)
15
in
关键词抽取的方法
分两步:第一步,用启发式的规则,抽取得到候选关键词;
启发式的规则包括:(1)去除停用词;(2)允许词中包含词性标记信息,(3)允许n-grams
词汇作为关键词(4)抽取满足词汇句法模式的n-grams或名词短语
对候选关键词词数过多的可以进行剪枝。
第二部:使用监督或非监督的方法,从候选关键词确定哪些词是真正的关键词。
包括 Task Reformulation 和 feature design
Task Reformulation:类似一个二分类问题,分成正例和反例。算法包括:naive Bayes, decision trees, boosting, maximum entropy, multi-layer perceptron, support vector machines.
缺点是:每个候选关键词都是独立的,不能比较关键词。
改进:ranking approach,对两个候选词进行排序。
Features: 两类,within-collection features 和 external resource-based features
Within-collection features: 3 类,从训练集中得到
Statistical features: tf-idf, the distance of a phrase, supervised keyphraseness
Structural features:关键词出现的文本的不同位置
Syntactic features:对网页和科技论文的关键词提取有帮助
external resource-based features:从其他资源中获得,而不是训练集(没理解)
:
分为四类:graph-based ranking, topic-based clustering, simultaneous learning, language modeling
(1) graph-based ranking:顶点代表关键词,边连接两个关键词,边的权重表示两个词之间 语法或语义关系。根据临边和邻居节点来决定一个节点的打分,top-ranked的候选词作为关 键词。缺点是不能包含所有的主题。
(2) Topic-based clustering:关键词应该和主题相关,所有的关键词应该覆盖所有的主题。 包括3个代表性的系统。
keyCluster:使用Wikipedia和联合出现为基础的统计信息聚类相似的候选集。
Topical PageRank(TPK):对每个主题跑一遍,得到每个候选词与主题的相关性。
Comm