文档名称：

关键词自动抽取综述.docx

格式：docx 大小：14KB 页数：3页

下载后只包含 1 个 DOCX 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

预览

下载此文档

关键词自动抽取综述.docx

上传人:dlmus1 2022/6/20 文件大小：14 KB

下载得到文件列表

关键词自动抽取综述.docx

相关文档

文档介绍

文档介绍：关键词抽取综述
关键词抽取综述
关键词抽取是指自动抽取关键词，也就是从一个文本中抽取重要的、局部的短语，来表示文
本的主题。Keyphrase 一般由3个或以上的keywords组成。
语料
（1）常用语料包括：paper abM
&
EmaiE
Enron curpus (Drcdzc el 2008)*

Live chuis
Library Ccmgrcss (Kim and Baldwin, 2012)
15
in
关键词抽取的方法
分两步：第一步，用启发式的规则，抽取得到候选关键词；
启发式的规则包括：（1）去除停用词；（2）允许词中包含词性标记信息，（3）允许n-grams
词汇作为关键词（4）抽取满足词汇句法模式的n-grams或名词短语
对候选关键词词数过多的可以进行剪枝。
第二部：使用监督或非监督的方法，从候选关键词确定哪些词是真正的关键词。

包括 Task Reformulation 和 feature design
Task Reformulation:类似一个二分类问题，分成正例和反例。算法包括：naive Bayes, decision trees, boosting, maximum entropy, multi-layer perceptron, support vector machines.
缺点是：每个候选关键词都是独立的，不能比较关键词。
改进：ranking approach,对两个候选词进行排序。
Features: 两类，within-collection features 和 external resource-based features
Within-collection features: 3 类，从训练集中得到
Statistical features: tf-idf, the distance of a phrase, supervised keyphraseness
Structural features:关键词出现的文本的不同位置
Syntactic features:对网页和科技论文的关键词提取有帮助
external resource-based features：从其他资源中获得，而不是训练集（没理解）
：
分为四类：graph-based ranking, topic-based clustering, simultaneous learning, language modeling
（1） graph-based ranking:顶点代表关键词，边连接两个关键词，边的权重表示两个词之间语法或语义关系。根据临边和邻居节点来决定一个节点的打分，top-ranked的候选词作为关键词。缺点是不能包含所有的主题。
（2） Topic-based clustering：关键词应该和主题相关，所有的关键词应该覆盖所有的主题。包括3个代表性的系统。
keyCluster：使用Wikipedia和联合出现为基础的统计信息聚类相似的候选集。
Topical PageRank（TPK）:对每个主题跑一遍，得到每个候选词与主题的相关性。
Comm