文档介绍：关键词提取
1
关键词提取算法
目录
关键词提取技术简介
2
自动提取文本关键词
3
关键词就是能够反映文本主题或内容的词语。关键词这个概念是随着信息检索学科的出现而被提出，中文关键词是西方信息检索科学移植到中文的直接成果。
关键词提取是从单个文本或一个语料库中，根据核心词语的统计和语义分析，选择适当的、能够完整表达主题内容的特征项的过程。
关键词提取技术的应用非常广泛，主要应用对象可以分为人类用户和机器用户。在面向读者的应用中，要求所提取的关键词具有很高的可读性、信息性和简约性。
关键词提取技术的主要应用有新闻阅读、广告推荐、历史文化研究、论文索引等领域。在NLP中，关键词作为中间产物，应用也非常广泛，主要应用有文本聚类、文本分类、机器翻译、语音识别等领域。
关键词提取技术简介
由于关键词具有非常广泛的用途，因此开发出一套实用的关键词提取系统非常重要。这就要求关键词提取算法不仅在理论上正确，更要求在工程上具有很好的实践效果。
关键词提取系统的实用性主要表现在以下4个方面。
可读性。一方面，由于中文的字与字之间是没有空格隔开的，需要分词工具对文本进行切分，而分词工具对于专有名词的切分准确率还很低。另一方面，词的表达能力也非常有限，如“市场/经济”，任何一个词“市场”或“经济”都无法表达整个短语的含义。因此，系统所提取出的关键词的可读性对系统的实用性是一个很大的考验。不需要人工标注语料辅进行训练。
高速性。系统应该具有较快的速度，能够及时处理大量的文本。如一个针对各类新闻的关键词提取系统，当新闻产生后，应该能在数秒内提取出该新闻的关键词，才能保证新闻的实时性。
学习性。实用的关键词提取系统，应该能处理非常广泛的领域的文本，而不是仅仅局限于特定领域。随着社会的高速发展，各种未登录词、网络新词频频出现，系统应具有较强的学习能力。
健壮性。系统应该具有处理复杂文本的能力，如中、英文混杂，文本、图表、公式混杂的文本。
关键词提取技术简介
关键词能概括文本的主题，因而帮助读者快速辨别出所选内容是不是感兴趣的内容。目前较常用的无监督关键词提取算法如下。
TF－IDF算法
TextRank算法
主题模型算法（包括LSA、LSI、LDA等）
关键词提取算法
词频是统计一个词在一篇文档中出现频次的统计量。一个词在一篇文档中出现的频次越高，其对文档的表达能力越强。词频统计量的计算公式如下。

其中，表示词在文档中出现的频次，表示文档的总词数。
TF-IDF算法

逆文档频率是统计一个词出现在文档集中文档频次的统计量。一个词在文档集中越少的出现在文档中，说明这个词对文档的区分能力越强，逆文档频率统计量的计算公式如下所示。

其中，表示文档集中的总文档数，表示文档集中文档出现词的文档个数，分母加一是为了避免文档集中没有出现词，导致分母为零的情况。
TF-IDF算法

词频TF注重词在文档中的出现频次，没有考虑到词在其他文档下的出现频次，缺乏对文档的区分能力。逆文档频率IDF则更注重词的区分能力。
两种算法各有不足之处，假设有如下文档：“在山里，孩子们能享受的快乐只有大山和水，多数时候孩子们都是快乐的，他们的想法都是简单且容易满足的，他们总是期望了解大山外面的世界。”。
文中“孩子们”“快乐”“都是”“他们”“大山”几个词出现次数都是2，文档总词数是60。由逆文档频率统计量公式可知，，但实际上在这段文本中，“孩子们”“快乐”“大山”这3个词语更为重要。
同样地，假设文档集共有2000篇文档，出现“孩子们”“快乐”“都是”“他们”“大山”这几个词的文档数分别为60、30、250、200、20，、、、、。
按照IDF算法计算，“大山”“孩子们”“快乐”比较重要，而“都是”“他们”这类文档中常见的词语，就被赋予较低的idf值。
TF-IDF算法
综合权衡词频、逆文档频率两个方面衡量词的重要程度，TF-IDF算法的计算公式如下所示。

根据TF-IDF算法计算公式，上列中每个词语的tf值和idf值相乘，得到5个词语的TF-、、、、。因此，选取TF-IDF值中相对较大的

第6章 关键词提取.pptx

第6章 关键词提取.pptx

第6章关键词提取.pptx

第6章关键词提取.pptx