1 / 55
文档名称:

第6章 关键词提取.pptx

格式:pptx   大小:431KB   页数:55页
下载后只包含 1 个 PPTX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

第6章 关键词提取.pptx

上传人:春哥知识店铺 2021/8/24 文件大小:431 KB

下载得到文件列表

第6章 关键词提取.pptx

文档介绍

文档介绍:关键词提取
1
关键词提取算法
目录
关键词提取技术简介
2
自动提取文本关键词
3
关键词就是能够反映文本主题或内容的词语。关键词这个概念是随着信息检索学科的出现而被提出,中文关键词是西方信息检索科学移植到中文的直接成果。
关键词提取是从单个文本或一个语料库中,根据核心词语的统计和语义分析,选择适当的、能够完整表达主题内容的特征项的过程。
关键词提取技术的应用非常广泛,主要应用对象可以分为人类用户和机器用户。在面向读者的应用中,要求所提取的关键词具有很高的可读性、信息性和简约性。
关键词提取技术的主要应用有新闻阅读、广告推荐、历史文化研究、论文索引等领域。在NLP中,关键词作为中间产物,应用也非常广泛,主要应用有文本聚类、文本分类、机器翻译、语音识别等领域。
关键词提取技术简介
由于关键词具有非常广泛的用途,因此开发出一套实用的关键词提取系统非常重要。这就要求关键词提取算法不仅在理论上正确,更要求在工程上具有很好的实践效果。
关键词提取系统的实用性主要表现在以下4个方面。
可读性。一方面,由于中文的字与字之间是没有空格隔开的,需要分词工具对文本进行切分,而分词工具对于专有名词的切分准确率还很低。另一方面,词的表达能力也非常有限,如“市场/经济”,任何一个词“市场”或“经济”都无法表达整个短语的含义。因此,系统所提取出的关键词的可读性对系统的实用性是一个很大的考验。不需要人工标注语料辅进行训练。
高速性。系统应该具有较快的速度,能够及时处理大量的文本。如一个针对各类新闻的关键词提取系统,当新闻产生后,应该能在数秒内提取出该新闻的关键词,才能保证新闻的实时性。
学习性。实用的关键词提取系统,应该能处理非常广泛的领域的文本,而不是仅仅局限于特定领域。随着社会的高速发展,各种未登录词、网络新词频频出现,系统应具有较强的学习能力。
健壮性。系统应该具有处理复杂文本的能力,如中、英文混杂,文本、图表、公式混杂的文本。
关键词提取技术简介
关键词能概括文本的主题,因而帮助读者快速辨别出所选内容是不是感兴趣的内容。目前较常用的无监督关键词提取算法如下。
TF-IDF算法
TextRank算法
主题模型算法(包括LSA、LSI、LDA等)
关键词提取算法
词频是统计一个词在一篇文档中出现频次的统计量。一个词在一篇文档中出现的频次越高,其对文档的表达能力越强。词频统计量的计算公式如下。

其中, 表示词 在文档 中出现的频次, 表示文档 的总词数。
TF-IDF算法

逆文档频率是统计一个词出现在文档集中文档频次的统计量。一个词在文档集中越少的出现在文档中,说明这个词对文档的区分能力越强,逆文档频率统计量的计算公式如下所示。

其中, 表示文档集中的总文档数, 表示文档集中文档 出现词的 文档个数,分母加一是为了避免文档集中没有出现词 ,导致分母为零的情况。
TF-IDF算法

词频TF注重词在文档中的出现频次,没有考虑到词在其他文档下的出现频次,缺乏对文档的区分能力。逆文档频率IDF则更注重词的区分能力。
两种算法各有不足之处,假设有如下文档:“在山里,孩子们能享受的快乐只有大山和水,多数时候孩子们都是快乐的,他们的想法都是简单且容易满足的,他们总是期望了解大山外面的世界。”。
文中“孩子们”“快乐”“都是”“他们”“大山”几个词出现次数都是2,文档总词数是60。由逆文档频率统计量公式可知,,但实际上在这段文本中,“孩子们”“快乐”“大山”这3个词语更为重要。
同样地,假设文档集共有2000篇文档,出现“孩子们”“快乐”“都是”“他们”“大山”这几个词的文档数分别为60、30、250、200、20,、、、、。
按照IDF算法计算,“大山”“孩子们”“快乐”比较重要,而“都是”“他们”这类文档中常见的词语,就被赋予较低的idf值。
TF-IDF算法
综合权衡词频、逆文档频率两个方面衡量词的重要程度,TF-IDF算法的计算公式如下所示。


根据TF-IDF算法计算公式,上列中每个词语的tf值和idf值相乘,得到5个词语的TF-、、、、。因此,选取TF-IDF值中相对较大的