1 / 72
文档名称:

关键词抽取方法研究.pptx

格式:pptx   大小:6,330KB   页数:72页
下载后只包含 1 个 PPTX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

关键词抽取方法研究.pptx

上传人:85872037 2017/2/26 文件大小:6.18 MB

下载得到文件列表

关键词抽取方法研究.pptx

文档介绍

文档介绍:关键词抽取方法研究刘知远(清华大学) 2017 年2月 26日报告摘要?关键词抽取简介?关键词抽取方法?关键词抽取的应用?展望问题描述关键词自动抽取 Automatic Keyphrase Extraction ?定义:自动从文档中抽取关键词作为文档摘要?特点: ?多个词或短语?一般来自文档内容关键词抽取的典型应用场景新闻、学术论文社会化标注关键词标注方式关键词标注关键词抽取关键词分配社会化标注关键词标注方法关键词抽取有监督二分类多分类无监督词频图方法有监督方法?转化为二分类问题?判断某个候选关键词是否为关键词? Frank 1999 采用朴素贝叶斯分类器? Turney 2000 采用 决策树分类器?转化为多分类多标签问题?传统文本分类方法?受限词表作为候选关键词集合(分类标签) 人工标注训练数据费时费力不适用于网络时代无监督方法?词频?基于 TFIDF 及其变形对候选关键词进行排序?图方法? Rada 2004: PageRank ? TextRank ? Huang 2006 : 复杂网络统计性质? Litvak and Last 2007: HITS 词频方法? Term-frequency inverse document-frequency (TFIDF) ? TF: the importance of the term within the document ? IDF: the informativeness of the term in the document set TextRank 构建词网 PageRank 选取排序最高的词为关键词? R(w): w 的 PageRank 值? O(w): w 的出度? e(, ): ? V: 节点集合?平滑因子