1 / 130
文档名称:

基于文档主题结构的关键词抽取.pdf

格式:pdf   页数:130
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

基于文档主题结构的关键词抽取.pdf

上传人:qujim2013 2014/3/9 文件大小:0 KB

下载得到文件列表

基于文档主题结构的关键词抽取.pdf

文档介绍

文档介绍:基于文档主题结构的关键词抽取
方法研究
(申请清华大学工学博士学位论文)
培养单位: 计算机科学与技术系
学科: 计算机科学与技术
研究生: 刘知远
指导教师: 孙茂松教授
二○一一年三月
Research on Keyword Extraction Using
Document Topical Structure
Dissertation Submitted to
Tsinghua University
in partial fulfillment of the requirement
for the degree of
Doctor of Engineering
by
Liu Zhiyuan
( Computer Science and Technology )
Dissertation Supervisor : Professor Sun Maosong
March, 2011
关于学位论文使用授权的说明
本人完全了解清华大学有关保留、使用学位论文的规定,即:
清华大学拥有在著作权法规定范围内学位论文的使用权,其中包
括:(1)已获学位的研究生必须按学校规定提交学位论文,学校可以
采用影印、缩印或其他复制手段保存研究生上交的学位论文;(2)为
教学和科研目的,学校可以将公开的学位论文作为资料在图书馆、资
料室等场所供校内师生阅读,或在校园网上供校内师生浏览部分内
容;(3)根据《中华人民共和国学位条例暂行实施办法》,向国家图
书馆报送可以公开的学位论文。
本人保证遵守上述规定。
(((保保保密密密的的的论论论文文文在在在解解解密密密后后后应应应遵遵遵守守守此此此规规规定定定)))
作者签名: 导师签名:
日期: 日期:
摘要
摘要
关键词是快速获取文档主题的重要方式,在信息检索和自然语言处理等领域
均有重要应用。传统的方法仅依靠词汇的统计信息进行推荐,没有考虑文档主题
结构对关键词抽取的影响。本文主要研究考虑文档主题结构的关键词抽取方法。
本文针对文档主题结构在关键词抽取中的重要作用,从四个方面提出考虑文档主
题结构的关键词抽取方法:基于文档内部信息构建主题的关键词抽取,基于隐含
主题模型构建主题的关键词抽取,综合利用隐含主题模型和文档结构的关键词抽
取,以及基于文档与关键词主题一致性的关键词抽取。论文工作包括:
基基基于于于文文文档档档内内内部部部信信信息息息,,,利利利用用用文文文档档档的的的词词词聚聚聚类类类算算算法法法构构构建建建文文文档档档主主主题题题,,,进进进行行行关关关键键键词词词抽抽抽
取取取。。。该方法仅依靠文档内部信息,通过度量文档中词与词之间的相似度,利用聚
类的方法构建文档主题,并根据不同主题在文档中的重要性,进行关键词抽取。
实验证明,该方法能够在一定程度上发现文档主要话题,并抽取出与文档主题相
关的关键词,提高了关键词对文档主题的覆盖度。
基基基于于于文文文档档档外外外部部部信信信息息息,,,利利利用用用隐隐隐含含含主主主题题题模模模型型型构构构建建建文文文档档档主主主题题题,,,进进进行行行关关关键键键词词词抽抽抽取取取。。。
针对基于文档内部信息通过聚类算法进行关键词抽取受限于文档提供信息不足的
缺点,提出利用机器学习算法中广泛使用的隐含主题模型构建文档主题,进行关
键词抽取。并针对隐含主题模型训练速度较慢的瓶颈,提出了一种高效的并行隐
含主题模型。实验证明,该方法能够更好地构建文档主题,并有效抽取关键词。
综综综合合合利利利用用用隐隐隐含含含主主主题题题模模模型型型和和和文文文档档档结结结构构构信信信息息息,,,进进进行行行关关关键键键词词词抽抽抽取取取。。。针对隐含主题
模型无法考虑文档结构信息的缺点,提出综合利用隐含主题模型和文档结构信息
的方法――基于主题的随机游走模型――进行关键词抽取。该方法一方面能够通过
隐含主题模型构建文档主题,同时能够通过文档图的随机游走模型考虑文档结构
为关键词抽取提供信息,实验证明,该方法能够综合隐含主题模型和文档结构信
息进行关键词抽取的优势,有效抽取关键词。
基基基于于于文文文档档档与与与关关关键键键词词词主主主题题题一一一致致致性性性的的的前前前提提提,,,提提提出出出基基基于于于机机机器器器翻翻翻译译译模模模型型型的的的关关关键键键词词词抽抽抽
取取取方方方法法法。。。针对文档和关键词之间存在较大词汇差异的问题,基于文档和关键词主
题一致性的前提,提出利用机器翻译中的词对齐模型计算文档中的词到关键词的
翻译概率,然后进行关键词抽取。实验证明该方法能够有效的建立文档词