文档介绍:: .
˖ڍመڙጲ 61375054)
作者简介: 通信作者:郑海涛 (1980-),男,副教授,主要研究方向:网络科学、语义网、信息检索、机器学习、医疗信息及人
工智能等研究, 。
龚淑琴 (1990-),女,硕士,主要研究方向:网络挖掘,
江勇 (1970-),男,副教授,主要研究方向:移动互联网等领域研究,
夏树涛 (1970-),男,教授,主要研究方向:从事网络编码等领域研究,
- 1 -ጲ ڍ˖
Key words: multi-document summarization; sentence clustering; representative selection;
redundancy detection
0 引言
随着英特网的快速发展,文本信息正在以指数增长,如何有效地从大量文本资源中获取有
用的信息正在变得越来越重要。多文本自动摘要是解决这个问题的一个有效地工具,它可以大
大地加速信息过滤的速度,帮助读者了解文档的大致内容,帮助读者快速和精确地找到他们所
需要的信息。至今已有很多 web 应用通过生成摘要来帮助人们从多个相关文档中快速获取主
要内容,例如谷歌新闻 NewsBlaster [1]。多文档自动摘要的任务就是一组描述相同主题的文档
创建一个摘要,也就是说,在多文档自动摘要系统中,一个摘要是为一个文档集合创建的。这
些文档包含来源于不同地方的文档,但是属于同一个集合中的文档都是相关的,它们的内容都
是描述同一个事件或者同一个主题等等。句子选择是一个广泛被采用的方法来为文档集合生成
摘要。在传统的自动文摘系统中,每个句子的权重都是用其与文档中其他句子相似度之和和句
子级别来衡量的[2–4],然后从中选取权重比较大的句子来组成摘要。然而,这种方法有一个主
要的问题就是缺少对文档主题的理解。在多文档自动摘要系统中,这种方法会经常遗漏掉重要
的主题,对文档内容的覆盖性也比较低,而且它也很容易导致冗余性。除了这个问题之外,传
统的多文档自动摘要系统也经常忽略掉算法的运行时间,导致它不能有效地使用于在线应用。
一方面,多文档自动摘要最大的挑战来自于如何鉴别冗余信息和保证对多文档主题的覆盖
性,另一方面,冗余信息从另一个角度上说也很好的说明了其重要性。为了得到有效地摘要,
多文档自动摘要系统需要能够侦测相似、冗余的信息并且需要保证良好的覆盖性。
如何侦测冗余信息迫在眉睫。解决这个问题一个有效地方法就是基于聚类的方法[5–9],它
能把相似的句子聚到一簇,然后从簇中选取代表句直到满足摘要的长度为止。但是现有的多文
档自动摘要系统仍然存在一个问题,他们固然摘要的质量比较好,但是其运行时间却比较长。
然而,英特网有越来越多的文本信息,为了能够快速得到摘要,算法的运行时间也是需要解决
的。总而言之,多文档摘要系统不仅要有效侦测冗余信息,而且也需要缩短多文档自动摘要系
统的运行时间,从而能够快速地得到有效地摘要。
1 相关工作
至今为止,出现了越来越多关于多文档自动摘要系统的研究,伴随着也出现了各种各样的
侦测冗余的方法。
Goldstein 等人 [10] 提出了 maximal marginal relevance (MMR) 概念来侦测冗余。MMR
采用的方法是最小化摘要的冗余和最大化摘要的相关性和多样性,从而得到冗余度低的摘要。
Lin 等人 [11] 提出了一个类似的方法来侦测冗余并且用于 NeATS,其中句子是根据其在文档
中的位置等信息来选择的。Radev 等人 [3] 也提出了类似的方法并且用于 MEAD。在 MEAD
系统中,每个句子都会与文档集合的中心向量相比较。对于每个句子,它的权重都是与中心点
- 2 -ጲ