文档介绍:基于子主题的多文档摘要关键技术研究摘要多文档摘要是自然语言理解领域的一个重要课题。它的目的是从内容相似的文档集合中抽取重要信息并生成信息丰富、语言简洁的摘要,从而提供一个快速获取、浏览和使用信息的手段。本文主要研究基于子主题的多文档摘要技术,即将多个文档的内容按照信息的侧重点不同划分为多个子主题,再从各个子主题中按照一定策略抽取重要信息,去除冗余信息进而生成摘要。这种方法使文摘内容具有更好的平衡性,包含的信息简洁全面。针对子主题划分的任务,本文采用聚类方法将内容相似的信息聚集到一个子主题中。为此,本文深入研究了四种计算句子相似度的方法,并在这四种相似度计算方法基础上分别进行了层次聚类。本文提出了综合使用语义词典和统计信息的方法计算句子相似度的方法,可以更加准确的刻画句子相似度,为子主题划分和摘要生成奠定了基础。在子主题划分的基础上抽取句子步骤涉及到以下几个子问题:子主题特征词抽取,句子重要度的计算、句子抽取策略。由于每个子主题覆盖整个文档集合的一个侧丽的信息,因此需要从子主题中抽取出体现该子主题核心信息的特征词,称为畉.。这些特征词对于后面句子的抽取具有举足轻重的意义。本文试验了通过甶方法、假设检验方法等几种方法得到的结果,并给出了比较分析。在句子重要度计算步骤中,综合考虑了句子位置因素、实体因素、核心词因素、指示词因素等因素,综合多个因素给句子打分,按照重要度排序作为句子抽取的备选顺序。在抽取过程中,本文提出了使用有效词的权重均值数作为信息量描述方式,根据已经抽取的句子集合从备选句子集合中抽取新句子,使最终抽取出的句子集合包含的信息量最大,从而达到使文摘的冗余信息最小的目的。基于以上方法,我翻在隼啾鸬奈牡导仙戏直鸾辛耸匝椋并使用基于句子准确率/召回率方法和基于甮椒ǚ直鸾辛文摘的质量评估。实验结果表明,我们在多文档摘要的子主题划分艺京郎电大学硕士学位论文
知识水坝***@pologoogle为您整理
方法和句子抽取策略上的改进在一定程度上提高了最终摘要的质本文是对多文档自动摘要的初步探索,在子主题划分方法和句子抽取策略方面取得了一些成果。多文档自动摘要具有广阔应用空间和发展前景,还需要我们付出更多的工作和努力。关键词多文档摘要子主题聚类句子抽取且里北京邮电大学硕.’≯何沦文
知识水坝***@pologoogle为您整理
.,..珻—..
既甒甒,甋甌瑂北京邮电大学硕士学位论文..,琧.Ⅳ..
日期:笪兰二偷塑墨:赫垄墨:喝齦包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论独创性虼葱滦声明本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。申请学位论文与资料若有不实之处,本人承担一切相关责任。本人签名:同期:关于论文使用授权的说明学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。C艿难宦畚脑诮饷芎笞袷卮斯娑文注释:本学位论文不属于保密范围,适用本授权书。日期:导师签名:ⅰ
第一章绪论引言多文档摘要的研究意义随着互联网上信息的急剧膨胀,怎样快速有效的使用庞大丽丰富的网上信息成为一个重要而紧迫的问题。由于网上信息很大部分都是以文本形式存在,即愎笕挥镅悦枋龅模虼送ü挂匀挥镅岳斫饧际醵哉庑┬畔⒔刑崃分析已经成为近年来海量信息处理的一个热点研究方向,信息检索、信息抽取、自动文摘等叁然语言处理的高层课题都吸弓俗憾嘌芯空摺6辔牡底远R<的信息”逐渐转化成“获得最有用的信息”,这也就促使人们获取和使用信息的技术手段发生了相应的改变。人们普遍面临的一个问题就是,对予一个感兴趣的话题,我们可以通过搜索引擎检索到成千上万的网页信息,这些网页中包含很多重复的内容以及一些不同内容,因此迫切需要一些帮助人们快速浏览信息,多文档摘要可以作为单独的系统使用,按照用户定制的规则从用户感兴趣的低场А#褪嵌蕴囟ǖ鸟裎磐窘胁杉瓦5囊桓龉ぞ摺多文档摘要也可以应用在信息检索领域,它可以对信息检索的结果进行处理,将内容相似的网页进行归纳和摘要,将摘要结果返网给用户。假如目前的信息检索给懑的前个结果可以划妇为鲋魈猓枪谒阉鞴瓅擎的排序规题出现在第二页甚至更后面,那么使用信患的效率将会大大