文档介绍:中国科学技术大学
硕士学位论文
基于统计与语义分析的多文档自动摘要研究
姓名:宋宣辰
申请学位级别:硕士
专业:计算机应用技术
指导教师:刘贵全
20090501
摘要近年来,计算机技术的发展和互联网的普及把我们带入了信息的海洋之中,信息的增长速度已经超出了我们的想象。目前,人们主要通过搜索引擎在互联网中搜索自己需要的信息,但搜索返隧的结果包含了大量冗余信息,使得人们很难在短时间内从这些信息中提取出自己感兴趣的部分。多文档文摘正是为了解决这一闷题丽产生的一种新技术,它可以将多篇闻一主题的文章进行筛选和汇总,从中提取出简洁、全面的信息,将人们从繁琐、冗余的信息中解脱出来。本文在现有的多文档自动摘要技术基础之上,对语义概念抽取和聚类算法等关键技术展开研究,实现了一个基于统计和语义分析的多文档囱动摘要系统。本文的主要研究内容和特色如下:捎酶拍钔臣品椒ù娲车拇势低臣疲⒏拍钕蛄靠瘴拍P徒多文档摘要,减少了传统P椭斜暌氏蛄考洹靶苯所带来的影响。车姆椒ㄒ话阃ü市位虼使蚕值忍卣鹘芯渥酉嗨贫鹊募扑恪1文对句子相似度计算方法进行了改进,通过分析句子中词语之间的内在联系进柚鶺语义资源进行语意消歧和概念树的构造,建立了一种树形结构描述文档集合,并提出一种主题概念抽取方法,从概念树中抽取主题概念对旬子进行加权,显著地提高了多文档自动文摘的质量。谏钊胙芯苛硕辔牡抵魈饣旨际醯幕∩希曰诿芏染劾嗟算法进行了改进和优化,并将其应用到多文档摘要中。改进后的方法能够更加准确的划分文档集合主题,使得抽取的结果更加全面。基于统计和语义分析的多文档自动摘要系统是对传统多文档摘要系统的改进,实验结果表明它比原有的多文档摘要系统更加有效,能够更加准确全面地提取信息。多文档自动文摘无论是作为独立的系统还是作为搜索引擎的一部分都将拥有广泛的应用前景,随着互联网技术的进步将具有更大的发展空间。关键词:多文档自动摘要向量空间模型概念抽取主题划分句子聚类行计算,提高了计算的准确率。摘要
。。,.—。.畉.
琕篗甅—,,,
作者签名:魈毽作者签名:』堕毽趟呈:蔓:签字目期:丝壁睿篖签字暖期:≯竺叁量中国科学技术大学学位论文原创性声明中国科学技术大学学位论文授权使用声明口保密!D本入声甓所呈交的学位论文,是本人在导师指导下进行研究工作所取得的成果。除已特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或撰写过的研究成果。与我一溺工作的同志对本研究所做的贡献均已在论文中作了作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学拥有学位论文的部分使用权,邸:学校有权按有关规定向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入有关数据库进行检索,可以采用影鞠、缩印或扫描等复制手段保存、汇编学位论文。本人提交的电子文档的内容和纸质论文的内容相一致。保密的学位论文在解密后也遵守此规定。函公开导师签名:明确的说明。签字日期:.。.
第滦髀本文的研究背景及意义皇从世纪年代中期第一台电子计算机闻世以来,信息存储和传播麸传统的纸质载体时代过渡到多元化载体的时代。随着互联网的普及,人们的生活方式发生了巨大的变化。在网络带给人们大量信息的同时,入们的需求也随着网络信息的急剧增长不断地发生着变化,从而促进了许多新技术诞生和发展。自动文摘技术是信息时代发展到一定程度的必然趋势,它将人们从繁琐、冗余的信息中解脱出来,直接给用户提供简洁、信息全面的摘要,以提高用户获取信息的效率。在信息浏览中,自动文摘不仅可以作为一个单独的系统使用,而且也在其他自然语言处理技术和系统中承担重要角色。自动文摘任务甋亲匀语言处理的一个重要分支,它的目标为:从信息源中提取内容,采用压缩的形式和与用户蛴τ需求相关的方式,将最重要的内容呈现给用户。自动文摘技术是自然语言处理的一个难点,当前所取得的成果还不像其它自然语言处理技术那样成熟并得到广泛应用。这主要是因为,为一篇文章撰写文摘,首先必须真正靠理解牡哪谌荩庖蝗挝穸匀死此凳墙先菀淄瓿傻模ǘ约算机而言却显得异常困难。这就导致了自动文摘的质量,尤其是摘要的逻辑连贯性还锻难与人工文摘相比积《德喜,全世界范围内期刊数量的爆炸性增长,导致二次出版物体积的增加和重要性的提高。纯粹的手工文摘编制速度已经远远落后于文献更新和增长的速度,原始文献出版与文摘出版之间的时差越来越大。社会各行业都在进行信息数据库的建设,文摘是信息数据库的重要组成部分。手工进行的文摘速度过慢,将影响整个信息数据库建设的进程,丽且手王文摘缺乏规范性,不稠予统一处理;计算机编制的文摘格式统一,易于建库,也易于信息的检索和蒋处理。为了满足这些需求,人们开始了用计算机进行自动文摘的研究,以便能够快速、高效地获取主要信息。人们面临的较