文档介绍:中文文档自动文摘研究基于子主题划分和句子特征的重庆大学硕士学位论文重庆大学计算机学院学科门类:工跹学生姓名:张佳培指导教师:李学明教授专业:计算机软件与理论学二欢晁脑Ⅲ。⋯⋯汹舶缙鰅—⑧篊’.,,摘要文摘作为文档内容的概述,它的简洁性、概括性、可读性和客观性能够满足人们关键词:自动文摘,子主题划分,句子特征,随着网络上电子信息的剧增,如何准确高效的获取需要的信息变得嬷匾!高效挖掘有用信息的需求。因此,自动文摘逐渐成为近年来自然语言处理领域的一个研究热点。本文首先介绍文摘的概念、自动文摘的国内外研究现状及研究方法。然后针对基于惴ǖ奈恼3槿〈嬖诘挠湃钡憬辛颂致鄯治觯岢隽艘恢中碌基于子主题划分和句子特征的中文文档自动文摘方法:①将中文文档表示为以句子为顶点,句子之南嗨贫任1呷ㄖ档奈尴蚣尤图结构。然后得到其最大生成树,并在最大生成树上采用改进的猰算法完成聚类,得到的每个子类代表一个子主题。对文档进行子主题划分可以解决摘要的低主题覆盖率,得到更全面的文摘;②在每个子主题内,句子权重由惴ǖ玫降木渥酉灾扔刖渥犹卣的得分共同衡量,例如句子的长度、位置、标题词汇、指示性短语、句子结构等,从而得到更加准确和全面的句子权重;③在抽取文摘前,首先对子主题按照重要度由高到低进行排序,然后按照压缩率依次从每个子主题中抽取当前权重最高的句子放入文摘句集合中。每当抽取一个文摘句后,就对该子主题中其他句子进行权重重置计算,以避免下次重复抽取相似度较高的句子。这样不仅可以使文摘较全面的表达文档的重要主题,而且可以减少文摘的冗余。最后使用哈尔滨工业大学社会计算与信息检索研究中心提供的单文档自动文摘语料库,对三种不同的自动文摘方法进行了对比。第一种是本文提出的方法,第二种是基于惴ǖ奈恼3槿》椒ǎ谌质腔诰渥犹卣骱蚅算法的方法。实验表明本文提出的方法在准确率、召回率、猰和指标上均优于其他两种方法,能够得到质量更高的文摘。猰算法,句子权重重庆人学硕十学位论文中文摘要③①②重庆人学硕士学位论文英文摘要瓵甌,:琲甌,甌瑃,,,琧瑂..,篈琒琒,猰目录英文摘要⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.中文摘要⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..髀邸喙乩砺奂肮丶际酢贚算法的句子抽取⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯课题研究背景⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..自动文摘的研究现状⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..自动文摘的研究方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..基于向量空间模型的相似度计算⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..聚类算法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯...⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..文摘的概念⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯....∽匀挥镅岳斫獾奈恼7椒ā.⌒畔⒊槿〉⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.≡⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯考文献⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯致参附一种基于子主题划分和句子特征的自动文摘方法⋯⋯⋯⋯⋯⋯⋯⋯实验及结果分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯总结与展望⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯谢⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯录⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯基于图的排序算法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.算法分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯实验介绍⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯实验结果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯概述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..6鹊难≡⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯基