文档介绍:苏州大学学位论文使用授权声明本人完全了解苏州大学关于收集、保存和使用学位论文的规定, 即:学位论文著作权归属苏州大学。本学位论文电子文档的内容和纸质论文的内容相一致。苏州大学有权向国家图书馆、中国社科院文献信息情报中心、中国科学技术信息研究所(含万方数据电子出版社)、中国学术期刊(光盘版)电子杂志社送交本学位论文的复印件和电子文档,允许论文被查阅和借阅, 可以采用影印、缩印或其他复制手段保存和汇编学位论文,可以将学位论文的全部或部分内容编入有关数据库进行检索。涉密论文口本学位论文属在——年一月解密后适用本规定。非涉密论文口论文作者签导师签面向Blog的自动摘要与搜索排序算法研究中文摘要面向Blog的自动摘要与搜索排序算法研究中文摘要随着信息技术的不断发展,Blog应用正在不断普及和深化。庞大的Blog用户群所形成的海量信息源使得Blog成为一个极其丰富而有价值的信息资源库。面对如此巨大的信息资源,优秀的Blog搜索引擎显得十分重要,这一需求使得Blog搜索引擎受到越来越多研究人员的关注。在与之相关的研究中,合理的自动摘要能够让用户迅速判断出信息的有效性,良好的搜索排序算法能够优先返回给用户质量更高的结果, 这两部分对Blog搜索引擎的好坏无疑有着决定性的作用。本文主要针对面向Blog的自动摘要和搜索排序算法进行了较深入的研究,主要研究工作概括如下: 1)描述了Blog相关概念,介绍了和本文研究相关的国内外研究现状,分别对面向Blog的自动摘要和搜索排序算法的相关方法进行了详细分析。 2)根据本文应用需求,对Blog中的信息进行了两方面预处理,包括:将评论识别成讨论型评论、关注型评论、垃圾评论三类,并根据类型挖掘对应的价值;利用贝叶斯文本分类方法,融合博文、标签和评论三种特征对博文进行分类。 3)提出了一种基于特征信息的Blog自动摘要方法。该方法在充分利用Blog特征信息的基础上,基于潜在语义相关性来融合评论中的关注点,生成对读者更为友好的摘要,同时通过摘要复选的方法平衡了主题覆盖与信息冗余。 4)利用博主之间的各种关注关系评价博主的影响力,继而计算博文的内容价值, 并考虑评论因素,给出博文的静态得分。然后考虑博文新鲜度,查询相似性等多方面因素来对搜索结果进行合理排序。 5)利用上述研究成果,设计并实现了一个能够适应用户对评论偏好的Blog搜索引擎原型系统,该原型系统同时提供了分类浏览功能。关键词:Blog搜索,摘要抽取,排序算法,自动分类,评论识别作者:陈明指导老师:崔志明(教授) Research on Blog-Oriented Automatic Summary and Search SortingAlgorithm Abstract With constant development of IT,blog application isingreat popularity and information inmagnanimity shaped bylarge number ofblog users makes theblog be anextremely richand valuableinformation resource thefaceofsuch greatinformation resources,an excellent blog search engine appears tobevery necessary, which drivesmore and more researchers topay close attention toblog related studies,a reasonable automatic summary enables users todetermine validity ofinformation quickly and agood searchsorting algorithm willgive priority toreturn results ofhigher quality two parts have adecisive roleofthequality ofsearch services beyond question. This article ismainly for a detailed study on automatic summary and sorting algorithm oriented main research work Callbesummarized asfollows: 1)It describes relat