文档介绍:中文摘要摘要:主题检测和追踪技术是自然语言处理领域一个新的研究方向,它主要研究如何检测新发生的事件并追踪事件后继发展动态,帮助人们把分散的信息有效地汇集并组织起来,从而从整体上了解一个事件的全部细节以及该事件与其他事件之间的相关性。主题追踪是其中的一个子任务,它的目的是监控新闻报道流,识别出与预先给定的几个新闻报道的主题相关的后续报道。目前国内这方面的研究尚处于起步阶段。论文对中文新闻报道中的主题追踪技术进行了研究,提出和改进了多种不同的算法,并提出了将一元语法模型应用到主题追踪系统中来。论文的主要工作情况如下:分析总结了常用的特征提取方法的优缺点后提出了基于类内频率的特征关键词:分类号:提取方法,并将这种方法应用到基于文本分类的主题追踪系统中,取得了较好的效果。权重计算方法虽然在文本分类中取得了较好的分类效果,但是这种权重计算方法缺乏理论依据,并且没有考虑特征项在文本集合中分布的比例情况。因此,在本文中提出了将特征提取中特征评估函数的值加入到特征权重的计算中,克服了的缺点。为了更好的提高丰题追踪系统的性能,论文提出了将一元语法模型应用到主题追踪系统中,分析了影响主题追踪系统的几个重要的因素,提出了用词对代替词作为特征项来表示文本,虽然这种方法不能很大幅度的提高主题追踪系统的性能,但在不提高系统丌销的情况下,降低了特征的维数,提高了系统的性能,为以后的研究奠定了基础。基于上述理论和改进的算法,搭建了主题追踪系统的平台,实现了基于文本分类的主题追踪系统和基于一元语法模型的主题追踪系统。主题追踪;文本分类;罱诰樱恢С窒蛄炕灰辉S锓P◆
知识水坝***@pologoogle为您整理
甌,琤::,琣甌...,琤琣’◆琾.;;狽;篢.,◆事·◆
知识水坝***@pologoogle为您整理
导师躲弓刁¨√学位论文作者签名:和岳蕉签字日期:贒瓴卧挛駉学位论文版权使用授权书本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索,提供阅览服务,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国家有关部门或机构送交论文的复印件和磁盘。C艿难宦畚脑诮饷芎笫视帽臼谌ㄋ得
学位论文作者签名:扣毒燕沙月和日独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京交通大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。签字日期:
致谢光阴似箭,两年的研究生生活就要结束了,心中除了有些伤感,更多的是留恋。在这两年的时问里,有一大部分的时间是在实验室度过的,自己的喜怒哀乐都与九教北实验室息息相关。从大学时对实验室生活的憧憬和想象,到慢慢融入实验室,在这里工作、学习和生活,这是我人生的一个飞跃,在这里度过的研究生生活将让我吏加自信的走向社会。本论文的研究工作是在苗振江教授的悉心指导下完成的,苗振江教授学识渊博、治学严谨、待人真诚,在我的学习和生活中给予了极大地关怀和帮助,为我提供了锻炼和实践的机会。苗教授对我的悉心指导和真诚关怀,以及苗教授给予我的知识和人格的熏陶将使我终身受益。在此衷心感谢两年来苗教授对我的关心和指导。在我的实验室工作和论文撰写期间,实验室的钟岑岑、章洁、康丹丹等同学和唐振、王智飞师兄都对我论文中的研究工作给予了热情的帮助,在此向他们表达我的感激之情。另外要感谢刘文佳、高海娟、张谨等同学在我学习和生活上的帮助,她们无私的友情是我快乐的源泉,没有她们,研究生的生活不会如此丰富多彩,是他们陪我度过了无数个难:玺的日子。最后谢谢我的亲人和男友,他们的理解和支持使我能够在学校专心完成我的学
课题背景难芯坷踪某个主题的来龙去脉,进行历史性质的研列。我们生活在一个信息爆炸的时代,互联网的迅速发展使可利用的信息资源呈指数增长,我们已经摆脱了信息贫乏的桎梏,但是如何从海量的信息中快速准确地获取感兴趣的信息成为人们关注的焦点问题。目前的各种信息检索、信息挖掘和信息抽取技术都是围绕这个目的展开的。但是与一个主题相关的信息往往孤立地分散在很多不同的地方并且出现在不同的时问,仅靠这些孤立的信息无法全面地把握整个事件。而传统的关键词检索技术返回的信息冗余度过高,很多不相关的信息仅仅因为含有指定的关键词就被作为结果返回了,因此人们迫切的需要一种技术能够自动地把主题相关的信息聚集起来并把结果反馈给用户。主题检测与,以下简称技术就是在这种情况下应运而生的。通过主题发现与追踪,人们可以将这些分散的信息有效地汇集并组织起来,从而帮助用户发现事件的各种因素之『自南嗷ス叵担诱迳狭