文档介绍:一』遗让皇燕理一~学生姓名:⋯堡垒丛——一繁黪塑笠垫生盟垫查——一—堕哇睦受堂旦坠型里型盟一一科:堂蔓捌堂墨选盘一——硕士研究生学位论文北京工商虫学锼一型整蕉骸A⒍橛摹回系┬投檠猰韭虽瓿龀觥怀龀蹺一论文题目:一王旦亘些量旦堕匡适墅塑堕指导教师:墓鲎业:年专俺期:学日
摘要关键词:话题追踪;监督;自适应;信息抽取随着互联网的出现和普及,在互联网上传播的资讯浩如烟海。面对海量的互联网媒体资讯,人们需要一种手段能够快速、准确地获取自己感兴趣的有关某一话题的相关信息。话题检测与追踪技术俏A寺阏庵中枰#且恢盅芯咳绾渭测新发生的话题事件并追踪话题事件后续发展动态的信息智能获取技术。本文根据北京市教委科技发展计划资助项目“主题新闻服务系统”课题展开研究,围绕发展方向,提出并实现了一个有监督自适应话题追踪系统的解决方案。畔⒊槿〖际酰何A顺浞掷没チM淖试矗S没峁┠掣龌疤獾南喙匦息,本系统采用了基于模板匹配的信息抽取技术,对互联网上与某个话题相关的信息配置文件的方式,来达到不修改程序就可完成对不同数据源追踪的目的。技术都面临难以处理话题漂移现象、训练样本较少等困难,本文在亩猿公式算法基础上,通过人工调整关键字和增量学习的方式,基于话题追踪任务中的有疤庾纷傩畔⒎瘢和ü浞挚悸怯没У男枨螅疚纳杓撇⑹迪至艘桓龌制等服务功能。另外,本文还对各个服务模块功能的实现进行了描述。本文的特色和创新之处在于:基于有监督自适应机制提出了一个话题追踪新算法,设计并实现了一个基于幕疤庾纷傧低场Mü笛槎杂屑喽阶允视疤庾踪系统与无监督自适应话题追踪系统进行性能比较,实验数据表明新算法能够有效的本文提出的话题追踪系统的解决方案主要包括以下几个方面:’进行抽取,这样可以有效地提高信息采集的准确率。纷偈菰磁渲霉ぞ撸罕蛔纷俚幕疤獾挠锪贤嬖谟诓煌氖菰粗校了提高话题追踪系统的灵活性,针对不同的数据库源和文本源,本系统采用修改屑喽阶允视疤庾纷偎惴ǎ合钟械拇蚍炙惴ū冉隙啵琁采用的对称公式算法是目前国际上比较领先的算法,在疍啦庵忻星懊R延械幕疤庾纷监督自适应机制提出了一种新算法,改进了话题追踪的效果。幕疤庾纷傧低常孟低撤直鹛峁┝嘶疤夤芾怼⒒疤夥治觥⒒疤饧焖鳌⒏鲂曰降低话题追踪的误报率和漏报率,提高话题追踪的性能。北京工商大学硕士学位论文
,:.瓵瑆甀篧琺,基于挠屑喽阶允视疤庾纷傧低车纳杓朴胧迪瑃”...,.甌,琻——
.谢北京工商大学硕士学位论文,,,:;;;琣瑃...——‘”
学位论文作者签名::鞘导师躲兰车隰硼碑⑾缭露嗳取得的研究成果宋闹幸丫⒚饕玫哪谌萃猓畚闹胁话渌鋈嘶集体已经发表或撰写过的研究成果。对本文的研究做出重要贡献的个人和集体,均己在文中以明确方式标明。本声明的法律后果完全由本人承担。在校攻读学位期间论文工作的知识产权单位属北京工商大学。学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许学位论文被查阅和借北京工商大学学位论文原创性声明本人郑重声明:所呈交的学位论文是本人在导师指导下进行的研究工作所北京工商大学学位论文授权使用声明本人完全了解北京工商大学有关保留和使用学位论文的规定,即:研究生阅;学校可以公布学位论文的全部或部分内容,可以采用影印、缩印或其它复制手段保存、汇编学位论文。C艿难宦畚脑诮饷芎笞袷卮斯娑学位论文电子版同意提交后,可于口当年口一年年后在学校图书馆网站上发布,供校内师生浏览。日,●’
,尤其是互联网这一新媒体的出现,人们已经摆脱了信息贫乏的桎梏,进入一个信息极度丰富的社会。在目前信息爆炸的情况下,信息的来源已不再是问题,而如何快捷准确地获取感兴趣的信息才是人们关注的主要问题。目前各种信息检索、过滤、提取技术的研究都是围绕这个目的展开的。由于网络信息数量太大,与一个话题相关的信息往往孤立地分散在很多不同的地方并且出现在不同的时间,仅仅通过这些孤立的信息,人们对某些报道难以做到全面的把握。一般的信息检索工具都是基于关键字的,返回的信息冗余度过高,很多不相关的信息仅仅是因为含有指定的关键字就被作为结果返回了,因此人们迫切地希望拥有一种工具,能够自动地把相关话题的信息汇总起来供人查阅。话题检测与追踪技术褪窃谡庵智榭鱿掠υ硕摹Mü疤夥⑾钟胱踪,人们可以将这些分散的信息有效地汇集并组织起来,从而帮助用户发现各种报道之间的相互关系,从整体上了解ǖ赖娜ú肯附谝约案帽ǖ烙肫渌ǖ乐涞墓系。话题追踪任务是际醯囊桓鲎尤挝瘢梢杂美醋纷倌掣龌疤獾睦戳ヂ觯进行历史性质的研究。这在新闻媒体、信息安全、金融证券、行业调研等领域都有着广阔的应用前景。特别是对于新闻工作者来说,他们常常要关注一些热点话题的相关报道,但是媒体报道又非常多,很难通过人力准确且完整地找到某个