1 / 65
文档名称:

个性化RSS新闻检索系统设计与实现.pdf

格式:pdf   页数:65
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

个性化RSS新闻检索系统设计与实现.pdf

上传人:minzo 2014/2/25 文件大小:0 KB

下载得到文件列表

个性化RSS新闻检索系统设计与实现.pdf

文档介绍

文档介绍:东北大学
硕士学位论文
个性化RSS新闻检索系统设计与实现
姓名:李曦强
申请学位级别:硕士
专业:软件工程
指导教师:洪海
20081220
个性化挛偶焖飨低成杓朴胧迪摘要出现,解决了用户每天都需要登陆很多个门户网站的困扰。亩疗骰嵋砸欢ǖ钠德自动对这些网站的内容进行更新,这就很好的解决了信息不能及时更新的问题。但是,由于各个门户网站发布的内容的重复性,亩疗骰故谴嬖谥馗葱畔⑻ǘ啵畔⒐亓度不好的问题,这就大大浪费了用户的时间。本文就是针对酆现馗葱畔⒍嗲夜亓6炔缓玫娜钡悖訰阅读器进行功能改进,实现个性化新闻检索。分别是相同或相似内容新闻过滤功能,即当各网站出现相同主题、内容相似的文章时只显示优先级最高的网站的新闻;选择订阅功能,即按照用户要求,定制针对用户喜好的新闻内容;系列新闻链接功能,即可链接到与感兴趣的新闻相关的之前发布的新闻。本文首先通过模块对募薪馕觯用中文分词与词性标注系统丌放模块对解析出的新闻标题进行词性标注,提取出一系列实意词作为该新闻的关键词。然后按日期对新闻进行区分,根据本文所提出的判断准则,对搜集到的全部新闻关键词进行比较分类存储。最后就是各个改进功能的实现,显示优先级最高的新闻实现相同内容新闻过滤功能;对订阅关键词和/或禁止关键词与新闻关键词比较实现新闻订阅功能;通过跨期类的关键词比较,根据判定准则,实现系列新闻链接功能。经过系统运行以及详细的统计和对比分析,引入准确率和召回率,以及,值的评测指标,得到了较为理想的结果。关键词新闻检索;淮市员曜东北大学硕士学位论文摘要騌騌阅读器的
..甪畉瑆瑆瓾,甊篺,,⑽鰉,.,。.,瓼;;,.琑,.籹,
第滦髀课题的背景及研究目的开一个软件——亩疗鳎涂梢曰袢∷行巳さ男畔ⅲ艺庑┬畔⑹羌词随着互联网技术的应用和普及,用户在上网浏览信息时,经常会遇到两大问题:第一是如何在众多的信息中找到自己真正需要的部分;第二是能否及时获得新知识和新内容。像和百度这样的搜索引擎解决了第一个问题,因而成为第一代互联网工具的代表。而第二个问题的解决方法也已经找到,这就是基騌技术的网络内容的“推际浚桓隹梢允钩汕贤蛏贤没Ц咝В奖憧旖莸跟踪网络信息变化的第二代互联网工具。际趸姑挥斜皇褂们埃丛诖砏曲浏览方式中,用户需要打开多个浏览器窗口,进入不同的门户网站,再从这些站点寻找感兴趣的标题,点击相应的连接后才能看到目标信息。即在一些大的门户网站,用户往往需要三次甚至更多的点击才能看到最终的内容页面,这些内容可能是过期的,如图所示【俊当际醣还惴菏褂煤螅肦订阅畔ⅲ煽醋魇且恢帜谌菰亩的“直销’’模式,用户可以在酆险镜慊騌阅读器中有针对性地订阅自己感兴趣的信息源。利用际酰勘晷畔⒃唇玆R即时传送到聚合站点或亩疗髦小S没е灰7梦室桓鲎约憾ㄖ频木酆险镜闵踔链的,如图所示【¨两图对比反映出际醯亩┰幕票却砏浏览方式优势所在。从表面上看┰男畔⒎绞降墓δ苋缤詹丶校绻没Ф┰牧思甘觥几百个网站的信息,且这些网站中每日只有少数的内容进行了更新,就完全没有必要把所有这些网站都逐个浏览,而匿婪绞秸前凑沼没У囊G笾幌允所订阅的各个网站的更新内容,也就是说┰牡谋局试谟凇巴礁【俊东北大学硕士学位论文于騌
然而,由于如今网络上的重复信息繁多,现在亩疗髦荒馨阉械谋欢东北大学硕士学位论文第滦髀图传统婪绞图┰膚方式甋.’.
,这又使得用户困扰于接收重复信息和浪费时间。而且,现在的亩疗髟谘≡穸┰牡哪谌菔保匦胧钦霭婵榈乃行畔ⅲ操控性还不高。本文就是要通过对亩疗鞯牟糠止δ芙懈慕蛊湓诙孕闻进行检索时,实现更加完善、更加人性化的功能,解决上述问题。且桓隹捎枚嘀掷┱估幢硎镜乃跣矗梢允恰癛嬲虻サ恼ⅰ癛丰富站点摘要保箍梢允恰癛镜阏R#琑是一种语义网技术【。且恢只赬,扩展标记语言曜迹诨チM媳还惴翰捎玫哪容包装和投递协议。际醯甑耐肮5笔蓖肮径ㄒ辶艘惶酌述新闻频道的语言,糜诮灸谌萃兜莸絅チM器中【俊5捎诠灸诓可涛窬霾摺⒌笔被チM谌葚逊Φ戎疃嘣颍白钪只发布了一个版本的规范。微软当时也推出了类似的数据规格,与浅接近,试图利用新闻频道的架构把“推”技术变成一个应用主流,捆绑在浏览器中与购狻2还弈蔚氖牵捎诘笔被チM梦仕俣嚷⒛容缺乏、用户不熟悉等原因,这个“推”技术自始至终没有得到市场的广泛支持。但是随着时间的推移,际跛孀臱技术的发展和博客群体的快速增长,逐渐被人们广泛地接受,其应用范围也已经跳出单纯的博客圈,成为新闻传媒、电子商务、企业知识管理等众多领域的不可缺少的新技术。年,术标准的发展工作被戴夫·温那的公司所接手,继续开发新的版本,以适应新的网络应用需要。通过戴夫·温那的努力,,然后达到了妫⑺婧被众多的专业新闻站点所接受和支持。在广泛的应用过程中,众多的专业人士认识到需要组织起来,把⒄