文档介绍:《现代图书情报技术》 2007年第 4期
应用实践
总第 149期
檲檲檲檲檲檲檲殘
应用实践
基于 RSS的 Web新闻主题聚合系统的设计与实现
钱爱兵
(南京大学信息管理系南京 210093)
【摘要】基于 RSS的 Web新闻主题聚合是信息处理领域内的一个新兴且有实用价值的方向。分析 Web
新闻主题聚合的基本问题,提出难点以及相关的解决方案,并在此基础上设计 Web新闻主题聚合系统。
【关键词】主题聚合 RSS 新闻聚合【分类号】 TP391 G202
DesgnandI plmenttonofFocusdWebNews
AggregatrBasdonRSS
QinAiig
(DearmetofIfratonManageet NanjngUniest,Nanjng210093,Chia)
【Absract FocusdWebnewsaggrgatrianewandprctcaldiectonitefelofifratonprcesig.
Thipaperaruesteprncils difculisandmeasrsoftefcusdWebnewsaggrgatng andtenanalsste
desgnoftefcusdWebnewsaggrgatr
【Keywords Focusdaggrgatr RSS Newsaggrgaton
1 引言
人们每天都要花费相当多的时间在大量的 Web站点
上阅读新闻,了解世界正在发生什么事情。不仅如此,为
了及时了解最新新闻,还可能每隔一段时间(比如一小时
或两个小时)跟踪浏览这些 Web站点。这种跟踪浏览可
能会占用我们大量的时间。当我们无暇分身的时候,有
没有一种比较好的解决方案来帮助我们呢?是否可以创
建这样一个系统,它能在新内容出现在我们感兴趣的
Web站点上时,为我们整合相关的信息内容并通知我们?
随着 RSS技术的出现,这一设想变成了现实。
2 基于 RSS的 Web新闻主题聚合系统模型设计
从本质上讲,RSS不是内容,而是一种渠道。RSS快
速而准确地沟通内容提供商和用户之间的联系,缩短了
信息延迟。但是,目前的 RSS阅读器只是将各个 RSS
Feed进行简单聚合,目标是尽可能多地聚合新闻页面,而
收稿日期:2007-03-09
收修改稿日期:2007-03-27
·56·
较少考虑聚合页面的准确性,更没有对 Web新闻进行准
确而系统的主题分类。用户只是根据自己的个人喜好手
动添加,结果导致大量不相关新闻的出现,分散了用户的
注意力,浪费了用户的时间。因此,本文提出基于 RSS对
Web新闻按主题进行自动聚合分类,它可以对整个 Web
新闻按《中文新闻信息分类标准及代码》所设定的主题进
行分块聚合,提高整个 Web新闻的聚合覆盖率和准确率。
系统模型
Web新闻主题聚合,主要是指有选择性地搜寻那些
与预先定义好的主题相关的新闻页面进行聚合的行为。
笔者设计了 Web新闻主题聚合系统,其系统模型如图 l
所示。为实现 Web新闻主题自动聚