1 / 54
文档名称:

个性化智能新闻信息检索系统的设计与实现.pdf

格式:pdf   页数:54
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

个性化智能新闻信息检索系统的设计与实现.pdf

上传人:Horange 2014/3/4 文件大小:0 KB

下载得到文件列表

个性化智能新闻信息检索系统的设计与实现.pdf

文档介绍

文档介绍:兰州大学
硕士学位论文
个性化智能新闻信息检索系统的设计与实现
姓名:杨涛
申请学位级别:硕士
专业:计算机软件与理论
指导教师:林和
20080601
摘要搜索引擎——信息爆炸式的增加,导致处理和使用这些庞大的信息变得越来越困难。人们在面对“信息过载”和“资源迷向”的问题时,往往显得不知所措。现行的网络新闻信息检索系统面临很多问题,主要是由于网络上信息的不断更新,就要求网络新闻信息检索对庞大的动念的信息要做出快速和准确的处理。同时通用搜索引擎很难满足不同背景,不同目的用户查询要求。为了解决这些问题,个性化智能搜索引擎应运而生。为了对有不同兴趣的用户准确地提供网络新闻信息,我们设计了个性化智能低晨梢愿萦没У牟煌巳し祷夭煌牟檠结果。同时,我们提出了一些改进和创新算法。如:优化的网络爬虫算法,模拟实验显示更新速度可以比传统的网络爬虫快丁;诠丶昵┑男畔⒊槿∷法,不光可以在最少的人工干预下,提取到有用信息,还同时根据重要性对文档分类,使网络爬虫可以重点回访和更新那些重要新闻信息。通过查询扩展方法改进了单一的向量空認模型,最后,我们提出了一个冗余信息推荐算法,,并且具有良好的可适应性。关键词:个性化:向量空间模型;冗余信息推荐;用户兴趣;
痑‘‘瓵籸:;瑃琣.‘‘.猙甀,.,,,—籄;甋痠:;痗
论文作者签名:勉透导师签名:垫型日论文作者签名:毖逸期:丞堕盘一翊目期:迦丝敉关于学位论文使用授权的声明原创性声明本人郑重声明:本人所呈交的学位论文,是在导师的指导下独立进行研究所取得的成果。学位论文中凡引用它人已经发表或未发表的成果、数据、观点等,均已明确注明出处。除文中已经注明引用的内容外,不包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研究成果做出重要贡献的个人和集体,均己在文中以明确方式标明。本声明的法律责任由本人承担。本人在导师指导下所完成的论文及相关的职务作品,知识产权归属兰州大学。本人完全了解兰州大学有关保存、使用学位论文的规定,同意学校保存或向国家有关部门或机构送交论文的纸质版和电子版,允许论文被查阅和借阅;本人授权兰州大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用任何复制手段保存和汇编本学位论文。本人离校后发表、使用学位论文或与该论文直接相关的学术论文或成果时,第一署名单位仍然为兰州大学。保密论文在解密后应遵守此规定。
髀论文研究的背景及意义伴随着计算机技术和网络技术的发展与普及,网上信息出现了爆炸式增长,人们可以自由获取全球范围内的信息而不受地域的限制。人们借助搜索引擎进行信息查找。在信息搜索领域,搜索引擎的概念已不陌生,但是以“为最广泛的人群提供信息查询服务”作为基本宗旨的“通用搜索引擎”,已经不能满足人们的信息需求。通用搜索引擎虽然功能强大,但存在一些缺陷,如索引库更新不及时、响应速度慢等,而且没有对检索结果根据用户的个人需求做过滤处理。通用搜索引擎缺乏智能,所提供的检索结果中许多是与用户检索意图无关的信息。由于且桓鲐⒎拧⒎植嫉男畔⒖占洌献试匆灾甘俣仍龀ぃ没Ы行息检索经常会出现“信息过载”和“资源迷向”。现有的搜索引擎己越来越难以满足人们高质量地获取网络信息的需求。因此,帮助没Ц莞鋈说男巳ぃ自动查找信息,屏蔽不相关信息,即提供网络环境下的个性化信息服务,已成为当前网络信息检索的重要课题。因为个性化服务是指针对不同用户提供不同的服务策略和服务内容的服务模式。与不区分用户的普通服务模式相比,个性化服务显然具有更高的服务质量。因此,研究丌发一个由用户自主定制的个性化智能搜索引擎具有重要的意义。我们『印靶畔⑹贝弊呓靶畔⒕檬贝薄“信息时代”强调信息本身的价值,认为只要解决信息资源的短缺问题就会带来价值的提升;而“信息经济时代”认为信息并不稀缺,相反,信息技术特别是互联网的出现『谑剐畔⒎豪模郧视为宝贝的信息正在走向“垃圾化”,只有解决了信息的甄别、加工、提纯和挖掘,只有从巨量的、形如垃圾的信息中发现真『闹J叮拍艽醇壑档奶嵘上的“信息迷失”和“资源过载”问题已经同趋严重。信息迷失即浏览者在复杂的网状信息空间中迷失方向,不知道它们现在所处的信息空间中的位置,无法返回某个节点,忘记了它们最初的目标。信息过载则是由于峁┑男息的复杂性、广泛性和没有考虑到浏览者的知识水平、认知能力,造成浏览者无法正常理解和使用信息。第滦髀
式转变成了“信息找人”的信息提供模式。只要用户把需要的信息告诉系统,系统法砸常理解和使用信息。传统的搜索引擎为用户使用试刺峁┝恕┛尚械耐揪丁H欢喽于巨大、无序的畔⒖占洌扛鲇没д嬲行巳さ男畔⒎浅S邢蓿鼋是畔⒖占涞牟缀R凰凇T诖乘阉饕娣衲J较拢A苏业秸鍶下感兴趣的信息,用户要耗费大量的时间和精力。当