文档介绍:天津大学
硕士学位论文
面向博客的个性化检索系统的设计与实现
姓名:杨莉
申请学位级别:硕士
专业:计算机应用技术
指导教师:冯志勇
20070801
摘要关键词:推荐系统协同过滤用户偏好个性化服务伴随着姆伤俜⒄梗┛拖低匙魑R恢稚缁嵝匀砑诨チM系到了广泛的应用,同时系母骼嘈畔⒆试春筒┛陀没阂苍谘杆偌ぴ觯面对互联网上丰富的信息资源,针对博客用户的个性化信息服务越来越成为信息检索领域中研究的热点,而博客系统中的数据检索存在两方面不足:一方面基于简单的关键词匹配来推荐信息,不能准确的挖掘用户的兴趣偏好,另一方面在博客标签中不提供关键词检索,使个性化标签在博客检索中没有发挥真正作用。因此基于博客系统的个性化推荐服务技术的设计与开发成为广大博客用户急需的产品。本文提出面向博客用户的个性化检索方法,该方法使博客用户在检索信息时借助于搜索引擎来满足用户的意图,传统搜索引擎是一个面向大众的没有体现个性化的检索工具,由于博客中的用户标签可以反映用户的兴趣,所以在搜索引擎中应用博客标签来实现博客用户个性化信息检索。综合利用内容过滤和协作过滤两种技术的优势,建立了基于博客的个性化搜索引擎系统的体系结构。为此首先利用博客用户标签建立用户模型,然后为了动态跟踪用户的行为,挖掘用户隐含兴趣,根据用户聚类的算法计算相似用户群,建立用户群兴趣模型,基于该两种用户模型本文提出了多级常规索引方法,将模型中的兴趣标签作为搜索引擎的关键词进行多次反复迭代过滤匹配,从而为博客用户提供个性化的检索服务。在上述工作的基础上,设计和实现了面向博客的个性化检索系统。该系统很大程度上克服了目前博客检索中存在的不足,克服了传统搜索引擎技术上的缺点,使该系统能够深层次挖掘用户兴趣,迎合用户偏好,实现对博客用户在搜索引擎中的个性化推荐服务。
篟锄.,痳痠,:瑃痠瑃疭甅.,,.琣,..—猰琔,.
签字日期:》年罗月厂日学位论文作者签名:味甄翔学位论文作者签名:物莉签字日期:沙签字日期:泖晗υ拢疎学位论文版权使用授权书独创性声明导师签名:或撰写过的研究成果,也不包含为获得苤盗叁堂或其他教育机构的学位或证本学位论文作者完全了解丞壅盘堂有关保留、使用学位论文的规定。特授权丕鲞盘鲎可以将学位论文的全部或部分内容编入有关数据库进行检罗月本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中年索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校C艿难宦畚脑诮饷芎笫视帽臼谌ㄋ得作了明确的说明并表示了谢意。,日向国家有关部门或机构送交论文的复印件和磁盘。
第一章绪论课题的产生背景随着姆伤俜⒄梗琖已成为人们获取信息的一个重要的途径。由于互联网上蕴藏着海量的信息,并且信息正在呈爆炸式增长,因此人们好像是“大海捞针”一样搜索有用信息,同时也无奈地接受许多无用信息,那么如何在这浩瀚的信息中有效地、准确地找到用户感兴趣的信息,过滤无关信息早已成为人们共同关心的问题。面对互联网上丰富的信息资源,搜索引擎是互联网中检索数据的有效工具,然而在对资源需求更准确更高效的今天,传统的检索技术存在以下不足,第一简单的基于关键词匹配来推荐信息,传统的搜索引擎没有考虑用户的偏好,不同的用户输入相同的检索词得到的检索结果是相同的【¨。第二不能很好的适应用户兴趣变化,不同的人对事物有无兴趣很大程度上取决于个人的主观性,当某一用户对某件事情感兴趣时,由于受到周围环境的影响,可能会发生兴趣的转移、增加或扩展,而传统的检索技术不能满足用户个性化的检索需求【俊第三没有真正解决相关性问题。信息检索就其本身来讲是一项个性化特性很强的活动,不同的用户有不同的爱好与需求,而传统搜索引擎的检索模型采用“一个引擎适用所有用户”,这势必会导致检索结果与用户需求存在一定的偏差【浚么如何增强搜索引擎的功能,提高信息的查全率、查准率,满足不同类型用户群的个性化信息检索的要求,成为检索技术在未来发展中的重要趋势和特征。随着社会性软件的产生与发展,作为其中之一的博客系统在不断完善和壮大,突破了基于网页超链接形成的网络关系,形成了信息网络系统之间的协作关系,系统借助于自由标签来表达用户的兴趣偏好,支持对其他网站的连接和评论,用户对博客有着高度的自由控制权,这种开放式理念和灵活的操作模式便于各类人群更个性化的表达观点【俊K孀磐缧畔⒆试春筒┛陀没У募ぴ觯来越多的各种行业用户利用博客空间进行广泛的交流、协作、共享知识经验,当今博客系统已经成为人们网络生活中获得资源的重要途径之一,然而面对庞大的网络资源,博客用户能否高效准确地快速找到需求信息成为广大