文档介绍:浙江大学计算机科学与技术学院
硕士学位论文
基于用户点击行为的数字图书搜索系统研究与实现
姓名:袁川
申请学位级别:硕士
专业:计算机应用技术
指导教师:吴江琴;庄越挺
20080610
摘要数字图书馆在世界很多国家受到了高度关注,并取得了迅猛发展,已经成为人们获取信息与知识的重要途径。数字图书搜索则是数字图书馆必须提供的支撑性服务,本论文针对数字图书搜索阻及搜索结果排序问题做了深入研究与开发,以便读者能够在海量数字图书资源中快速发现他所需要的数字图书。传统数字图书搜索建立在关系型数据库之上,采用关键词的简单匹配来判别相关程度,不能反映图书的质量信息和受关注程度,缺乏有效的综合排序机制,不能综合利用多种排序依据。本文的主要工作如下:一、利用数字图书馆门户丰富用户使用日志数据,提出两个点击流上的随机行走算法:基于访问关联图的图书评分算法,提供图书相关性排序功能;诓檠辉亩列形5牟檠示劾嗨法,利用读者对检索结果的隐式反馈信息,提供对查询词的聚类功能。二、抓取互联网上的图书评分相关数据,将其整合进我们的图书搜索排序系统中去作为搜索结果排序的一个重要依据。三、在查询词聚类的基础之上,实现一种多排序依据集成方法,针对每类查询词,综合利用从访问关联图得出的图书相关性排序、互联网上的图书评分以及文本相似度这三种信息源,形成最终的搜索结果排序。四、开发完成相应的数字图书搜索系统,部署在高等学校中英文数字图书合作计划耐旧希萦没г谑导适褂弥械姆从常氪呈滞际樗阉飨比,新搜索系统的搜索结果排序更加合理。关键词:数字图书馆,关联图,,查询词聚类,多信息源集成浙江大学硕士学位论文
取鱪裳甅琣.∞胷韘,浙扛大学硬士学位论文’瓺瓺甌...鎓甌..:鑆
图目录图的一个简单示饲⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯的一个简单示例⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..图使用日志中提取的查询~阅读序列⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图查询一阅读行为示例⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯与;的数据构建比较⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图ザ霭嫱氖槠酪趁妗图当当网的书评页面⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图锹硌纷吭酵氖槠酪趁妗图整合图书评分数据基本框架图⋯⋯⋯⋯⋯...⋯⋯⋯⋯⋯⋯⋯⋯⋯。索引基本结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。图图书搜索系统整体架构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图图书有效阅读记录提取⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.计算的任务块分配和磁盘文件映射⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图书评页面抓取程序结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.浙江大学硕士学位论文
表目录表提取出的图书评分数据⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。浙江大学硕士学位论文Ⅳ
表、。杰学位论文作者签名:名一签字日期:印哆年日浙江大学研究生学位论文独创性声明学位论文版权使用授权书签字日期:豁髂月签字日期:沙略年多月表或撰写过的研究成果,也不包含为获得逝鎏盘堂或其他教育机构的学位或本学位论文作者完全了解澎’江盘堂有权保留并向国家有关部门或机构送交本论文的复印件和磁盘,允许论文被查阅和借阅。本人授权逝望盘生可本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名:以将学位论文的全部或部分内容编入有关数据库进行检索和传播,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。C艿难宦畚脑诮饷芎笫视帽臼谌ㄊ导师签名:
第滦髀课题背景够方便快速地从多种资源与应用中获取自身所需的信息口世纪是数字化的时代,随着计算机技术、海量存储技术和网络技术的飞速发展,信息载体的数字化和信息传播的网络化得到了空前的深化,图书馆的数字化成为一个必然趋势。数字图书馆在世界很多国家受到了高度关注,并取得了迅猛发展,已经成为人们获取信息与知识的重要途径。国家计委、教育部、财政部于年陆ā爸杏⑽耐际槭只屎献计划虺艭妨形!笆濉谖省工程””一起,共同构成中国高等教育数字图书馆的框架。钅磕壳耙丫只多万册中英文图书。其中的英文图书有效扭转了国内高校和科研机构英文原版图书资源严重不足的状况;中文图书资源突出高校教学科研的需要,兼顾保存和传承我国优秀传统文化的要求嘲。钅啃纬闪艘惶壮墒斓闹С职偻虿崾侄韵笾谱鳌⒐芾与服务的技术平台;探索了多媒体、虚拟现实等技术在数字图书馆中的应用。百万册数字图书馆服务平台是一套具有集成能力、可灵活扩展、可定制的“数字图书馆门户构建平台”毗及其它与数字图书馆相关的一系列应用系统。百万册数字图书馆服务平台本身提供