1 / 61
文档名称:

基于日志分析的个性化搜索引擎的研究与实现.pdf

格式:pdf   页数:61
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于日志分析的个性化搜索引擎的研究与实现.pdf

上传人:quality 2014/1/16 文件大小:0 KB

下载得到文件列表

基于日志分析的个性化搜索引擎的研究与实现.pdf

文档介绍

文档介绍:学位授予日期——名——蛆—蓝—一职称—鏛分类号——武多凄理歹大署论学位文基王旦志佥堑鲍仝:眭丝擅室到鳌鲍盟窒生塞垫单位名称链坩瘀铺蒙婵猛学科专业名称馏びτ美论文提交日期生垒月武这堡王太堂鱼盗垡塞差英文研究生姓名金室堑指导教师姓申请学位级别亟±论文答辩日期生§月学位授予单位答辩委员会主席评阅人里盛煎年题目邮编垒密级学校代码曼塾基旦塾曼旦垒墨曼亟樱骸瓯趃莸├玦墨垒窆
研究生┡拷F际签孙驻魄衅独创性声明学位论文使用授权书本人声明,所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。本人完全了解武汉理工大学有关保留、使用学位论文的规定,即学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权武汉理工大学可以将本学位论文的全部内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段保存或汇编本学位论文。同时授权经武汉理工大学认可的国家有关机构或论文数据库使用或收录本学位论文,并向社会公众提供信息服务。C艿穆畚脑诮饷芎笥ψ袷卮斯娑●
摘要匀罩静杉际踝隽讼晗傅难芯浚樯芰四壳爸饕5牧街中畔⒉杉际酰●目前互联网上每天爆发着海量的信息,搜索引擎成了我们查找信息的最重要的工具。然而搜索引擎所提供的信息检索服务大多数仍然是大众化的,这种综合性搜索引擎往往不能满足特定用户面向特定领域和特定主题的个性化的信息需求,而且这种情况下召回率和精确率都是很低的。个性化搜索引擎为解决此问题而诞生。本文设计并实现了这样一个个性化搜索引擎。本文在深入研究了搜索引擎日志分析和元搜索引擎的基础上,通过日志分析挖掘用户兴趣,利用用户兴趣实现搜索引擎的个性化,将二者有机的结合起来,构建了一个基于搜索引擎日志分析的个性化搜索引擎。论文完成了日志分析和个性化搜索引擎的研究与设计工作,并且对系统进行了相关测试。本文的主要研究工作有以下几点:页面标签技术和服务器日志技术,在此基础上设计并实现了一种基于页面标签的日志采集技术,使用这种技术在专门日志服务器上生成日志,减轻了日志清洗的负担,也减轻了衿鞯母旱#褂胹脚本实现了日志的自动传输,为了保证传输的可靠性,设置了重传机制。另外为了减小日志传送失败所带来的损失和使用的方便,’在日志传输前对日志进行了分割和打包压缩,传输完成后又对其解包解压缩和合并;匀罩痉治黾际踝隽思虻サ淖芙幔⒍,为避免重复叙述,着重介绍了点击日志的分析过程,并利用迪至巳罩痉治觯ü罩痉治觯崛×舜碛没巳さ墓键词及其权值,并利用它来建立用户兴趣模型;杓撇⑹迪至艘桓鲈K阉饕妫⒗萌罩痉治鼋峁⒌挠没巳つ型,对元搜索引擎返回的结果进行过滤,实现了个性化搜索;诖斯讨猩杓撇⑹迪至艘恢只谟没Ь劾嗟母鲂曰焖魉惴ǎù蟮提高搜索引擎的性能;最后,通过分析系统运行时的数据,证明系统己成功达到了预期的目标。关键词:日志分析,元搜索,查询日志,点击日志,用户兴趣模型,个性化
.。砀●◆,甀;,,.—:;.,
●◆,琓琍;痗琯‘:疘
目录●摘要第滦髀论文选题背景及意义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。国内外研究与发展现状⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.阉饕嫒罩痉治鲅芯坑敕⒄⒄瓜肿础论文主要的研究工作与论文结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。日志的传送⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..ⅰ日志的预处理⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯日志分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.隐私问题⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯:⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯第禄谌罩痉治龅母鲂曰阉饕嫦低车纳杓朴胧迪系统设计目标⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.系统构架⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.系统工作流程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯用用户接口模块⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..基于日志分析的个性化处理模块⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..谌