文档介绍:国防科学技术大学
硕士学位论文
基于点击数据分析的个性化搜索引擎研究
姓名:蔺继国
申请学位级别:硕士
专业:计算机科学与技术
指导教师:徐锡山
2010-11
国防科学技术大学研究生院工学硕士学位论文
摘要
随着互联网技术在全球范围内的飞速发展,互联网逐渐成为群众发布信息、
获取信息和传递信息的主要载体,网络信息呈现一种爆炸式增长态势。人们一方
面在享受着互联网带来的方便及丰富的信息资源,另一方面也不可避免地遇到难
以快速获取有效信息的问题。搜索引擎作为获取网络信息的一个方便入口,正不
断被人们使用和依赖。
但是,传统搜索引擎对所有网络用户提供一个统一的入口,对所有用户的相
同查询词返回一个相同的结果列表,这个结果列表中仍然包含很多网页,用户感
兴趣的信息往往仍然被一些冗余信息淹没。为了深入理解用户的搜索目的,对不
同用户提供不同的个性化服务,个性化搜索技术应运而生。
然而,个性化搜索技术的研究工作仍然处于一种鱼龙混杂的局面,没有一款
商用个性化搜索引擎产品提供的个性化服务能够真正让人耳目一新。本文针对个
性化搜索技术的现状及问题,基于用户点击数据分析方法对个性化搜索技术进行
了深入研究。本文的主要工作有以下几个方面:
(1) 对现有个性化搜索技术的研究状况进行了分析比较,指出了现有个性化搜
索引擎的不足之处。
(2) 提出一种基于点击数据分析的隐式相关反馈信息提取策略,比显式反馈方
法更具有实际应用价值。
(3) 设计了一种基于添加修正参数的个性化 PageRank 算法,通过将提取的隐
式信息反馈到 PageRank 中,实现了搜索结果的个性化排序,结果更接近用户的搜
索需求。
(4) 将协同过滤技术应用于个性化 PageRank 算法,利用兴趣组内其他用户的
相关反馈信息来改善同组者搜索结果的排序质量。
(5) 提出基于兴趣聚类技术的用户分组方法,以实现用户的合理分组,进一步
减少用户使用系统时的复杂度。
关键词:个性化搜索引擎,相关反馈,协同过滤,PageRank,点击数据
第 i 页
国防科学技术大学研究生院工学硕士学位论文
ABSTRACT
With the rapid expansion of information technology throughout the world,
has e the main platform of information releasing, exchanging and acquiring.
While enjoying the convenience and abundant information bringing by the ,
people also encounter the problem inevitably that they cannot get efficient information
rapidly. As a handy entry for people to gain information, Search engine is used widely
and depended on by people.
But, the traditional search engines offer only one uniform entrance for work
users, and always return a same result list if given a same query although may queried
by different person. The result list contains a lot of information remain, and the
information the user interested in may submerged by many redundant things. To
understand user’s query motivation deeply, and provide personalized service for
different people, technologies of personalized search are put forward and researched.
However, research work of personalized search is still in a state that good and evil
ones mixed up.