文档介绍:中国科学技术大学
硕士学位论文
Web网页的时态文本索引研究
姓名:陈鸿
申请学位级别:硕士
专业:计算机应用技术
指导教师:金培权
2011-04
摘要
摘要
随着互联网技术的快速发展,搜索引擎已成为许多人生活和工作中的重要工
具。但是,由于网络信息的快速增长和用户搜索要求的不断提高,通用搜索引擎
已经不能满足用户对于信息检索服务的需求。在许多网页中,网页内容具有时间
敏感性,比如商业新闻、出版信息、网上商店的折扣信息等。根据用户提出的时
态检索请求准确查找到相应网页对用户很有价值。但是主流搜索引擎只能提供针
对网页更新时间的查询,缺乏对网页内容时间的查询能力,由此降低了查询结果
的有效性。因此建立一个时态信息与文本信息相结合的网络搜索引擎是未来搜索
引擎发展的重要方向之一。
本文以时态文本搜索引擎为背景,重点研究了结合 Web 网页中的时间信息
与关键字信息的时态文本索引问题。论文通过对通用的关键字索引结构和时态索
引结构进行分析和改进,提出了几种时态文本索引结构设计思路,并进行了理论
和实验上的比较,最终得出了性能评测较优的一种索引。在此基础上,对性能较
优的索引进行再次改进,进一步提高索引性能,提高搜索引擎的查询效率。本文
的主要贡献如下:
(1)提出了基于时态文本搜索引擎的混合索引结构。针对时态文本搜索引
擎中的网页的时间信息的特征,本文将网页的时间信息分成两部分,一个是更新
时间,一个是内容时间。在此基础上,我们提出了首要时间的概念,将它加入到
索引处理中。我们以 B+树、倒排文件和 MAP21 树为基础,研究并比较了五种
混合索引结构。通过在仿真数据集与真实数据集上的实验,在索引大小、磁盘 I/O
时间以及查询时间的性能比较,得出“先倒排索引后 MAP21 树”的索引结构具
有较好的性能。
(2)提出了基于哈希的时态文本索引结构。基于哈希的时态文本索引结构
是对先前验证的较好的“先倒排文件后 MAP21 树”的时态文本索引结构的改进。
针对网络的时间特征,特别地,对于时间信息的内容时间的特征的具体分析,尤
其是对于首要时间的研究,将内容时间区间转换成内容时间点,将 MAP21 树用
哈希表进行替换,构造出新型的时态文本索引结构,提高查询性能。通过真实数
据集上的实验,在索引大小,重建时间以及五种类型查询的查询时间的比较,得
到哈希的时态文本索引结构比“先倒排文件后 MAP21 树”的索引结构更优,更
适合作为时态文本搜索引擎的索引结构。
关键词:Web 搜索时态信息混合索引结构时态文本查询
I
Abstract
Abstract
With the rapid development of technology, search engine has been an
important part in people's life and working hours. However, due to the rapid growth of
Web information and the increasing of people's demands on Web search, general
search engines can not satisfy users' request for information retrieval services. As a
consequence, it is urgent to improve the searching effectiveness and efficiency of Web
search engines. For this goal, many researches have been focused on the time
information in Web. Most Web pages contain time information in their contents, such
as business news, publication information, promotion information in online stores,
and so on. It is meaningful to integrate those time information into the process of Web
search. However, major search engines can only support Web search on the update
time (or