1 / 57
文档名称:

PARADISE索引系统的改进及应用.doc

格式:doc   页数:57
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

PARADISE索引系统的改进及应用.doc

上传人:策划大师 2011/11/13 文件大小:0 KB

下载得到文件列表

PARADISE索引系统的改进及应用.doc

文档介绍

文档介绍:硕士研究生学位论文
题目:
PARADISE索引系统的改进及应用
姓名:
学号:
院系:
信息科学技术学院
专业:
计算机系统结构
研究方向:
搜索引擎与网络信息挖掘
导师:
教授
二〇一〇年五月
版权声明
任何收存和保管本论文各种版本的单位和个人,未经本论文作者同意,不得将本论文转借他人,亦不得随意复制、抄录、拍照或以任何方式传播。否则,引起有碍作者著作权之问题,将可能承担法律责任。
摘要
随着互联网信息的快速增长,搜索引擎的作用越来越重要。索引技术在网络服务中应用广泛,而索引系统是搜索引擎主要部分之一,它在搜索引擎中发挥着重要作用。基于倒排表的索引系统有着比较复杂的内部结构和逻辑,在设计和实现的时候有很多需要考虑的因素。
XXX网络实验室独立开发了PARADISE系统,PARADISE是Platform for Applying, Researching And Developing Intelligent Search Engine的简称,它是一个开放式的搜索引擎平台,提供了一组可配置、可替换的工具,用户可以根据自己的需要,定制相应的系统。
在将PARADISE的索引系统应用到研究和工程领域的过程中,我们遇到了一些问题,针对这些问题,本文做了如下的一些工作:
1、重新设计并实现了PARADISE索引系统。针对前一个版本的诸多问题,我们将整个索引进行了重新设计和实现。这个过程中,我们增加了用于改善性能的的缓存模块;重新实现了存储模块、文档表示模块,并增加了很多新的功能和接口;对于顶层的倒排、字典、正排模块,则完全重新进行了设计和实现,包括索引文件格式、跳查机制、索引流程等等。
2、详细介绍了PARADISE索引的改进情况。这包括单机索引文档数量的增加、索引构建速度的提升、检索速度的提升、可扩展性的增强等等。
3、介绍了PARADISE索引系统的应用情况。首先,我们使用PARADISE参加的TREC 2009的Web Track评测,应用索引系统对较大规模的数据进行了处理。其次我们将索引系统应用到XXX的校内搜索服务,取得了比较好的效果。
关键词:搜索引擎、PARADISE、索引系统、倒排表、索引改进
The Improvement and Applying of PARADISE Indexing System
[Abstract]
Along With the rapid growth of information in , search engine is ing more and more important. Indexing techniques are widely used in Web services, and the index system is one of the main parts of the search engine, which plays an important role. Index system which is based on inverted Posting-list plex internal structure and logic, and there are many factors to be considered during the design and implementation of it.
PARADISE is short for Platform for Applying, Researching And Developing Intelligent Search Engine, and it's developed DS Lab of Peking University independently. PARADISE is an open search engine platform that provides a set of configurable, replaceable tools, and users can customize a corresponding system as they need.
We encountered some problems when applying PARADISE to the research or engineering fields. To address these issues, the following work is done in this paper:
1、PARADISE indexing system is re-designed and implemented. We re-design and i