文档介绍:华中科技大学
硕士学位论文
数据库中基于多索引段的全文索引研究
姓名:漆团
申请学位级别:硕士
专业:计算机软件与理论
指导教师:王元珍
2011-01-19
摘要
随着电子图书馆,企业办公自动化,互联网的发展,数据库管理系统DBMS中已
积累大量的非结构化数据。采用在DBMS的外部建立索引的方法很难保证DBMS中的
数据与索引的一致性,不适合对性能或者灵活性要求较高的应用。将全文索引与
DBMS有机的结合起来是数据库——信息检索整合(DB-IR Integration, DB-IR)领域
目前讨论的一种主流方法。
为了能够快速地检索海量的非结构化数据,需要用到信息检索(Information
Retrieval, IR)领域的全文索引技术。尽管有多种数据结构可以用于实现全文索引,但
是目前的主流是使用倒排索引。已有的讨论有机结合方式的论文,使用的是基于单倒
排索引段的索引,存在性能低下的问题。针对这一不足,提出在DBMS中使用基于多
倒排索引段的全文索引,来提高建立索引和查询索引的性能。根据数据库自身环境的
特性改进索引段结构。将数据源表的关键字和关键字的大小序号,直接存储在倒排索
引单词的倒排表中,并使用位图存储删除信息。索引段结构的改进可以进一步提高全
文索引上的查询和删除操作的性能。通过实验验证,相对于已有的DBMS中的全文索
引,DBMS中的基于多倒排索引段的全文索引,在建立和查询索引方面具有性能上的
优势。并讨论如何使用B+-Tree这一DBMS中常用的数据结构来实现基于多倒排索引段
的全文索引。最后,设计出一套并发控制和日志恢复机制,来解决如何保证索引相关
事务ACID特性的问题。
关键词:数据库信息检索整合,全文索引,倒排索引,事务特性
I
Abstract
With the development of the electronic library, business office automation and ,
a large amount of unstructured data has been accumulated in DBMS(Data Base
Management System). It’s very difficult to ensure the consistency of the data and its
full-text index, if the index is outside DBMS. So index built outside DBMS isn’t suitable
for those applications that are sensitive to performance or flexibility. bine the data
and its anicly is discussed in Database-Information Retrieval Integration
(DB-IR Integration) field in a mainstream way.
In order to retrieve vast amounts of unstructured data quickly, we need to use the
full-text index technology from Information Retrieval (IR) domain. Although many data
structures can be used to implement full-text index, now the mainstream is to use the
inverted index. The performance of index based on single-segment index, used in
existing articles bination, is not very well. Full-text index implemented by
multi-segments index(one or more inverted indexes) is proposed by this article to
improve the performance of building, updating and querying. Improvements on index
segment structure, key of source table and the sequence numbe