文档介绍:第期计算机技术与发展. .
年月.
基于的中文倒排索引技术的研究
郑榕增,林世平
福州大学数学与计算机科学学院,福建福州
摘要:索引是所有搜索引擎的核心概念,为了进行快速查找,就需要把数据处理成一种高效的、可交叉引用的组织格式。
倒排索引是一种高效的索引组织模式,其组织模式和存储结构对检索系统的性能起着至关重要的作用,文中探讨了基于
的倒排索引模式,分析了索引文件的结构、索引过程以及相关排序算法,讨论了的压缩算法,并且通
过设计一个中文模块实现了基于正向减字最大匹配分词方式的中文索引。实验表明新的分词算法比自带的分词
算法性能有了很大的提高。
关键词:全文检索;倒排索引;索引压缩;
中图分类号:. 文献标识码: 文章编号:———
—,—
,,,
:.,,—
.—.
., , —
,,. . —
,
. .
—; ;;
引言系统中最常用的数据结构。通常把采用倒排索引方式
随着万维网的飞速发展,现代信息检索系统一般组织的文件称为倒排文件。倒排文件
都要处理海量的数据。传统的手工检索方式已经难以描述了一个词项集合元素和一个文档集合
适应这种需要,全文检索系统因为其检索功能强大,操元素对应关系的数据结构,记:
作容易等特点受到越来越多用户的欢迎。,,⋯,, 了、,丁,
⋯
全文检索是指计算机索引程序通过扫描文章中的, 。
每一个词,对每一个词建立索引,当用户查询时,检索一个典型的倒排索引组织方式是把每个关键
程序就根据事先建立好的索引进行查找,并将查找的词的倒排表数据按文档编号增序排列,压缩保存为整
结果反馈给用户的检索方式。全文检索的核心技术是块数据,如图所示。
将源文档中的所有的基本元素的出现信息记录到索引
一
库中。
倒排索引,也常被称为反向索引, 一
●●
一
是一种以关键词作为索引关键字和链表访问人口的索
引结构,用来存储在全文检索下某个关键词在一个文
图倒排表
档或者一组文档中的存储位置的映射。它是文档检索
图中左侧为词典中的某个关键词,,右侧为该关
键词的倒排表内容,其中了为关键词丁出现在本文
收稿日期:——;修回日期:——
档的次数。为文档编号,该词在文档内出现的位置
作者简介:郑榕增一,男,硕士研究生,研究方向为智能
与信息检索;林世平,副教授,研究方为数据挖掘。序列为,,⋯。
第期郑榕增等:基于的中文倒排索引技术的研究· ·
相关研究用这些提取出来的数据创建的对象
由于倒排索引在信息检索系统中的核心作用,人及其对应的对象。
们在倒排文件索引技术上做了大量研究。文献根分析阶段,通过调用索引管理器
据汉语词汇的频率分布情况和当前的软硬件环境,提的方法将数据传递给
出一种高效的倒排索引结构,在一定程度上节省磁盘进行索引操作。在对数据进行索引处理时,会
空间,提高检索效率。文献提出了一种分块组织倒首先分析数据,使之更加适合被索引。
排文件的方法。通过建立检索性能模型,进行分析和写入索引,对输入数据分析完成后,将结果写入
仿真实验,有效地减少检索执行时间。文献提出了索引文件中,将输人数据以倒排索引的数据结构进行