1 / 38
文档名称:

毕业设计(论文)-基于传统倒排表的索引创建算法--合并排序式索引创建算法.doc

格式:doc   页数:38
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

毕业设计(论文)-基于传统倒排表的索引创建算法--合并排序式索引创建算法.doc

上传人:3346389411 2013/3/30 文件大小:0 KB

下载得到文件列表

毕业设计(论文)-基于传统倒排表的索引创建算法--合并排序式索引创建算法.doc

文档介绍

文档介绍:摘要
中文全文检索系统是信息产业中发展较快的一个领域,而一个中文检索系统的核心就是索引器,本文介绍了索引器构造的不同算法模型,对相关的技术进行了比较,分析了各自的优缺点和实现难点,提出了一种中文全文检索中索引实现的数据结构和新型的算法模型。
本文首先综述了中文全文检索中索引构造的相关技术,主要包括索引文件数据结构、索引单位选取和索引压缩算法。
在上述综述的基础上,本文采用了基于单字的倒排表文件格式和可变字节编码压缩技术实现了整个索引系统。该系统包括三方面的功能分别是:文本预处理、索引创建和索引更新。
在文本预处理部分实现了中文、外文和特殊字符的分离,同时实现了停止词(stopword)的删除。
在索引创建部分本文首先给出了一种基于传统倒排表的索引创建算法——合并排序式索引创建算法,该算法需要源文本10倍大小的临时空间。为了解决合并排序式索引创建算法临时空间过大的问题,本文提出了一种新的索引创建方案,该方案采用分级的倒排表索引组织结构和链式顺序混合存储的方式。它不仅不需要额外的临时空间,而且还提高了索引创建的效率。在索引创建的过程中本系统采用了可变字节编码压缩技术对索引进行压缩,实验表明该压缩算法将索引文件大小减少了20-30%。
在索引更新部分本文提出了三种顺序存储方式下准动态的索引更新策略,一种链式存储格式下索引动态更新的算法。该系统采用的链式存储结构下的索引更新算法复杂度达到了O(n)。
关键词:中文全文检索;索引器;倒排表;索引压缩
ABSTRACT
Chinese Full-Text Retrieval System is one of the fast developing fields in information industry , and the core of the Chinese retrieval system is the Index device. The paper analyzes several different algorithms of constructing the index device, pares the related techniques, and then gives the advantages and disadvantages of each and the difficulty of achieving. Fnially this paper gives the data structure and a new algorithm model of The index in full-text retrieval system..
This paper first summarizes the related techniques of index constructing in Chinese Full-Text Retrieval, mainly includes data structure of document indexing, pression algorithms.
The further way, this paper implements the entire index system using the setechniques, such as character based-on Inverted lists and the variable byte pression algorithm. This system includes three functions respectively is:Text pretreatment, index foundation and index up dating.
In the part of text pretreatment, has realized separation of Chinese, foreign and the Special character, and has realized deletion of "stopword".
In the part of index foundation, produces one kind index foundation algorithm based on traditional Inverted Lists——Sort-Merge method. This algorithm needs the 10 time of sizes for temporary spaces than the source text. Inorder to solve the problem of oversi

最近更新

2026云南昆明市第二人民医院高层次人才引进考.. 45页

胖东来企业价值与社会价值平衡方案 60页

建设绿电园区 推动能源转型 32页

2026年任前廉政知识测试题(word) 14页

2026年党风廉政考试题库学生专用 14页

2026年北京市单招职业倾向性测试题库附答案解.. 45页

第二十三章病毒性肝炎 69页

2026年哈密廉政考试题库(易错题) 14页

2026年国开电大基础会计形考题库附完整答案(.. 40页

激光光谱下施肥对水稻生长及氨挥发的影响 20页

2026年注册税务师考试题库(轻巧夺冠) 46页

2025河南开封职业学院招聘专职教师81人备考题.. 44页

2026年危化品安全生产知识题库含答案【最新】.. 41页

基于蒙特卡洛树搜索的参数调优方法 7页

2025郑州郑上新城建设发展集团有限公司招聘工.. 49页

2026年c语言专科期末测试题及答案1套 13页

2026年c语言期末考试题库精编答案 13页

2026年C语言程序设计基础单项选择题库(模拟题.. 13页

2026年C语言考试题库(满分必刷) 13页

2026年C语言题库(培优a卷) 13页

2026年上海立信会计金融学院单招综合素质考试.. 45页

2026年云南特殊教育职业学院单招职业技能考试.. 44页

2026年企业作业人员题库100道及参考答案(基础.. 40页

2026年信阳航空职业学院单招职业技能测试题库.. 44页

设计艾灸排烟系统施工方案 6页

刮板式花生脱壳机结构设计 39页

江苏省住建厅发布《江苏省城镇排水管网排查评.. 1页

约瑟的一生PPT精选文档50页文档 50页

诗句谚语成语中的科学知识课件 23页

药用植物栽培学当归栽培技术课件 28页