文档介绍:毕业论文
题目: 基于Lucene的桌面搜索引擎
学院: 管理科学与工程学院
专业: 信息管理与信息系统
摘要
随着信息资源的高速膨胀和计算机硬件的高速发展,个人PC存储容量变的越来越大。要想在越来越大硬盘里,从海量的资料中查找自己感兴趣的文档信息也随之变得越来越困难。而往往操作系统中自带的搜索器又不能完全满足我们的需求,因此我们迫切需要一款全新的桌面搜索引擎来帮助我们。
本文首先简单介绍了基于因特网的搜索引擎的系统结构和原理,然后着重介绍了桌面搜索引擎和全文检索的相关知识,对基于Lucene的全文检索引擎的架构原理方面进行详细的说明,同时对Lucene的索引机制、系统结构,以及中文分词都进行了仔细分析。
然后介绍了本文实现的一个基于Lucene的桌面搜索引擎。本桌面搜索引擎一个轻量级的全文检索软件,能够帮助用户方便地在越来越大硬盘里,从海量的资料中查找自己感兴趣的文档。从指定的文件路径中按照目录层次进行解析、搜索,并把搜索到的每条信息进行索引后加入索引文件,然后通过Web服务器接受客户端请求后从索引文件中搜索出所匹配的信息。
关键词:桌面搜索引擎、倒排索引、lucene、B/S、文本文件
Abstract
This article fist introduces the system structure and principle of search engine based on the in detail, then gives a minute explanation form Based on the full-text search engine Lucene framework and principle. In order to understand the technology more deeply, I have programmed a news search engine by myself.
The news search engine is explained and searched according to document-level directory, then indexs every searched information and adds it to the index file. Then after receiving the customers' requests from the web server, it soon searchs the right information form the index engine.
In the chapter of introducing search engine, it is not only elaborate the core technology, but bine with the modern code,pictures included, easy to understand.
Key Words:search engine、lucene、B/S、file
目录
绪论 3
1. 桌面搜索引擎与全文检索 5
搜索引擎的概念及发展 5
桌面搜索引擎简介 6
Windows自带搜索功能的不足 6
我们需要一款桌面搜索引擎 7
桌面搜索引擎现状 7
全文检索 8
什么是全文检索与全文检索系统 8
全文检索原理 9
全文检索的倒排索引原理 12
2. 开放源代码的全文检索引擎架构Lucene 13
Lucene简介 13
什么是Lucene 13
Lucene的应用、特点及优势 14
Lucene系统结构分析 15
深入Lucene 索引机制 17
Lucene文档分析与中文分词 19
Lucene分析器原理 19
中文分词 21
Lucene的索引效率 25
从Lucene学到更多 26
3. 基于Lucene的桌面搜索引擎 27
功能简介 27
桌面搜索引擎—索引器设计 28
索引器简介 28
界面设计 29
功能设计 30
桌面搜索引擎—索引器实现 31
解析器实现 31
中文分词考虑 34
索引器实现 35
搜索器实现 38
搜索器简介 38
搜索器界面 38
搜索器实现 38
3