1 / 40
文档名称:

lucene开发指南.docx

格式:docx   大小:858KB   页数:40页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

lucene开发指南.docx

上传人:63229029 2017/4/13 文件大小:858 KB

下载得到文件列表

lucene开发指南.docx

相关文档

文档介绍

文档介绍:北京信息科技大学 Michael Lucene 全文检索技术北京信息科技大学 Michael 知识点: 1. Lucene 入门-Lucene 介绍 15 2. Lucene 入门- 全文检索过程概述 20 3. Lucene 入门- 索引- 采集数据 20 4. Lucene 入门- 索引- 文件逻辑结构 15 5. Lucene 入门- 索引- 创建 Document 20 6. Lucene 入门- 索引- 创建索引 20 7. Lucene 入门- 索引- 使用 Luke 查看索引 15 8. Lucene 入门- 搜索- 搜索索引 20 9. Lucene 深入-Field 属性- 理论 20 10. Lucene 深入-Field 属性- 代码实现 10 11. Lucene 深入- 索引维护 15 12. Lucene 深入-Query 查询-Query 对象 20 13. Lucene 深入-Query 查询-QueryParser20 14. Lucene 深入-TopDocs 10 15. Lucene 深入- 相关度排序 boosts 20 16. Lucene 深入- 中文分词器 20 北京信息科技大学 Michael 1 Lucene 入门 Lucene 是什么? Lucene 是 apache 下的一个开放源代码的全文检索引擎工具包。 Lucene 的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能。 全文检索的应用场景使用全文检索技术可以实现如下功能: 搜索引擎: L ucene 和搜索引擎不同, Lucene 是一套用 java 或其它语言写的全文检索的工具包,为应用程序提供了很多个 api 接口去调用, 可以简单理解为是一套实现全文检索的类库, 搜索引擎是一个全文检索系统,它是一个单独运行的软件。站内搜索: 北京信息科技大学 Michael Lucene 全文检索过程全文检索首先将要搜索的目标文档中的词提取出来, 组成索引, 通过查询索引达到搜索目标文档的目的。这种先建立索引,再对索引进行搜索的过程就叫全文检索( Full-text Search )。 【图示】整个全文检索过程分为两个过程,索引和搜索。 需求我们对全文检索的分析以一个电商网站的站内搜索为例进行分析, 本例子以搜索图书为例进行讲解。 安装 lucene L ucene 是开发全文检索功能的工具包, 从官方网站下载 , 并解压, lucene 的 jar 北京信息科技大学 Michael 加入工程中使用即可。官方网站: http://lucene./ 版本: lucene 的包结构如下: 语言分析器,主要用于的切词 L ucene 提供的分析器实现类在: lucene-mon-.. 索引存储时的文档结构管理, 索引管理,包括索引建立、. 查询分析器,实现查询关键词间的运算,如与、或、非等,生成查询表达式, 检索管理,根据查询条件,. 数据存储管理,包括一些 I/O . 公用类 准备环境 lucene- mysql eclipse indigo jar : 驱动包: mysql-connector-java-- lucene 核心包: lucene-core- lucene 分析器通用包: lucene-mon- lucene 查询解析器包: lucene-queryparser- junit 包: junit- 创建 java 工程加入以上 jar 包。北京信息科技大学 Michael 索引过程 为什么要采集数据? 全文检索要搜索的数据信息格式多种多样,拿搜索引擎(百度, google )来说,通过搜索引擎网站能搜索互联网站上的网页(html) 、互联网上的音乐(mp3..) 、视频(avi..) 、 pdf 电子书等。全文检索搜索的这些数据称为非结构化数据。什么是非结构化数据? 结构化数据:指具有固定格式或有限长度的数据,如数据库,元数据等。非结构化数据:指不定长或无固