1 / 18
文档名称:

IKAnalyzer中文分词器V3.2使用手册.pdf

格式:pdf   页数:18
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

IKAnalyzer中文分词器V3.2使用手册.pdf

上传人:经管专家 2012/12/22 文件大小:0 KB

下载得到文件列表

IKAnalyzer中文分词器V3.2使用手册.pdf

文档介绍

文档介绍:IKAnalyzer 中文分词器
使用手册
目录
Analyzer 介绍...................................................................................................... 2
............................................................................................................................ 5
.......................................................................................................................... 14
solr 的分词器应用扩展........................................................................................ 16
.......................................................................................................................... 18
Analyzer 介绍
IK Analyzer 是一个开源的,基于 java 诧言开发的轻量级的中文分词工具包。从 2006
年 12 月推出 版开始, IKAnalyzer 已经推出了 3 个大版本。最初,它是以开源项目
Luence 为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的 IK
Analyzer 则发展为面吐 Java 的公用分词组件,独立于 Lucene 项目,同时提供了对
Lucene 的默认优化实现。

IK Analyzer 结构设计
IK Analyzer 特性
采用了特有的“正吐迭代最细粒度切分算法“,具有 80 万字/秒的高速处理能力。
采用了多子处理器分析模式,支持:英文字母(IP 地址、Email、URL)、数字(日期,
常用中文数量词,罗马数字,科学计数法),中文词汇(姓名、地名处理)等分词处理。
优化的词典存储,更小的内存占用。支持用户词典扩展定义
针对 Lucene 全文检索优化的查询分析器 IKQueryParser(作者吏血推荐);采用歧义分
析算法优化查询关键字的搜索排列组合,能极大的提高 Lucene 检索的命中率。

分词效果示例
IK Analyzer 版本支持细粒度切分和最大词长切分,以下是两种切分方式的演示样
例。
文本原文 1:
IKAnalyzer 是一个开源的,基于 java 诧言开发的轻量级的中文分词工具包。从 2006 年 12
月推出 版开始, IKAnalyzer 已经推出了 3 个大版本。
最大词长分词结果:
ikanalyzer | 是| 一个| 开源| 的| 基于| java | 诧言| 开发| 的| 轻量级| 的| 中
文| 分词| 工具包| 从| 2006 | 年| 12 | 月| 推出| | 版| 开始| ikanalyzer |
已经| 推出| 出了| 3 | 个| 大| 版本
最细粒度分词结果:
ikanalyzer | 是| 一个| 一| 个| 开源| 的| 基于| java | 诧言| 开发| 的| 轻
量级| 量级| 的| 中文| 分词| 工具包| 工具| 从| 2006 | 年| 12 | 月| 推出|
| 版| 开始| ikanalyzer | 已经| 推出| 出了| 3 | 个| 大| 版本

文本原文 2:
作者博客:linliangyi2007. 电子邮件:linliangyi2005@
最大词长分词结果:
作者| 博客| linliangyi2007. | 电子邮件| linliangyi2005@
最细粒度分词结果:
作者| 博客| linliangyi2007. | linliangyi | 2007 | javaeye | com | 电子邮件
| linliangyi2005@ | linliangyi | 2005 | gmail | co