文档介绍:网站常用搜索技术的进阶----------------------------------------------- 给用户想要的结果目录 :直接通过 sql 来实现 :借助搜索引擎来实现 4. Coreseek 与 sphinx 的对比 ( google 、 baidu ) 1. 初期搜索的实现 1. 通过数据库层面来实现精确搜索: WHERE uname = ' 张三'模糊搜索: WHERE uname LIKE ‘%张%‘‘%张’‘张%’ 2. 数据库+ 标签来实现优点:方便、低成本、低门槛缺点:效率、安全、性能 2. 中期的搜索变化大量数据、频繁搜索导致数据库层面的搜索无法满足,出现了一批搜索项目 Lucene :开发源代码的全文检索引擎工具包,它不是一个完整的检索引擎而是一个引擎架构,提供查询、索引、分析, java 中常用的工具包。 Solr : 独立的企业级搜索应用服务器,提供 web-service 接口,基于 lucene 开发的 Xapian : 用 C++ 编写的类似 lucene Nutch : 开源 java 实现的搜索引擎,封装了更多的功能(抓取、全文检索),更适合行业垂直站点 Sphinx : 基于 sql 的全文检索,提供多种语言的 API ( php 、 python 、 perl ) Coreseek :基于 sphinx 开发专注中文处理的搜索引擎。 中文分词常见中文分词方法 Scws 基于词频词典的机械中文分词 Paoding 基于 lucene 的中文分词 Imdict 基于智能词典的中文分词 Mmseg4j 封装了 mmseg 算法的中文分词自带 sogou 词库,支持自定义词库 3. Sphinx 与 coreseek 培优网的应用 tb_class 表数据导入中间表(定时任务) API ,根据条件返回中间表中的结果 ID并去业务库获取班级详情需要解决的问题 、相