1 / 30
文档名称:

《Sphinx全文检索》.ppt

格式:ppt   大小:2,734KB   页数:30页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

《Sphinx全文检索》.ppt

上传人:相惜 2024/4/24 文件大小:2.67 MB

下载得到文件列表

《Sphinx全文检索》.ppt

相关文档

文档介绍

文档介绍:该【《Sphinx全文检索》 】是由【相惜】上传分享,文档一共【30】页,该文档可以免费在线阅读,需要了解更多关于【《Sphinx全文检索》 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。sphinx全文检索什么是全文检索一、生活中的数据总体分为:结构化数据:指具有固定格式或有限长度的数据,如数据库,元数据等。非结构化数据:指没有固定格式或不定长的数据,如邮件,word文档等。半结构化数据:如XML,HTML等,根据需要可按结构化数据处理,也可以抽取纯文本按非结构化数据处理。非结构化数据还有一种叫法:全文数据。二、按数据的分类,搜索也分为两种:对结构化数据的搜索:如对数据库的搜索:SQL语句。再如windows的搜索:文件名,类型,修改时间。对非结构化数据的搜索:如windows对文件内容的搜索。Linux下得grep命令。再如Google和百度可以搜素大量内容数据。对于非结构化的数据搜索也叫做对全文数据的搜索。三、对全文数据的搜索还可以分为两种1、顺序扫描:如要找内容包含某个字符串的文件,会一个文档一个文档的从头到尾的找,如Like查找。2、索引扫描:把非结构化的数据中的内容提取出来一局部重新组织,让它变的有结构化,这局部我们提取出来的数据就叫做索引模拟词典Linux是什么,Linux是一个开源的操作系统。。 1页Apache是什么?Apache是一个开源的Web效劳器。 2页MySQL是什么?MySQL是一个开源的数据库。。 3页PHP是什么?PHP是一个开源的脚本语言。。 4页Linux1页PHP4页MySQL3页Apache2页全文检索大体分两个过程:索引创立(Indexing)和搜索索引(Search)。索引创立:将现实世界中所有的结构化和非结构化数据提取信息,创立索引的过程。搜索索引:就是得到用户的查询请求,搜索创立的索引,然后返回结果的过程。三个重要问题索引里面究竟存些什么?(Index)如何创立索引?(Indexing)如何对索引进行搜索?(Search)一、索引里面究竟存些什么?为什么顺序扫描的速度慢?非结构化数据中所存储的信息是每个文件包含哪些字符串,文件,欲求字符串,从文件到字符串的映射。而我们想搜索的信息是哪些字符串都在哪个文件中有,字符串,欲求文件,从字符串到文件的映射。如果有个东西总能够保存从字符串到文件的映射?大大提高搜索速度。 总能保存这种关系的东西就是索引。索引所保存的信息一般如下:假设我现在有100篇文档,从1到100表示。SphinxPHPLinux2566172345233287654478词典倒排表二、如何创立索引?全文检索的索引创立过程一般有以下几步:一些需要创立索引的文档(Documents)。将原文档传给分词组件(Tokenizer)。将得到的词元(Token)传给语言处理组件(LinguisticProcessor)。将得到的词(Term)传给索引组件(Indexer)。