1 / 19
文档名称:

α文搜索技术白皮书.docx

格式:docx   大小:923KB   页数:19页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

α文搜索技术白皮书.docx

上传人:85872037 2018/6/29 文件大小:923 KB

下载得到文件列表

α文搜索技术白皮书.docx

文档介绍

文档介绍:α文搜索技术白皮书
引言
α文搜索基于语义树,不依赖于分词,致力于提供所有文字的全文检索服务。
α文搜索由上海泥娃通信科技有限公司提供。
研发背景
搜索引擎是信息时代的基础服务之一,搜索引擎服务的核心为全文检索。常用的全文检索提供基于关键词的查找。研究一种基于句子的查找是研发的动机之一。
全文检索主要分为两个部分:文章索引和查找。文章的索引主要指的是关键词的索引。简单来说就是,索引程序通过扫描文章,为每一个词建立一个索引,记录该词在文章中出现的次数和位置,查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。
全文检索系统是按照全文检索理论建立起来的,用于提供全文检索服务的软件系统。一般来说,全文检索需要具备建立索引和提供查询的基本功能。功能上,全文检索系统核心具有建立索引、处理查询返回结果集、增加索引、优化索引结构等等功能,外围则由各种不同应用具有的功能组成。结构上,全文检索系统核心具有索引引擎、查询引擎、文本分析引擎、对外接口等等,加上各种外围应用系统等等共同构成了全文检索系统。
全文信息搜索是信息时代的基本服务,文本信息检索是发展较快也较成熟的,其他的信息检索技术,往往也需要文本信息检索的支持。虽然搜索引擎已不仅仅局限于对文本进行检索,文本信息检索仍然是大部分搜索引擎的基础。常用的全文索引引擎有Lucence等,其主要是通过分词技术,结合文档关键词倒排序表实现全文信息的索引。
在信息检索系统的具体实现中,往往需要快速地找到文档中所包含的关键词。相比文档来说,关键词的个数是较少的,因此,以关键词为核心对文档进行索引是更加可行的方法。这就是信息检索领域常用的“倒排文档索引”技术。倒排文档索引可以被看成一个链表数组,每个链表的表头包含关键词,其后续单元则包括所有包括这个关键词的文档标号,以及一些其他信息。这些信息可以是文档中该词的频率,也可以是文档中该词的位置等信息。
倒排文档索引的优势不仅在于关键词个数少带来的检索效率提高,还在于其特别易于同信息检索技术结合。在实际应用中,查询中所包含的关键词往往是很少的,完全不包含查询中的所有关键词的文档,一般来说是不会被列入结果集的。因此,以关键词为主键进行索引,只需要用查询中包括的关键词,进行几次简单的查询就能够找出所有可能的文档。
全文索引主要技术是倒排文档索引技术,实质是词或者字的索引,结合特定的词典形成特定的关键词索引。
分词也是全文索引的关键技术之一。分词就是将连续的字序列,按照一定的规范重新组合成词序列的过程。中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂的多、困难的多。分词技术的主要目的是减小倒排序表的存储,提高索引的效率。缺点是需要针对性的给出不同字典和分词的方法,缺乏统一的尺度。
对于常用的全文搜索来说,基本的功能就是分词加上倒排序文档。搜索引擎的服务随着信息量的增大,检索和存储量大,存在索引时间长,搜索速度慢等问题。
常规的全文检索对于分词技术和字典的依赖,使得全文搜索实施的难度加大。对于不同语种需要不同的字典和分词技术,对于同一语种不同专业的文档也需要不同的分词技术和字典,不同字典和分词技术也影响了系统的通用性。
采用对文本信息进行特征序列的编码,形成相关的语义树,实质上提供了一种基于语句的全文搜索服务,搜索不再基于关键词的搜索,
提供一种基于语义树的索引方法和系统,提供了一种不再依赖于分词的全文索引引擎,提供了一种适合不同语种的全文搜索引擎,具有存储空间小,索引速度和查询速度快等特点。
概述
α文搜索主要是构建语义树,通过语义树的构建提供一种快速匹配语义的方法,根据语义和文档的关系,查找到相关的文档信息。
语义树的基本存储单元包括:最小语义单元,该单元的特征编码,前置单元的特征编码。
α文搜索提供windows和linux下的64位版本,系统c++编制,前端结合jquery、。
支持数据库mysql系列和mongodb系列。
查询
管理
数据库
语义树编码
数据导入,编辑,删除
内核管理
脚本文件
语义树存储
语义树查询
特点
α文搜索是一款基于语句的全文检索服务系统,不再基于关键词,也不依赖分词服务,对语言的支持采用统一的标准,支持语言仅仅需要以下特点的:有最小的文字单元,语句可以切分。
对文字的搜索提供一种独有的方式,按系统的算法对文字进行特定的编码,组建索引时存到关系表wor