1 / 12
文档名称:

移动搜索引擎.docx

格式:docx   大小:991KB   页数:12页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

移动搜索引擎.docx

上传人:q2299971 2017/7/15 文件大小:991 KB

下载得到文件列表

移动搜索引擎.docx

相关文档

文档介绍

文档介绍:历史:(选择)
搜索技术的历史—萌芽阶段:Archie 、Gopher
搜索技术的历史—起步阶段:Robot 、Spider
搜索技术的历史—发展阶段: Excite 、Galaxy、Yahoo
搜索技术的历史—繁荣阶段: Infoseek 、Alta Vista、Google、Baidu
搜索技术应用现状—采用分布式体系结构提高规模与性能
搜索技术应用现状—支持目录式分类结构和全文搜索
现在的搜索引擎都在3代,4代的在发展中
其中,第一代搜索引擎以早期 Yahoo 为代表,第二代以 Google 的创立为标志,之后Google 经过改进 Pagerank 和一系列技术,演化至第三代,而第四代搜索引擎有大量公司如Cuil,Quora 探索,但还未形成成熟的产品。
将信息分割成一个个关键字,并辅以关键字所在位置(例如第几页),从而构成一个倒排基本单位。是根据关键字查相应位置
(Document)
(Tokenizer)进行文本词条化
(Token)传给语言分析工具(Linguistic modules)进行语言学预处理,得到词项(Term)
(Term)传给索引组件(Indexer),建立倒排索引
4、信息检索系统的基本知识—评价信息检索系统的标准
信息检索系统的评价,主要是用户对所获取的结果进行评价。比如,是否喜欢系统,系统界面是否友好,是否能够找到用户所需要的信息。以下是评价信息检索系统的5个指标:
信息是否完全
信息检索的响应时间
召回率
精度
自然程度
5、索引创建过程
6、●文档(Document)与域(Field)是Lucene中的重要概念,事实上任何与索引文档相关的操作,都是在document类与field类的基础上实现的。
● Document在lucene中是一种逻辑文件,Lucene本身无法对物理文件建立索引,只能识别处理Document类型的文件。 Document和物理文件没有关系,是一种数据源的集合,负责向lucene提供原始的要索引的文本内容。
● NOTE:Document是负责收集数据,甚至可以不使用物理文件来构建,一段文本、几个数字甚至是链接都可以作为构建Document的数据源。
7、Field的属性一般分为3类
是否存储
是否索引
是否分词
8、Lucene所以创建过程一般分为三个主要步骤:
将原始文档转为文本(Denormalization)
分析文本
将分析好的文本保存到索引中
9、删除索引中的文档:
deleteDocuments(Term)
删除包含特定项的所有文档
deleteDocuments(Term[ ])
删除包含数组任一元素的所有文档
deleteDocuments(Query)
删除匹配查询语句的所有文档
deleteDocuments(Query[ ])
删除匹配查询语句数组任一元素的所有文档
deleteAll()
删除索引全部文档,与writer先关闭在用参数create
=true重新打开登记,deleteAll()方法好处是不用关闭writer
10、使用IndexReader类的UndeleteALL()方法,可以恢复不是优化方式(物理)删除的文档。
File indexDir = new File(“D:\\luceneIndex");
IndexReader ir = (indexDir);
();
();

11、加权是指对文档和域的重要性通过加权因子进行人为地干预。
加权操作可以在索引期间完成,也可以在搜索期间完成。搜索期间的加权操作会更加动态化, 每次搜索操作都可以根据不通的加权因子独立选择加权或者不加权,但这个策略也可能要稍微多消耗点CPUX效率。
NOTE:无论在什么时候进行加权都需要小心,过多的加权操作,特别是在用户界面没有提示的相应文档已经被加权操作的情况下。这可能会使用户搜索到很多用户不关心的东西(如百度的竞价排名)。
文档的加权操作:(float)
域的加权操作: Field subjectField =new Field("author", author,,));
subjectField. setBoots();


12、(简答题)实现简单的搜索——Lucene的搜索流程
初始化Lucene的检索工