1 / 34
文档名称:

搜 索 引 擎.ppt

格式:ppt   页数:34页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

搜 索 引 擎.ppt

上传人:zbfc1172 2015/10/27 文件大小:0 KB

下载得到文件列表

搜 索 引 擎.ppt

相关文档

文档介绍

文档介绍:网上信息资源搜索
什么是网络信息资源
网络信息资源是指计算机网络上可以利用的各种信息资源的总和,即以数字化形式记录的、以多媒体形式表达的、分布式存储在网络上的计算机存储介质以及各类通信介质上,并通过计算机网络通信方式进行传递的信息内容的集合。
网络信息资源的特点
信息量大、传播广泛
信息类型多样、内容丰富
信息时效性强、动态且不稳定
信息分散无序、但关联程度高
信息价值差异大、难于管理
网络信息资源的类型
按信息资源的传输协议划分

FTP信息资源
信息资源
Newsgroup信息资源
E-mail信息资源
……
按信息资源的组织形式划分
文件
超文本/超媒体
数据库
网站
网络信息资源检索工具
上提供信息检索服务的计算机系统,信息空间中的各类信息资源。
不同类型的信息资源需要使用不同类型的检索工具进行检索,才能快速、高效、准确地找到用户需要的信息。
网络信息检索工具一般由信息采集系统、数据库和检索***三部分组成。
网络信息检索工具的工作原理
通过数据采集系统人工采集或自动跟踪索引程序广泛收集网上信息资源,经过判断、选择、标引、加工、分类、组织,将有用信息的网址、关键词等资料用数据库管理系统进行组织,生成数据库,创建目录索引及检索界面。
用户根据自己的检索要求,按照检索工具的语法在检索界面中输入要求,检索软件对用户的提问进行识别和判断后,代理用户到数据库中进行检索,并对检索结果进行评估、比较等处理,按相关度排序后提交给用户。
网络信息检索工具的工作原理
检索工具的信息采集通常包括人工采集和自动采集两种形式
自动采集是通过使用一种称为机器人(也叫Robot、Spider、Crawler等)的网络自动跟踪索引程序来完成信息采集。
采集和标引的信息,通过数据库管理系统的组织,生成数据库,作为网络信息检索工具提供检索服务的基础。
当用户向检索工具提出检索要求时,由检索软件负责代理用户在数据库中进行检索,并对检索结果进行计算、评估、比较,按检索结果与检索要求的相关程度排序后提供给用户。
网络信息检索工具的类型
按检索内容分类,信息检索工具可以分为
综合型
专业型
特殊型
百度等通用的搜索引擎属于综合型检索工具,而查询地图的Go2map等就属于特殊型检索工具。
按检索的信息资源类型来分,可以分为
非Web资源检索工具
Web资源检索工具。
搜索引擎是Web资源检索工具的总称,泛指网络上提供信息检索服务的工具或系统。目前,越来越多的Web资源搜索引擎同时具备检索非Web资源的功能,成为最常用的网络资源检索工具。
信息检索效果的评价指标
用于衡量检索效果的量化指标有:
查全率
查准率
漏检率
误检率
其中查全率和查准率是两个主要指标。
提高检索效果的措施和主要方法
提高检索系统的质量
提高用户利用检索系统的能力
表达检索目标:用户要具备一定的检索语言知识,能够选取正确的检索关键词、合理使用运算符完整表达检索目标
跨库检索:灵活运用各种检索技术、检索方法和检索途径,能够综合运用综合性检索系统和专业性检索系统,实现跨库检索;
调整检索策略:制定优化的检索策略,准确地表达检索要求,尝试多次检索并随着背景知识的增加不断调整检索策略;
严谨的科学态度:要有严谨的科学态度,认真遵循检索操作步骤,最大限度地发挥检索系统的作用;
根据不同检索要求,合理兼顾和调整查全率和查准率。