1 / 11
文档名称:

信息检索论文(完整版).doc

格式:doc   大小:5,902KB   页数:11页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

信息检索论文(完整版).doc

上传人:lu2yuwb 2021/8/6 文件大小:5.76 MB

下载得到文件列表

信息检索论文(完整版).doc

相关文档

文档介绍

文档介绍:
: .
信息检索论文(完整版)
LT
  web信息资源是指建立在超文本、超媒体技术基础上,集文本、图形、图像、声音为一体,并以直观的图形用户界面展现和提供信息的网络资源形式,与之对应的 web 检索工具多种多样,大体分为三类:搜索引擎、目录型检索工具、多元搜索引擎。
  (1)搜索引擎
  搜索引擎使用自动索引软件来发现、收集并标引网页 ,建立数据库;以 Web形式提供给用户一个检索界面,供用户输入检索关键词、词组或短语等检索项;代替用户在数据库中找出与提问匹配的记录 , 并返回结果且按相关度排序输出。使用此类工具的检索方法被称为“关键词搜索”,可以在主页查询,也可以在类目下查询。此类检索工具的优点是信息量大且新 , 速度快;缺点是准确性较差。著名的搜索引擎如Meta Vista、Excite、天网、悠游等。
  根据其逻辑功能的不同,可分为:搜索器、分析器、索引器、检索器、用户接口。搜索器,也称为蜘蛛系统(Spider)或爬虫系统( Crawler),其功能是遵循一定的协议,在互联网中及时发现、搜索新的网页信息,并更新索引数据库中的已有网页信息,避免死链接。分析器的功能是借助于词频统计、词语位置认定和一些特殊的算法,对搜索器抓回的网页进行标引,并对其中的网页超链接进行关联。索引器的功能是根据分析器生成的关键词,建立从关键词到网页 URL 的关系索引倒排文档,即建立索引数据库。检索的功能是根据用户输入的提问词,在索引数据库中进行提问词与索引词的匹配运算,然后将查询结果按相关程度排序并输出到用户接口子系统。用户接口,其功能是提供人机交互的检索接口,接收输入的用户检索提问并输出检索结果。搜索引擎是自动标引,故收录、加工信息的范围广、速度快,能及时地向用户提供新增信息。但由于缺乏人工干预,准确性较差,信息重复率高,误检率较高;另外,检索策略的构造和输入方式也会直接影响其检索结果。一般来说,搜索引擎适合于检索特定的信息及较为专、深、具体或类属不明确的课题。
  (2)目录型检索工具
  它是按照某种分类体系编制的一种可供检索的等级结构式目录。分类方法以学科分类为主,也有采用图书分类方法的。使用此类工具的检索方法被称为“分类搜索”,这是一种“自顶向下、逐步细化”的搜索方法。自顶开始,每一层都分布有若干“链接点”,选择其中一个,就可沿此分支进入下一层,直到出现所需目标。此类检索工具的优点是检索质量较高,缺点是检索到的信息数量有限,且新颖性不够。有代表性的目录型检索工具如 Y ahoo、G alaxy、Lycos、网易、263 等。现在,搜索引擎和目录型检索工具逐渐整合在一起,以增强检索能力。
  (3)多元搜索引擎
  多元搜索引擎是将多个搜索引擎集成在一起,并提供一个统一的检索界面 , 且将一个检索提问同时发送给多个搜索引擎,同时检索多个数据库,再经过聚合、去重之后输出检索结果。其优点是省时,缺点是由于不同搜索引擎的检索机制、所支持的检索算法、对提问式的解读等均不相同,导致检索结果的准确性差。常用的多元搜索引擎有DOGPI LE、INFEREN等。
  多元搜索引擎分为并行处理式和串行处理式两大类。并行处理式元搜索引擎将用户的查询请求同时转送给它调用链接的多个独立型搜索引擎进行查询处理,串行处理式元搜索引擎将用户的查询请求依次转送给它调用链接的每一个独立型搜索引擎进行查询处理。
  多元搜索引擎虽没有网页搜寻机制,亦无独立的索引数据库,但在检索请求提交、检索接口代理和检索结果显示等方面,均有自己研发的特色元搜索技术支持。如提交检索请求时,根据源搜索引擎的特点和技术参数, 指定优先顺序,并对检索时间、检索结果数量进行控制;作为若干源搜索引擎的检索接口代理,多元搜索引擎必须具有较强的字符和语法转换功能,使用户的检索请求为各具语法特点的不同的源搜索引擎所人知和接受;而对检索结果的显示,不同的多元搜索引擎有不同的处理技术,由于多元搜索引擎设定的检索结果排序依据、最大返回结果数量、相关度参数及优化机制等不同,调用相同的源搜索引擎的不同多元搜索引擎显示检索结果的数量多少、排序先后、结果信息描述选择亦有较大差异。多元搜索引擎搜索将用户的检索式同时转给不同的引擎帮助检索,并将检索结果中重复的部分删去。这样,既扩大了检索范围,又节省了在不同的搜索引擎之间转换的时间,节省了时间,查全率高,漏检率低;但是由于不同搜索引擎的检索机制、所支持的检索算法、对提问式的解读等均不相同,导致检索结果的准确性差,查准率低。
  2 网络信息检索工具

最近更新

安装工程识图CAI 62页

医学资料 阜外医院心肺复苏文档 学习课件 94页

2025年数字化电能表项目发展计划 51页

魏晋南北朝清商乐舞的历史流变与文化价值 3页

饮食通-后台管理 25页

重庆历史下册复习省公开课一等奖全国示范课微.. 16页

字母和自然拼读 46页

项目管理在项目建设中的地位和作用之二 34页

英语直接引语省公开课一等奖全国示范课微课金.. 34页

苏教版数学一年级下册课件《十几减8、7》市公.. 23页

细胞生物学进展09.3省公开课一等奖全国示范课.. 42页

零售业进销存管理系统设计 18页

河北省沧州市第一中学高考地理一轮复习2.3.4大.. 27页

模块一义务教育数学课程实施成效与问题省公开.. 26页

铣床传动箱体加工工艺及铣床夹具毕业设计论文.. 18页

新编八年级数学上册3.3勾股定理的简单应用省公.. 24页

新概念第二册第18课市公开课一等奖省赛课微课.. 19页

钻研现代作曲技法心系梨园音乐发展 6页

金融科技的发展及其对金融业的影响 31页

微生物生态学省公开课一等奖全国示范课微课金.. 46页

遥感影像的特征提取与应用分析 25页

连杆盖零件的加工工艺及夹具的设计说明书 18页

辽宁省朝阳市七年级生物上册第一单元《生物和.. 35页

四年级S版上语文百花园二--(恢复)市公开课一等.. 9页

DB37 T 4527.2-2022 小麦-玉米全程机械化生产.. 6页

化学致癌2省公开课一等奖全国示范课微课金奖P.. 65页

急诊科质控工作计划 4页

液压系统常见故障以及排除 17页

新产品设计开发控制过程DQE导入课件 14页

大学生自主实习意外保险合同 5页