1 / 11
文档名称:

信息检索论文(完整版).doc

格式:doc   大小:5,902KB   页数:11页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

信息检索论文(完整版).doc

上传人:lu2yuwb 2021/8/6 文件大小:5.76 MB

下载得到文件列表

信息检索论文(完整版).doc

相关文档

文档介绍

文档介绍:
: .
信息检索论文(完整版)
LT
  web信息资源是指建立在超文本、超媒体技术基础上,集文本、图形、图像、声音为一体,并以直观的图形用户界面展现和提供信息的网络资源形式,与之对应的 web 检索工具多种多样,大体分为三类:搜索引擎、目录型检索工具、多元搜索引擎。
  (1)搜索引擎
  搜索引擎使用自动索引软件来发现、收集并标引网页 ,建立数据库;以 Web形式提供给用户一个检索界面,供用户输入检索关键词、词组或短语等检索项;代替用户在数据库中找出与提问匹配的记录 , 并返回结果且按相关度排序输出。使用此类工具的检索方法被称为“关键词搜索”,可以在主页查询,也可以在类目下查询。此类检索工具的优点是信息量大且新 , 速度快;缺点是准确性较差。著名的搜索引擎如Meta Vista、Excite、天网、悠游等。
  根据其逻辑功能的不同,可分为:搜索器、分析器、索引器、检索器、用户接口。搜索器,也称为蜘蛛系统(Spider)或爬虫系统( Crawler),其功能是遵循一定的协议,在互联网中及时发现、搜索新的网页信息,并更新索引数据库中的已有网页信息,避免死链接。分析器的功能是借助于词频统计、词语位置认定和一些特殊的算法,对搜索器抓回的网页进行标引,并对其中的网页超链接进行关联。索引器的功能是根据分析器生成的关键词,建立从关键词到网页 URL 的关系索引倒排文档,即建立索引数据库。检索的功能是根据用户输入的提问词,在索引数据库中进行提问词与索引词的匹配运算,然后将查询结果按相关程度排序并输出到用户接口子系统。用户接口,其功能是提供人机交互的检索接口,接收输入的用户检索提问并输出检索结果。搜索引擎是自动标引,故收录、加工信息的范围广、速度快,能及时地向用户提供新增信息。但由于缺乏人工干预,准确性较差,信息重复率高,误检率较高;另外,检索策略的构造和输入方式也会直接影响其检索结果。一般来说,搜索引擎适合于检索特定的信息及较为专、深、具体或类属不明确的课题。
  (2)目录型检索工具
  它是按照某种分类体系编制的一种可供检索的等级结构式目录。分类方法以学科分类为主,也有采用图书分类方法的。使用此类工具的检索方法被称为“分类搜索”,这是一种“自顶向下、逐步细化”的搜索方法。自顶开始,每一层都分布有若干“链接点”,选择其中一个,就可沿此分支进入下一层,直到出现所需目标。此类检索工具的优点是检索质量较高,缺点是检索到的信息数量有限,且新颖性不够。有代表性的目录型检索工具如 Y ahoo、G alaxy、Lycos、网易、263 等。现在,搜索引擎和目录型检索工具逐渐整合在一起,以增强检索能力。
  (3)多元搜索引擎
  多元搜索引擎是将多个搜索引擎集成在一起,并提供一个统一的检索界面 , 且将一个检索提问同时发送给多个搜索引擎,同时检索多个数据库,再经过聚合、去重之后输出检索结果。其优点是省时,缺点是由于不同搜索引擎的检索机制、所支持的检索算法、对提问式的解读等均不相同,导致检索结果的准确性差。常用的多元搜索引擎有DOGPI LE、INFEREN等。
  多元搜索引擎分为并行处理式和串行处理式两大类。并行处理式元搜索引擎将用户的查询请求同时转送给它调用链接的多个独立型搜索引擎进行查询处理,串行处理式元搜索引擎将用户的查询请求依次转送给它调用链接的每一个独立型搜索引擎进行查询处理。
  多元搜索引擎虽没有网页搜寻机制,亦无独立的索引数据库,但在检索请求提交、检索接口代理和检索结果显示等方面,均有自己研发的特色元搜索技术支持。如提交检索请求时,根据源搜索引擎的特点和技术参数, 指定优先顺序,并对检索时间、检索结果数量进行控制;作为若干源搜索引擎的检索接口代理,多元搜索引擎必须具有较强的字符和语法转换功能,使用户的检索请求为各具语法特点的不同的源搜索引擎所人知和接受;而对检索结果的显示,不同的多元搜索引擎有不同的处理技术,由于多元搜索引擎设定的检索结果排序依据、最大返回结果数量、相关度参数及优化机制等不同,调用相同的源搜索引擎的不同多元搜索引擎显示检索结果的数量多少、排序先后、结果信息描述选择亦有较大差异。多元搜索引擎搜索将用户的检索式同时转给不同的引擎帮助检索,并将检索结果中重复的部分删去。这样,既扩大了检索范围,又节省了在不同的搜索引擎之间转换的时间,节省了时间,查全率高,漏检率低;但是由于不同搜索引擎的检索机制、所支持的检索算法、对提问式的解读等均不相同,导致检索结果的准确性差,查准率低。
  2 网络信息检索工具

最近更新

全国苎麻纺织企业工人技术标准审定会在株洲召.. 2页

2025年大前庭导水管病症影像学诊断攻略 58页

全国PL和CL材料讨论会在沪举行 2页

光纤光栅线阵探测器解调系统信号失真分析 2页

光学技术在纤维检验中的应用(二) 2页

儿童故事演讲稿12篇 19页

关于城市环保的建议书 18页

2025年苄星青霉素注射技巧优化研究 12页

农村自来水管道更换申请报告范文 16页

2025年脑瘫儿童日常照料与护理技巧 19页

奋斗的青春初三演讲稿范文(33篇) 68页

2025年理肺止咳良药参苏理肺丸作用解析 10页

2025年成人包皮环扎手术新方法 9页

2025年小儿先天性心脏病详解 58页

二零二五年度企业年集体合同——跨境电商行业.. 8页

二零二五年度企业团队建设培训服务协议模板 9页

二零二五年度企业员工宿舍维修责任免责协议 9页

二零二五年度企业危机管理与舆情应对培训授课.. 9页

二零二五年度企业信用贷款合同特性与信用评估.. 8页

二零二五年度人工智能研发合同要素与知识产权.. 8页

二零二五年度人力资源服务中间服务费合作协议.. 9页

二零二五年度交通枢纽设施租赁管理合同 9页

2025年创伤急救知识与分类技巧 83页

二零二五年度云计算合资合作协议范本 9页

二零二五年度事业单位住房租赁合同(含房屋质.. 8页

2025年感叹人生无常语录最新大全 7页

二零二五年度主体变更智能设备研发三方合作协.. 9页

2025年冠心病基层防治攻略 29页

2025年LG护肤品牌新媒体营销策略大全 51页

2025年最最清晰的版中国药典共三部 15页