1 / 74
文档名称:

网上信息搜索.pptx

格式:pptx   大小:9,644KB   页数:74页
下载后只包含 1 个 PPTX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

网上信息搜索.pptx

上传人:wz_198613 2018/11/28 文件大小:9.42 MB

下载得到文件列表

网上信息搜索.pptx

相关文档

文档介绍

文档介绍:2018年11月30日
库文档分享
1 of 74
第9章网上信息搜索
信息搜索工具
信息搜索方法
网页评估方法
网页搜索方法
图像搜索方法
影视搜索方法
音乐搜索方法
多媒体搜索引擎
2018年11月30日
库文档分享
2 of 74
概要
网上信息是网上文件所含内容的描述
网上信息(web-based information)
网上信息搜索是查找多媒体文件信息的过程
文字搜索(text search[1])——搜索文字文件的信息
图像搜索(image search)——搜索图像文件的信息
声音搜索(audio search)——搜索声音文件的信息
视像搜索( video search)——搜索影视文件的信息
信息搜索的必备知识
搜索工具有哪些
搜索工具的特性
搜索信息的方法
搜索工具的使用
2018年11月30日
库文档分享
3 of 74
信息搜索工具(1)
两种类型的搜索信息方法
主题搜索(subject search)
主题是用简明的术语或短语描述信息资源的标题
主题搜索是搜索编辑人员(如图书管理员)赋予信息资源的标题,搜索范围限定到描述信息资源的术语或短语
关键字搜索(keyword search)
关键字是用于概括信息资源核心内容的字词
关键字词可出现在标题、摘要和正文的任何地方
关键字搜索是搜索包含关键字的信息资源
2018年11月30日
库文档分享
4 of 74
信息搜索工具(2)
四种类型的信息搜索工具 (information search tool)
网页目录——主题搜索工具
网页目录像书前面的目录,列出每一篇、每一章、每一节的标题和相应的页码
网页索引——关键字搜索工具
网页索引像英文书后面的索引[1],列出书中所有关键词和每个关键字所在的所有页码
专题数据库——基本属于关键字搜索工具
网页搜索门户——主题搜索和关键字搜索相结合的搜索工具
2018年11月30日
库文档分享
5 of 74
信息搜索工具(3)
1. 网页索引
索引(index)是由关键字和关联数据组成的列表,说明信息及其存储位置
网页索引(Web index)是万维网上的网页或网站信息的列表
如果把万维网看成是一本“超大型的书”,那么网页索引就是这本书后面的“索引”
网页索引放在“索引数据库”里
网页索引包含“所有”网页的关键字和每个关键字所在的“所有”网页地址和简短说明
按照网页索引提供的信息,可找到包含这个关键字的所有网页
2018年11月30日
库文档分享
6 of 74
信息搜索工具(4)
网页索引用搜索引擎创建
搜索引擎的工作原理
搜索引擎(search engine)是由网爬虫、索引器、数据库、查询和网页排名等部件组成的程序
2018年11月30日
库文档分享
7 of 74
信息搜索工具(5)
搜索网页:使用网爬虫(crawlers)/网蜘蛛(spiders)不停地在网上搜索网页,并将搜索到网页暂时存放到网页库
创建索引:通过索引器(indexer)分析网页、抽出词汇、创建索引,并将索引存入索引数据库,以备用户查询
接收查询:当用户查询时,把查询请求告诉查询引擎(query engine),将查询结果返回给用户
搜索引擎可分成两种类型
独立搜索引擎(individual search engine),简称为搜索引擎,拥有自己的网页索引数据库,如Google、必应和百度
元搜索引擎(meta search engine),没有自己的网页索引数据库
2018年11月30日
库文档分享
8 of 74
信息搜索工具(6)
网页索引的性能
查全率(recall)
搜索引擎返回的匹配文档数量占所有相匹配文档总量的比例。例如,总共有100个相匹配的文档,搜索引擎只返回其中的80个文档,则其查全率是80%
查准率(precision)
搜索引擎列出的文档与查询内容相匹配的程度。列出的匹配文档越多,说明查准率越高。例如,搜索引擎列出80个文档,若其中有20个文档包含搜索字词,则其查准率为25%
查询速度
查询速度的衡量比较困难
2018年11月30日
库文档分享
9 of 74
信息搜索工具(7)
网页索引的特点
网页索引是查找网页的最好工具,尤其是查找包含关键字(keyword)、短语(phrase)和引述(quote)的网页
网页索引是用搜索引擎创建的,能较及时地对新创建和更新的网页做索引
给用户返回的查询结果中,通常有与查询请求不相关或相关性很小的网页
虽然创建网页索引的原理相同,但各个公司开发的搜索引擎的性能不同,包括搜