文档介绍:1 信息检索与分析利用第3章搜索引擎第3章搜索引擎 概述 典型的搜索引擎 搜索引擎的检索技巧 2 信息检索与分析利用第3章搜索引擎 概述 基本概念 的主要信息服务类型 搜索引擎的类型 3 信息检索与分析利用第3章搜索引擎 基本概念 上的一种网站,它的主要任务是在 上主动搜索Web 服务器信息并将其自动索引,其索引内容存储于可供查询的大型数据库中。一个搜索引擎由搜索器、索引器、检索器和用户接口等四个部分组成。 ,域名就是 上某个区域的名字。可以简单将域名理解为任何一个想要和 连接的公司或机构在 上的注册地址。完整的域名包括三段,例如“”指的是 域内的一台名叫。 4 信息检索与分析利用第3章搜索引擎 . 的主要信息服务类型?URL 是一种统一格式的 信息资源地址表达方法,是 Unifor m Resource Locator 的缩写,全称为“统一资源定位器”。简单地说,就是地址栏里的域名等。它将 提供的各类服务统一编址,以便用户通过 Web 客户程序进行查询。在格式上 URL 可以分成以下三个基本部分: ?信息服务类型: //信息资源地址/文件路径 5 信息检索与分析利用第3章搜索引擎 . 的主要信息服务类型?目前编入 URL 中的信息服务类型有以下几种: ?http://HTTP 服务器。这是主要用于提供超文本信息服务的 Web 服务器。?:// 服务器。供用户远程登录使用的计算机。?ftp://FTP 服务器。用于提供各种普通文件和二进制代码文件的服务器。?gopher://Gopher 服务器。?wais://WAIS 服务器。?news:// 网络新闻 服务器。?双斜线“//”表示跟在后面的字符串是网络上的计算机名称,即信息资源地址,以示和跟在单斜线“/”后面的文件路径相区别 6 信息检索与分析利用第3章搜索引擎举例?http:// /.htm 代表使用超级文本传输协议HTTP 提供超级文本信息服务的资源。其计算机域名为 , 超级文本文件( )是在目录/ 。从域名上可以看出,这是中国教育网络的一台计算机。?://odysseus.:70 代表使用远程登录服务协议 提供信息服务的资源。其计算机域名为 odysseus. 。使用的端口号是 70。这是一家商业公司。?ftp://ftp./pub/输协议 FTP 发布文件的资源。其计算机域名为 ftp. ,存放对外发送文件的目录是/pub/ 。使用FTP 几乎可以传送任何类型的文件,文本文件、二进制文件、图像文件、声音文件、数据压缩文件等 7 信息检索与分析利用第3章搜索引擎 搜索引擎的类型???? 8 信息检索与分析利用第3章搜索引擎 搜索引擎的类型 ?1)主题型搜索引擎?2)分类型搜索引擎?3)混合型搜索引擎 9 信息检索与分析利用第3章搜索引擎 1 主题型搜索引擎?主题型搜索引擎将不断收集到的网上页面及地址信息以数据库的形式组织存贮。?查询时用户向其提问框中输入关键词,搜索引擎便会从数据库中检索与之相匹配的相关记录,按一定的排序返回给用户。?优点:是查询全面、充分,用户能够对各网站的每篇文章中的每个词进行搜索,检索直接、方便,而且可使用布尔逻辑检索、短语检索等高级功能。?缺点:繁多而杂乱的感觉。?代表性的主题型搜索引擎是 Google 、百度(Baidu )网站。图 3-1 Google 的界面 10 信息检索与分析利用第3章搜索引擎 2分类型搜索引擎通过用户浏览层次类型目录来寻找所需信息。分类一般按主题分类,并辅之以年代、地区等分类。网站多以此方式组织。例如:新浪>分类目录> 计算机与互联网> 硬件>行情报价。优点:使用户清晰方便地查找到某一大类信息, 尤其适合那些希望了解某一范围内信息, 并不严格限于查询关键字的用户。缺点:搜索范围较全文搜索引擎要小许多,尤其是当用户选择类型不当时,可能遗漏某些重要的信息源。代表性的目录式分类搜索引擎是 Yahoo 、搜狐、新浪网站图 3-2 Yahoo 的目录界面