1 / 66
文档名称:

搜索引擎教学.ppt

格式:ppt   页数:66页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

搜索引擎教学.ppt

上传人:zbfc1172 2015/10/27 文件大小:0 KB

下载得到文件列表

搜索引擎教学.ppt

相关文档

文档介绍

文档介绍:搜索引擎教学
何晓阳
The web creates new challenges for information retrieval. Sergey Brin and Lawrence Page 《The Anatomy of a Large-Scale Hypertextual Web Search Engine》 1998年4月在广泛关注。目前该文被引用309次。
内容: 网络资源的特点 搜索引擎 医学搜索引擎 实例
网络资源的特点(与传统数据库相比)
内容丰富,应有尽有。
更新变化太快,不确定性高。
有待于规范化、标准化。(能规范化吗?)
检索没有定式,没有标准答案。
搜索引擎介绍
起源:
所有搜索引擎的祖先,是1990年由Montreal的McGill University三名学生(Alan Emtage、Peter Deutsch、Bill Wheelan)发明的Archie(Archie FAQ)。Alan Emtage等想到了开发一个可以用文件名查找文件的系统,于是便有了Archie。Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件。
起源:
由于Archie深受欢迎,受其启发,Nevada puting Services大学于1993年开发了一个Gopher(Gopher FAQ)搜索工具Veronica(Veronica FAQ)。Jughead是后来另一个Gopher搜索工具。
发展:
世界上第一个Spider程序,是MIT Matthew Gray的World wide Web Wanderer,用于追踪互联网发展规模。刚开始它只用来统计互联网上的服务器数量,后来则发展为也能够捕获网址(URL) 。
搜索引擎一般由以下三部分组成:
爬行器(机器人、蜘蛛)
索引生成器
查询检索器
发展:
改进:假设所有网页都可能有连向其他网站的链接,那么从一个网站开始,跟踪所有网页上的所有链接,就有可能检索整个互联网。
1993年底,一些基于此原理的搜索引擎开始纷纷涌现,其中最负盛名的三个是:The World Wide Web Worm、NASA的Repository-Based Software Engineering (RBSE) spider。
RBSE是第一个索引Html文件正文的搜索引擎,也是第一个在搜索结果排列中引入关键字串匹配程度概念的引擎。
发展:
Excite 的历史可以上溯到1993年2月,6个Stanford University(斯坦福大学)大学生的想法是分析字词关系,以对互联网上的大量信息作更有效的检索。到1993年中,这已是一个完全投资项目Architext,他们还发布了一个供webmasters在自己网站上使用的搜索软件版本,后来被叫做Excite for Web Servers。(注:Excite后来曾以概念搜索闻名,2002年5月,被Infospace收购的Excite停止自己的搜索引擎,改用元搜索引擎Dogpile)