文档介绍:基于Nutch与Lucene构建网络搜索引擎
摘要
随着互联网的不断发展,网络搜索在人们平时上网的时候起到了至关重要的作用,在网络搜索中搜索引擎则扮演者最关键的角色,搜索引擎是一款特别的软件系统,他能够从互联网中自动搜索信息,并为用户提供服务。在搜索引擎开发这个领域,Lucence系统是其他系统无法替代的,并且由于此系统是开源的,目前广泛用于全文搜索引擎的项目中。本课题就是通过Nutch与Lucene构建一个网络搜索引擎,学习网络搜索引擎技术。
关键词:搜索引擎,中文分词,Nutch,爬取,索引,Lucene
ABSTRACT
With the continuous development of the .Search usually when the is very is the most important search search engine is a special software was able to search for information from the to provide services for the field of search engine system can not be because this system has been widely used for full-text search engine issue is to build work by Nutch and Lucene search search engine technology.
Key Words:Search,Engine,ChineseWord Segmentation,Nutch,Crawling,Search, Lucene
目录
第1章 引言 1
搜索引擎的发展背景 1
项目背景 2
项目介绍 3
小结 3
第2章 搜索引擎简介 4
搜索引擎概述 4
搜索引擎的搜索 5
搜索引擎的分类 5
现今网络中主流的一些搜索引擎介绍 7
小结 8
第3章 搜索引擎的工作原理 9
搜索引擎技术框架 9
搜索引擎的原理 9
中文分词 12
中文分词算法 13
中文分词算法工具 17
Nutch 19
Nutch概述 19
Nutch结构 19
Nutch的工作原理 21
Nutch的优点 22
Nutch和Lucene 23
小结 24
第4章 系统分析与设计 25
系统需求分析 25
系统定位 25
系统结构分析 25
小结 26
第5章 Nutch搜索引擎系统实现 27
开发环境 27
准备工作 27
详细步骤 28
配置过程 28
爬取部分 30
搜索部分(成果展示) 31
第6章 总结 33
参考文献 34
致谢 35
外文资料原文 36
译文 37
引言
搜索引擎的发展背景
当今是科学发展日新月异、不断发展的社会,网络更是发展的飞快,随着网络的飞速发展,现在已经成为人们生活中必不可少的一部分,网络搜索的重要性不言而喻,所以搜索引擎的重要性更是重中之重。现如今,百度、谷歌等搜索网站的巨大成功,使得搜索引擎这一块更加受到人们的关注,从最初的Google、Yahoo到现今的百度、Sogou、搜搜等,搜索引擎愈来愈多,服务也更加全面,不光是这些专门做搜索引擎的公司,很多网站也在加入检索功能,用来满足用户的需要,各个企业同样也是需要用全文检索等功能来加强对自己企业的管理,由此可见,网络搜索引擎的重要性。
在互联网发展的初期,网站相对较少,信息的查找较容易。然而伴随互联网飞速的发展,普通网络用户想找到所需的资料简直如同大海捞针,这时为满足大众信息检索需求的专业搜索网站便应运而生了。
现代意义上的搜索引擎的鼻祖,是1990年由蒙特利尔大学学生Alan Emtage发明的Archie。虽然当时World Wide Web还未出现,但网络中文件传输还是相当频繁的,而且由于大量的文件散布在各个分散的FTP主机中,查询起来非常不便,因此Alan 想到了开发一个可以以