1 / 31
文档名称:

搜索引擎.doc

格式:doc   页数:31页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

搜索引擎.doc

上传人:pk5235 2015/8/24 文件大小:0 KB

下载得到文件列表

搜索引擎.doc

相关文档

文档介绍

文档介绍:搜索引擎的设计与实现
目录
摘要 3
ABSTRACT 4
第一章绪论 5
5
搜索引擎的现状 6
第二章搜索引擎概述 8
搜索引擎的概念 8
搜索引擎的发展 8
搜索引擎的工作原理 9
.NET简介 10
第三章搜索引擎的设计 11
11
11
12
14
16
网页的信息处理 16
倒排索引 16
介绍 17
19
21
查询信息 24
25
word文档查询 26
27
第四章用户接口设计 28
、登陆 28
28
29
系统数据库设计 30
第五章测试与评价 31
31
32
第六章结论和展望 33
参考文献 35
致谢 36
附录 37
摘要
互联网的快速发展使得网络中的信息量越来越大,普通用户对信息的检索越来越困难。搜索引擎的出现大大的该少了这种情况,互联网的快速发展也使搜索引擎的不断的发展着,而搜索引擎的逐渐转向商业化运行,使得搜索引擎的技术细节越来越隐蔽。本文以搜索引擎的三个基本功能:网页爬取、网页处理、查询服务为出发点,并按这三个功能将系统进行功能模块划分,技术作为基础,实现了一个搜索引擎。
网页中存在着大量链接的同时也具有众多的冗余信息,例如,导航信息条、广告栏、版权信息等,这些冗余信息大大限制了网页的可用性,因此在本文中网页爬取的重点就是如何快速的提取这些链接,而网页处理的重点则是去除网页中的冗余信息。本文利用正则表达式的灵活性实现了对网页中链接地址的提取和网页中冗余信息的剔除。在获取链接地址进行网页爬取的同时对网页信息进行提取,同时基于最大化匹配算法实现中文分词算法,e提供的接口功能成功实现对提取网页信息的索引,经过网页信息的提取和分词预处理,检索过程建立的索引更小,检索的效率和结果更加理想,并基于此索引为用户的查询请求提供服务。
关键词:搜索引擎;网页爬取;;中文分词;
Abstract
With the rapid developnebt of the ,it has e the largest information source in our search an retrieval for ordinary users e more and more emergence of search engines greatly improves this engine has made a constant development with the development of the ,but uts gradually shifting to conmmercial operation makes the technical details of search engine more and more the start point of three basic requirments of search engines as Web Spider,Pages’Processing and Providing Servives,this paper divides the system into three functional modules,and based on ,this paper explores the principle and realizes one search engines.
In web pages,three are a large number of links,how to fetch out these links fast is the key point of the Web Spider in these the same time,web pages contain a lot of redundant informationg,navigation tools,advertising fields,copyright information and so on,these redundant information limit