1 / 3
文档名称:

局域网FTP搜索引擎的建立论文.doc

格式:doc   大小:50KB   页数:3页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

局域网FTP搜索引擎的建立论文.doc

上传人:小博士 2018/2/20 文件大小:50 KB

下载得到文件列表

局域网FTP搜索引擎的建立论文.doc

相关文档

文档介绍

文档介绍:局域网FTP搜索引擎的建立论文
..毕业摘要 FTP服务是网络服务的一种应用广泛的文件传输形式,本文拟构建一个基于Web的FTP主机的文件搜索系统,能够以Web形式轻松的检索FTP上的文件,并且可以直观的以Web模式模拟FTP主机的文件结构。
关键词搜索引擎;FTP;Web
1 背景
当前,计算机网络已经越来越普及,各个单位也已经逐步建立自己的FTP(File Transfer Protocol)服务器,用来管理存储对于自己单位内部共享的一些文件或者对外共享的一些文件。随着被FTP管理的文件数量的不断增长,达到上万、上百万..毕业,甚至更多的时候,如何在如此庞大数据里边更快捷的找到自己所需的文件,将成为一个很重要的问题。
目前出现了一些FTP搜索引擎,可以用来搜索整个互联网内处于匿名访问的FTP上的文件信息,而需要权限才能访问的FTP则无法直接建立索引,因此不能达到搜索效果。本文拟构建的FTP搜索引擎是针对单位内部,局域网内的一个或者几个FTP服务器建立的;使内部用户直接可以看到FTP上的目录结构,并可以准确的搜索文件位置,然后浏览,达到检索高效、准确。
2 拟构建系统之模型
系统构建网络拓扑模型如图1所示。
图1 系统拓扑模型
根据拓扑结构,内部网络部署若干台FTP服务器,根据需要,在每台需要被查询的FTP服务器上,建立扫描文件结构发生变化的爬虫程序,并在内部网络建立FTP文件索引数据库服务器,用来存放FTP服务器上爬虫程序获取的索引数据,另外还要建立Web服务器,用来做Web查询。
3 系统模式分析
本系统采用两个模块构建,分别是部署于FTP服务器的爬虫程序和部署于Web服务器的索引查询引擎。
部署于FTP服务器的爬虫是一用来监控FTP文件结构变化的程序,它用来监视FTP服务器的变化,当FTP服务器有新的文件上传或者有文件被删除或者文件位置发生变化的时候,爬虫程序会立即捕捉到此变化,然后将变化信息响应到建立索引的数据库服务器。
部署于Web服务器的查询引擎是主要用来做查询服务,以及针对用户输入的查询关键字做模糊处理,直接以模糊方式查询,当搜索到结果以后,显示时候将文件所处FTP位置显示,同时将对应的超级连接做在上边,可以方便直接。
在访问范围上,拟构建的搜索系统可以供内网和外网同时检索,访问方式
如图一所示,将Web服务器发布在内部网络,同时开放到Inter,可提供到Inter访问。通过Web服务器来对内和对外提供检索服务。内部用户通过内部网络直接访问Web服务器来访问搜索引擎,外部用户通过Inter来访问Web搜索引擎。
4 系统的实现
FTP服务器爬虫程序主要用来建立FTP文件的树形结构,如图2所表示,每获得一个服务器就建立一个FTP根节点,然后在遍历根节点下边的子节点,直到将子节点遍历完毕。FTP服务器爬虫程序可以采用Java或者C++等程序来实现,可以作为操作系统的一个服务来加载。此种爬虫程序可以根据需求分为两类,一类是实时记载服务器文件结构变化的,一类是分周期的记载数据库变化的。图2 FTP爬虫遍历获得数据结构实时记载的爬虫程序运行过程是:当初始加载到一个新的FTP服务器,爬虫程序首先遍历该服务器,获得该服务器的文件结构,同时将此结构记载到数据库服务器,当遍历完整个服务器后,然后就