1 / 42
文档名称:

网络安全扫描器中网络爬虫的设计与实现.pdf

格式:pdf   页数:42
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

网络安全扫描器中网络爬虫的设计与实现.pdf

上传人:coconut 2014/2/26 文件大小:0 KB

下载得到文件列表

网络安全扫描器中网络爬虫的设计与实现.pdf

文档介绍

文档介绍:华中科技大学
硕士学位论文
网络安全扫描器中网络爬虫的设计与实现
姓名:申布琦
申请学位级别:硕士
专业:通信与信息系统
指导教师:谭运猛
20090521
华中科技大学硕士学位论文
摘要
本文的研究目的在于设计和实现网络爬虫,该模块是 Web 应用程序漏洞评估工
具的重要组成部分,设计和开发 Web 应用程序漏洞评估工具目的在于扫描网站、识
别安全漏洞并且给出扫描评估报告。
网络爬虫同样被称为搜寻器或机器人,是一种自动从网站上下载 WEB 页面的程
序。设计网络爬虫的主要目的在于恢复 WEB 页面。爬虫的主要目标在于下载一系列
重要的页面,刷新已下载的页面,发现新的页面和保证页面拥有一个合适的展现。
网络爬虫同样被用在信息提取上,例如提取商业情报,一个公司可以利用网络
爬虫从 WEB 网站上提取关于他们竞争对手的信息。网络爬虫的其他应用在于监测
WEB 页面和搜索引擎。爬虫使得通过 WEB 页面中的超链接自动提取网页中的信息
来实现上述功应用变得可能。一般来说,爬虫开始都是从一个初始的页面中提取超
链接,然后从这些超链接中得到更多的页面信息,直到页面数量达到一定的规模或
者已经实现某些较高的目标。
在这个简单的叙述下面有更多复杂的研究点,例如可以利用的资源就包括带宽
使用、硬盘空间、网络连接、爬虫陷阱、URLs 分类、HTML 和动态页面内容的分析。
WEB 的动态特性给网络爬虫的实现带来了挑战,如果 WEB 页面是静态的,爬虫只
需要做少量的工作,因为爬虫可以维持一个它已经获得的页面列表信息,但是爬虫
必须处理页面更新和删除问题。

关键词:网络安全,网络扫描,网络爬虫
I
华中科技大学硕士学位论文
Abstract
The goal of this research is the design and implementation of the Web-spidering
ponent which is an integral part of the Web Application Vulnerability
Assessment (WAVA) tool developed and designed to scan the website, identify security
vulnerabilities and provides an assessment report of the results of the scan.
Web spiders, also known as crawlers or robots, are programs that automatically
download Web pages. The major reason for designing the Web spider is to retrieve Web
pages. The general goals of a spider are to download a significant set of pages, refresh
downloaded pages, find new pages and ensure the pages it has are a proper representation.
Web spiders are used in information retrieval for example in business intelligence, a
company can use a Web spider to collect information from the Web about petition.
Other applications of Web spiders are in monitoring Web pages and in search engines.
Spiders make possible the above applications by following the hyperlinks in Web pages to
automatically retrieve a limited view of the Web. Basically, the spider begins with an
initial page and extracts the hyperlinks embedded within the Web pages to get new pages.
The process repeats with t

最近更新

2024年秦皇岛工业职业技术学院马克思主义基本.. 12页

2024年绩溪县招教考试备考题库含答案解析(夺.. 31页

2024年芷江侗族自治县幼儿园教师招教考试备考.. 31页

2024年萍乡学院马克思主义基本原理概论期末考.. 12页

2024年襄阳汽车职业技术学院马克思主义基本原.. 12页

2024年西安音乐学院马克思主义基本原理概论期.. 13页

2024年贵州电子信息职业技术学院马克思主义基.. 12页

2024年辽宁体育运动职业技术学院马克思主义基.. 12页

2024年通化医药健康职业学院马克思主义基本原.. 13页

2024年郑州信息科技职业学院马克思主义基本原.. 12页

2024年重庆健康职业学院马克思主义基本原理概.. 13页

2024年金肯职业技术学院马克思主义基本原理概.. 13页

2024年长春健康职业学院马克思主义基本原理概.. 12页

2024年闽江师范高等专科学校马克思主义基本原.. 13页

2024年陕西交通职业技术学院马克思主义基本原.. 12页

2024年青岛大学马克思主义基本原理概论期末考.. 13页

2024年首都体育学院马克思主义基本原理概论期.. 12页

2024年麻江县招教考试备考题库含答案解析(必.. 30页

2024年齐鲁工业大学马克思主义基本原理概论期.. 12页

2025年三峡旅游职业技术学院马克思主义基本原.. 12页

2025年上海纺织工业职工大学马克思主义基本原.. 12页

2025年中国政法大学马克思主义基本原理概论期.. 13页

腹管表面处理技术 38页

2025年乌鲁木齐职业技术学院马克思主义基本原.. 12页

2025年云南新兴职业学院马克思主义基本原理概.. 13页

职业生涯规划与开发 39页

2025年兴县招教考试备考题库带答案解析 31页

肿瘤微环境HIV-1细胞凋亡调控 35页

2025年华坪县招教考试备考题库含答案解析(夺.. 30页

2025年南充职业技术学院马克思主义基本原理概.. 13页