1 / 4
文档名称:

网络爬虫(SQL数据库).doc

格式:doc   大小:242KB   页数:4页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

网络爬虫(SQL数据库).doc

上传人:rjmy2261 2019/4/9 文件大小:242 KB

下载得到文件列表

网络爬虫(SQL数据库).doc

相关文档

文档介绍

文档介绍:摘要:随着信息的不断膨胀,人们越来越离不开搜索引擎。通用搜索引擎如百度、Google给人们提供了很多便利,得到了极大的流行。但是随着人们需求的多样化,和对搜索结果质量的要求越来越高,通用搜索引擎在一些专门化的领域己经不能满足人们的要求,于是垂直搜索引擎就应运而生。尽管垂直搜索引擎很多技术与通用搜索引擎很类似,但是还是有很多自己独特的技术,和一些新的需要解决的问题,URL爬虫就是其中的一个重点需要解决的问题。关键词:搜索引擎,网络爬虫,URL提取  目录第一章关于web检索URL相关问题    第二章知识背景     第三章总体设计   (ER图)   ,今后你会添加哪些功能  谢辞 参考文献附录 功能模块1、网络爬虫模块网络爬虫实际上是一个基于web的程序。它从一个初始的网页集出发,自动的采集网络信息。当爬虫打开某个HTML页面后,它会分析HTML标记结构来获取信息,并获取指向其它页面的超级链接,然后通过既定的搜索策略选择下一个要访问的站点。从理论上讲,如果为Spider指定个适当的初始文档集和个适当的网络搜索策略,它就可以遍历整个网络。它的性能在很大程度上影响了搜索引擎站点的规模。2、索引模块网络爬虫爬取的网页上的信息以固定的格式获取到本地后,索引建立程序对信息进行分析,针对页面中出现的关键词建立一种利于快速查找的数据结构,即索引,以供搜索引擎使用。搜索引擎在选择索引数据结构时通常考虑两个因素:紧凑的数据结构和高效的检索能力。由于搜索引擎在建立索引的时候是面对海量的信息,因此在考虑记录