1 / 20
文档名称:

北邮毕设答辩网络爬虫设计及算法研究课件.ppt

格式:ppt   大小:1,077KB   页数:20页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

北邮毕设答辩网络爬虫设计及算法研究课件.ppt

上传人:读书之乐 2019/8/22 文件大小:1.05 MB

下载得到文件列表

北邮毕设答辩网络爬虫设计及算法研究课件.ppt

相关文档

文档介绍

文档介绍:北邮毕设答辩_网络爬虫设计及算法研究项目介绍1完成内容4选题背景2主要工作3总结及展望5项目名称:网络爬虫设计及相应算法研究TheResearchandDesignofWebCrawler项目类别:软件研究设计类项目来源:科研项目项目简介1搜索引擎介绍:互联网的迅速发展,使得网上信息越来越多,搜索引擎正是为了解决在浩瀚的信息海洋中快速高效的寻找信息的问题。搜索引擎是通过互联网搜索信息的重要途径,涉及到多个领域的理论和技术,具有很高的综合性和很强的挑战性。本课题研究的内容是搜索引擎的关键部分——网络爬虫。选题背景2网络爬虫介绍:网络爬虫是搜索引擎系统中十分重要的组成部分,它负责从互联网中搜集网页、采集信息,这些网页信息用于建立索引从而为搜索引擎提供支持,它决定着整个引擎系统的内容是否丰富,信息是否即时,因此其性能的优劣直接影响着搜索引擎的效果。选题背景2网络爬虫的基本原理:1)从一个初始URL集合中挑选一个URL,下载该URL对应的页面;2)解析该页面,从该页面中抽取出其包含的URL集合,接下来将抽取的URL集合再添加到初始URL集合中;3)重复前两个过程,直到爬虫达到某种停止标准为止。选题背景2项目介绍1完成结果4选题背景2主要工作3总结及展望5学****爬虫的基本技术网页抓取技术网页去重技术多线程技术主要工作3网页抓取技术宽度优先遍历算法和广度优先算法PageRank算法——基于链接的搜索算法主要工作3