1 / 12
文档名称:

山东建筑大学计算机网络课程设计《基于Python的网络爬虫设计》.doc

格式:doc   大小:195KB   页数:12页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

山东建筑大学计算机网络课程设计《基于Python的网络爬虫设计》.doc

上传人:miaoshen1985 2018/11/16 文件大小:195 KB

下载得到文件列表

山东建筑大学计算机网络课程设计《基于Python的网络爬虫设计》.doc

文档介绍

文档介绍:山东建筑大学
课程设计成果报告
题目: 基于Python的网络爬虫设计
课程: 计算机网络A
院(部): 管理工程学院
专业: 信息管理与信息系统
班级:
学生姓名:
学号:
指导教师:
完成日期:
目录
1 设计目的 1
2 设计任务内容 1
3 网络爬虫程序总体设计 1
4 网络爬虫程序详细设计 1
设计环境和目标分析 1
设计环境 1
目标分析 2
爬虫运行流程分析 2
控制模块详细设计 3
爬虫模块详细设计 3
URL管理器设计 3
网页下载器设计 3
网页解析器设计 3
4
5 调试与测试 4
调试过程中遇到的问题 4
5
6 课程设计心得与体会 5
7 参考文献 6
8 附录1 网络爬虫程序设计代码 6
9 附录2 网络爬虫爬取的数据文档 9
1 设计目的
本课程设计是信息管理与信息系统专业重要的实践性环节之一,是在学生学习完《计算机网络》课程后进行的一次全面的综合练习。本课程设计的目的和任务:
;
、管理及配置的能力或加深对网络协议体系结构的理解或提高网络编程能力;

2 设计任务内容
网络爬虫是从web中发现,下载以及存储内容,是搜索引擎的核心部分。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。
参照开放源码分析网络爬虫实现方法,给出设计方案,画出设计流程图。
选择自己熟悉的开发环境,实现网络爬虫抓取页面、从而形成结构化数据的基本功能,界面适当美化。给出软件测试结果。
3 网络爬虫程序总体设计
URL管理器
数据输出器
网页下载器
网页解析器
爬虫控制器
在本爬虫程序中共有三个模块:
爬虫调度端:启动爬虫,停止爬虫,监视爬虫的运行情况
爬虫模块:包含三个小模块,URL管理器、网页下载器、网页解析器。
URL管理器:对需要爬取的URL和已经爬取过的URL进行管理,可以从URL管理器中取出一个待爬取的URL,传递给网页下载器。
网页下载器:网页下载器将URL指定的网页下载下来,存储成一个字符串,传递给网页解析器。
网页解析器:网页解析器解析传递的字符串,解析器不仅可以解析出需要爬取的数据,而且还可以解析出每一个网页指向其他网页的URL,这些URL被解析出来会补充进URL管理器
3、数据输出模块:存储爬取的数据
4 网络爬虫程序详细设计
设计环境和目标分析
设计环境
IDE:pycharm
Python版本:
目标分析
目标:从百度词条Python开始,以广度优先的方式,爬取相关联的若干词条网页的标题和简介
(1)初始URL:"http://baike./item/Python?sefr=ps"
(2)词条页面URL格式:
http://baike./item/%E8%87%AA%E7%94%B1%E8%BD%AF%E4%BB%B6
数据格式:标题——<dd class="lemmaWgt-lemmaTitle-title"><h1>Python</h1>
简介——<div class="lemma-summary" label-module="lemmaSummary">
(4)页面编码:utf-8
爬虫运行流程分析
爬虫程序的运行流程如图所示。
爬虫控制器从给定的URL开始,将给定的初始URL添加到URL管理器中,然后调用URL管理器的相关方法,判断是否有待爬取的URL
URL判断是否有待爬取的URL,如果有待爬取的URL,则返回给控制器,控制器将这个URL传递给网页下载器,下载该网页
网页下载器将下载好的数据返回给控制器,控制器再将返回的数据传递给网页解析器解析
网页解析器解析网页之后获取网页数据和网页的URL链接,再将这两个数据传递给控制器
控制器得到解析出来的数据之后,将新的URL链接传递给URL管理器,将价值数据传递给数据输出器输出
数据输出器以文本的形式输出传递进来的数据。
回到第一步,循环
控制模块详细设计
爬虫控制器主要负责调度各个模块,所以在设计的时候只需要一次调用其他模块的方法,给对应的模块传递数据即可。比较简单,可参见附录1查看源码。
爬虫模块详细设计
URL管理

最近更新

2025年拉萨道路货物运输驾驶员考试 24页

2025年承德货运资格证模拟考试卷 24页

2025年成都货运从业资格证题的答案 24页

2025年恩施货物从业资格证考试题 24页

2025年徐州货运上岗证考试题 25页

2025年张家口货运从业资格证考题 25页

广西钦州市第一中学2018届高三9月月考文科综合.. 13页

2025年廊坊货车从业资格证理考试 24页

2025年广西从业资格证500道题答案 25页

2025年广州货运从业资格证年考试题及答案 24页

广东省各大市及部分名校2013年1月高三语文试卷.. 11页

2025年岳阳货运上岗证考试题 25页

2025年山西货运从业资格证实操考试题 24页

2025年山东资格证模拟考试 25页

北京分公司营业部风险控制员职务说明书 6页

2025年安徽货运考试题库 24页

2025年安徽从业资格证货运考试答案 25页

北京市东城区2013年12月联考高三地理试卷 16页

2025年宁夏货运从业资格证试题库及答案大全 25页

2025年天津下载货运从业资格证模拟考试题 24页

2025年大理a2货运从业资格证模拟考试 24页

2025年大兴安岭货运从业资格证考试试题及答案.. 24页

宠物方面的商业计划书 6页

六西格玛绿带历年真题 34页

英格索兰空压机 25页

Levy过程和其在金融领域中的应用 40页

江西省新定额(2022-2023)(土建)定额说明及解释.. 14页

体育与健康试卷 2页

音乐基础知识详解课件 16页

基督教音乐剧《救赎》剧本与旁白 2页