1 / 16
文档名称:

可视化爬虫八爪鱼使用方法.docx

格式:docx   大小:1,326KB   页数:16页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

可视化爬虫八爪鱼使用方法.docx

上传人:253214894 2018/9/4 文件大小:1.29 MB

下载得到文件列表

可视化爬虫八爪鱼使用方法.docx

文档介绍

文档介绍:可视化爬虫八爪鱼使用方法
市面上有很多的爬虫工具,但是真正强大又好用的没几个,一般我们都是用“八爪鱼”免费工具来轻松抓取那些可见的网页内容,抓取的流程也可以可视化展示出来,就是这么神奇。
今天就给大家介绍一款免费可视化爬虫八爪鱼使用方法,本文介绍使用八爪鱼采集新浪博客的文章。
采集网站:
http://blog./s/ 
采集的内容包括:博客文章正文,标题,标签,分类,日期。
步骤1:创建新浪博客文章采集任务
1)进入主界面,选择“自定义采集”
2)将要采集的网址URL复制粘贴到网站输入框中,点击“保存网址”
 
步骤2:创建翻页循环
1)打开网页之后,打开右上角的流程按钮,使制作的流程可见状态。点击页面下方的“下一页”,如图,选择“循环点击单个链接”,翻页循环创建完成。(可在左上角流程中手动点击“循环翻页”和“点击翻页”几次,测试是否正常翻页。)
 
2)由于进入详情页时网页加载很慢,网址一直在转圈状态,无法立即执行下一个步骤,因此在“循环翻页”的高级选项里设置“ajax加载数据”,超时时间设置为5秒,点击“确定”。
 
 
步骤3:创建列表循环
1)鼠标点击列表目录中第一个博文,选择操作提示框中的“选中全部”。
 
2)鼠标点击“循环点击每个链接”,列表循环就创建完成,并进入到第一个循环项的详情页面。
 
 
由于进入详情页时网页加载很慢,网址一直在转圈状态,无法立即执行下一个步骤,因此在“点击元素”的高级选项里设置“ajax加载数据”,AJAX超时设置为3秒,点击“确定”。
 
3)数据提取,接下来采集具体字段,分别选中页面标题、标签、分类、时间,点击“采集该元素的文本”,并在上方流程中修改字段名称。
 
 
鼠标点击正文所在的地方,点击提示框中的右下角图标,扩大选项范围,直至包括全部正文内容。(笔者测试点击2下就全部包括在内了)
 同样选择“采集该元素的文本”,修改字段名称,数据提取完毕。
 4)由于该网站网页加载速度非常慢,所以可在流程各个步骤的高级选项里设置“执行前等待”几秒时间,也可避免访问页面较快出现防采集问题。设置后点击“确定”。
 
步骤4:新浪博客数据采集及导出
 1)点击左上角的“保存”,然后点击“开始采集”。

最近更新

学习雷锋传递正能量作文 2页

小国寡民的城邦3 25页

皮肤微生态环境与丘疹关系-深度研究 35页

对外汉语教师减少跨文化非语言交际失误的对策.. 3页

母函数在概率论中的应用-深度研究 35页

2025年甘肃省天水市单招职业倾向性测试题库审.. 62页

管道工程绿色施工-深度研究 35页

量子通信在航天中的应用-第1篇-深度研究 27页

2025年一年级数学上册看图列式计算汇总 4页

《十万个为什么》读后感500字精选大全 4页

2025年中医内科学内经模拟试卷8讲解学习 8页

家庭经济能力对生育二胎意愿的影响分析 3页

学习情景一微电子加工环境 21页

室内环境下基于最优路径规划的PSO-ACO融合算法.. 3页

客运专线车站到发线运用多目标优化模型 3页

心理服务监管技术革新-深度研究 35页

实验教学中擂台小车的设计与研究 3页

2025年东掘进巷道过地质破碎带安全技术措施 2页

中专生求职信模板参考 2页

峨眉的春天作文800字 3页

知识竞赛作文600字 10页

毕业离别赠言大全 6页

读《伴我行走的火把》有感500字 3页

2025年湖南省常德市单招职业倾向性测试题库含.. 63页

《小狗钱钱》读后感2100字 6页

最与众不同的是自己450字 3页

2025年苏科版六年级下册《劳动》全一册全部教.. 31页

安徽单招职业技能测试计算机试题 完整版2025 25页

2025年二建机电学习材料 5页

英语手写衡水体字帖范文 5页