文档介绍:可视化爬虫八爪鱼使用方法
市面上有很多的爬虫工具,但是真正强大又好用的没几个,一般我们都是用“八爪鱼”免费工具来轻松抓取那些可见的网页内容,抓取的流程也可以可视化展示出来,就是这么神奇。
今天就给大家介绍一款免费可视化爬虫八爪鱼使用方法,本文介绍使用八爪鱼采集新浪博客的文章。
采集网站:
http://blog./s/ 
采集的内容包括:博客文章正文,标题,标签,分类,日期。
步骤1:创建新浪博客文章采集任务
1)进入主界面,选择“自定义采集”
2)将要采集的网址URL复制粘贴到网站输入框中,点击“保存网址”
 
步骤2:创建翻页循环
1)打开网页之后,打开右上角的流程按钮,使制作的流程可见状态。点击页面下方的“下一页”,如图,选择“循环点击单个链接”,翻页循环创建完成。(可在左上角流程中手动点击“循环翻页”和“点击翻页”几次,测试是否正常翻页。)
 
2)由于进入详情页时网页加载很慢,网址一直在转圈状态,无法立即执行下一个步骤,因此在“循环翻页”的高级选项里设置“ajax加载数据”,超时时间设置为5秒,点击“确定”。
 
 
步骤3:创建列表循环
1)鼠标点击列表目录中第一个博文,选择操作提示框中的“选中全部”。
 
2)鼠标点击“循环点击每个链接”,列表循环就创建完成,并进入到第一个循环项的详情页面。
 
 
由于进入详情页时网页加载很慢,网址一直在转圈状态,无法立即执行下一个步骤,因此在“点击元素”的高级选项里设置“ajax加载数据”,AJAX超时设置为3秒,点击“确定”。
 
3)数据提取,接下来采集具体字段,分别选中页面标题、标签、分类、时间,点击“采集该元素的文本”,并在上方流程中修改字段名称。
 
 
鼠标点击正文所在的地方,点击提示框中的右下角图标,扩大选项范围,直至包括全部正文内容。(笔者测试点击2下就全部包括在内了)
 同样选择“采集该元素的文本”,修改字段名称,数据提取完毕。
 4)由于该网站网页加载速度非常慢,所以可在流程各个步骤的高级选项里设置“执行前等待”几秒时间,也可避免访问页面较快出现防采集问题。设置后点击“确定”。
 
步骤4:新浪博客数据采集及导出
 1)点击左上角的“保存”,然后点击“开始采集”。