文档介绍:八爪鱼让数据触手可及
深圳视界信息技术有限公司
2017年04月
八爪鱼采集器
销售客服部
一、八爪鱼简介
二、采集器组成
三、简单示例
四、基本介绍
五、采集实例
目录
浏览器
八爪鱼
八爪鱼采集器,是一款通过模拟人去访问网页文档的互联网数据采集器,通过设计流程操作,可以实现采集自动化,以达到快速的对网页数据进行收集整合,完成用户数据采集的目的。
原理:
八爪鱼原理
通常,我们将一个采集任务称为一个规则。规则是八爪鱼采集器的核心组成部分,我们将八爪鱼的组成按规则进行划分,可以分为以下几种:
一、任务列表:
任务列表,是指八爪鱼采集器中编辑的任务,编辑好的任务可以直接从等待状态进行执行状态
二、任务规则:
任务规则,就是指根据特定的网页,按人用浏览器去访问网页的过程制定好的自动化任务程序,一般来说,一个类型相似的网站对应一个任务规则
三、任务状态:
1)任务生命周期:可执行状态、等待状态、运行中状态、已完成状态、已停止状态
2)运行中状态:1)本地采集状态、云采集状态
八爪鱼采集器组成
一、打开网页:
打开网页,一般指我们所要采集数据的网站,正如平时我们浏览该网站的数据信息时需要输入URL一样
二、循环翻页:
循环翻页,指一般我们需要快速收集整合时,是需要做到翻页循环的,循环翻页的本质是一个单个元素的循环
三、提取数据
正式的采集步骤
四、点击元素
循环本身是不会有任何执行操作的,如果要实现循环翻页,则需要一个点击元素来和循环产生联动
流程设计简单示例
一、设置基本信息:
此处用于填写规则名称与规则备注
二、设计工作流程:
此处用于设计任务规则的自动化流程步骤,例如:你要让该任务打开哪一个网页,做哪些步骤等都在设计工作流程中完成,设计工作流程是一个任务规则的核心步骤
三、设置执行计划:
此处你可以设置任务规则的相关选项,例如:禁止浏览器加载图片、云采集不拆分任务、启动增量采集等
四、任务启动选择:
如果规则编写正确,此处你就可以启动一个任务规则的生命周期了,此时如果编辑正确,任务应该处于可执行状态
规则介绍
流程设计步骤:
在八爪鱼采集器中,一共有11个流程设计操作,其中分为基本步骤和进阶步骤,划分为以下:
基本步骤:
基本步骤本身是应用较多的流程设计操作,通常来说,要实现一个网页的数据快 速整理与采集,这些步骤是必不可少的,基本步骤如下:
1)打开网页
2)点击元素
3)循环
4)提取数据
进阶步骤:
进阶步骤,是指除基本步骤外,我们需要通过下列操作来辅助完成我们的数据采集,例如:有时候我们采集的数据需要先输入文本才能进行采集,进阶步骤如下:
1)输入文字
2)识别验证码
3)切换下拉选项
4)判断条件
5)移动鼠标到元素上
6)结束循环
7)结束流程
流程设计步骤