1 / 16
文档名称:

八爪鱼产品使用手册.docx

格式:docx   大小:260KB   页数:16页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

八爪鱼产品使用手册.docx

上传人:plm860108 2018/6/30 文件大小:260 KB

下载得到文件列表

八爪鱼产品使用手册.docx

文档介绍

文档介绍:八爪鱼产品使用手册
目录
1 关于八爪鱼 1
2 Cookie (更多内容详见Cookie 视频) 1
Cookie诞生 1
Cookie概述 1
Cookie工作原理 1
3 Xpath、Html 2
Xpath、Html概念 2
Html结构 2
Html标签、元素、节点 3
Html常见标签 3
Html常见属性 4
Xml、Xpath、Html关系和区别 4
4 常见问题 5
5 常见软件操作教程 6
采集单个网页 7
采集单个列表页面 7
单网页表格信息采集 7
采集单网页列表详细信息 7
采集分页列表 7
采集分页列表详细信息 7
采集分页列表+ajax延时设置 7
单个文本输入及各种登录方式采集 7
Cookie登录 7
文本循环输入 7
循环切换下拉框 7
xpath入门1 7
xpath入门2 7
一二页重复循环采集 7
关于八爪鱼
八爪鱼·大数据,通过自主创新研发,以分布式云平台架构为产品核心,帮助客户通过在极短的时间内,通过简单操作即可获取想要的数据,并以结构化数据展示,为企业数据挖掘与数据分析提供基础数据源。于2015年1月,获得国家重点软件企业上市公司“拓尔思”投资。
Cookie (更多内容详见Cookie 视频)
Cookie诞生
当某个用户打开浏览器发出页面请求时,web服务器只是进行简单相应,然后就关闭与该用户的连接。所以当用户每发起一个打开网页请求到web服务器的时候,无论是否是第一次打开同一个网页,web服务器都会把这个请求当作第一次来对待,那这样的缺陷可想而知,比如每次打开登录页面的时候都需要输入用户名、密码。为了弥补这个缺陷,Cookie应运而生。
Cookie概述
Cookie就是服务器暂时存放在你计算机上的一笔资料,好让服务器来辨认你的计算机。当你在浏览网站的时候,web服务器会先送出小小资料放在你的计算机上,cookie会帮你在网站上所打的文字(如用户名、密码)和其他一些操作都记录下来。当下次你再打开同一个网站。web服务器会先看看有没有它上次留下的cookie资料,有的话就会依据cookie的内容来判断使用者,送出特定的网页内容给你。
Cookie工作原理
Xpath、Html
Xpath、Html概念
Xpath:是一种路径查询语言,简单的说就是利用一个路径表达式找到我们需要的数据位置。
Html:超文本标记语言,是用来描述网页的一种语言。主要用于控制数据的显示和外观。HTML文档也被称为网页。
Xpath专用于xml中沿着路径查找数据用的,但是八爪鱼采集器内部有一套针对Html的Xpath引擎,使得直接用Xpath就能精准的查找定位网页里面的数据。
Html结构
完整的HTML文件至少包括<HTML>标签、<HEAD>标签、<TITLE>标签和<BODY>标签,并且这些标签都是成对出现的,开头标签为<>,结束标签为</>,在这两个标签之间添加内容。通过这些标签中的相关属性可以设置页面的背景色、背景图像等。
Html标签、元素、节点
Html常见标签

Html常见属性
Xml、Xpath、Html关系和区别
Xml和Html之间既有相似之处,又有很大区别。Xml包含数据和对数据的描述,主要用来交换数据。Html也包含了数据和对数据的描述,但只是针对描述网页这种用途,Html结构看起来和Xml类似,但并不严格遵循Xml标准,可以看做不标准的Xml。
Xpath是专门针对Xml设计的,在复杂结构化数据中查找信息的语言,而我们的网页实质上是Html的文档,那如何对网页执行Xpath查询呢?八爪鱼采集器内部有一套针对Html的Xpath引擎,使得直接用Xpath就能精准的查找定位网页里面的数据。
常见问题
Q:八爪鱼采集器有免费版吗?
A:八爪鱼采集器免费版所有功能都可以使用。
Q:,如何打开?
A:.otd文件是八爪鱼采集器的规则文件(类似于ppt模板),下载后使用八爪鱼采集器运行即可采集数据,但必须安装八爪鱼采集器才能打开。免费下载八爪鱼采集器
Q:八爪鱼采集器能采集匿名账户信息吗?
A:如果你没有权限查看匿名的数据就不可以,八爪鱼可以代替人工更加自动和智能的收集数据,但不会协助你收集你没有权限浏览的数据,比如别人的密码等隐私数据。
Q:八爪鱼采集器能采集别人的后台数据吗?
A:不能采集,后台数据需要有后台访问权限