1 / 46
文档名称:

大数据技术原理与操作应用-第8章 Flume日志采集系统.ppt

格式:ppt   大小:2,485KB   页数:46页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

大数据技术原理与操作应用-第8章 Flume日志采集系统.ppt

上传人:Q+1243595614 2021/1/21 文件大小:2.43 MB

下载得到文件列表

大数据技术原理与操作应用-第8章 Flume日志采集系统.ppt

文档介绍

文档介绍:第8章 Flume日志采集系统
· Flume的可靠性保证
· Flume***
· 案例——日志采集
· Flume概述
· Flume的基本使用
· Flume采集方案配置说明
✎ 学****目标
了解Flume的概念
与作用
1
2
熟悉Flume的运行机制和可靠性保证
掌握Flume的基本使用方法和安装部署
3
了解
熟悉
熟悉
掌握
4
熟悉案例——日志采集的编写
本章将针对Flume系统的基本概念、安装及应用方式详细讲解,让读者掌握Flume系统的原理与应用。
章节概要
在大数据系统的开发中,数据收集工作无疑是开发者首要解决的一个难题,但由于生产数据的源头丰富多样,其中包含网站日志数据、后台监控数据、用户浏览网页数据等,数据工程师要想将它们分门别类的采集到HDFS系统中,就可以使用Apache Flume(数据采集)系统。
Flume介绍
Flume概述
Flume原是Cloudera公司提供的一个高可用的、高可靠的、分布式海量日志采集、聚合和传输系统,而后纳入到了Apache旗下,作为一个顶级开源项目。Apache Flume不仅只限于日志数据的采集,由于Flume采集的数据源是可定制的,因此Flume还可用于传输大量事件数据,包括但不限于网络流量数据、社交媒体生成的数据、电子邮件消息以及几乎任何可能的数据源。
Flume介绍
Flume运行机制
Flume的核心是把数据从数据源(例如Web服务器)通过数据采集器(Source)收集过来,再将收集的数据通过缓冲通道(Channel)汇集到指定的接收器(Sink)。
Flume 以 Agent 为最小的独立运行单位。 一个 Agent 就是一个 JVM。 单 Agent 由 Source、 Sink 和 Channel 三大组件构成,
Flume介绍
Flume Sources
在编写Flume采集方案时,首先必须明确采集的数据源类型、出处;接着,根据这些信息与Flume已提供支持的Flume Sources进行匹配,选择对应的数据采集器类型();再根据选择的数据采集器类型,配置必要和非必要的数据采集器属性,Flume提供并支持的Flume Sources种类如下所示。
Flume介绍
Flume Sources
监听Avro端口并从外部Avro客户端流中接收event数据,当与另一个Flume Agent上的Avro Sink配对时,可创建分层集合拓扑,利用Avro Source可以实现多级流动、扇出流、扇入流等效果,Avro Source常用配置属性如下。
属性名称
默认值
相关说明
channels

type

组件类型名需必须是avro
bind

要监听的主机名或IP地址
port

要监听的服务端口
threads

要生成的工作线程的最大数目
ssl
false
将此设置为true以启用SSL加密,则还必须指定“keystore”和“keystore-password”
keystore

SSL所必需的通往Java秘钥存储路径
keystore-password

SSL所必需的Java密钥存储的密码
Flume介绍
Flume Sources
Spooling Directory Source允许对指定磁盘上的文件目录进行监控来提取数据,它将查看文件的指定目录的新增文件,并将文件中的数据读取出来。
Spooling Directory Source常用配置属性如下表所示。
属性名称
默认值
相关说明
channels

type

组件类型名需必须是spooldir
spoolDir

从中读取文件的目录
fileSuffix
.COMPLETED
附加到完全摄取的文件后缀
deletePolicy
never
何时删除已完成的文件:never或immediate
fileHeader
false
是否添加存储绝对路径文件名的标头
includePattern
^.*$
正则表达式,指定要包含的文件
ignorePattern
^$
正则表达式指定要忽略的文件
Flume介绍
Flume Sources
Taildir Source用于观察指定的文件,几乎可以实时监测到添加到每个文件的新行。如果文件正在写入新行,则此采集器将重试采集它们以等待写入完成,Source常用配置属性如下所示。