1 / 18
文档名称:

暴风数据平台简介.ppt

格式:ppt   页数:18页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

暴风数据平台简介.ppt

上传人:ranfand 2016/3/25 文件大小:0 KB

下载得到文件列表

暴风数据平台简介.ppt

相关文档

文档介绍

文档介绍:暴风数据平台简介暴风平台研发组赵修湘基于 hadoop 的数据平台总体架构数据平台之 IUPushRsync ? IUPushRsync 程序利用 rsync -U 命令对日志文件进行增量式同步,其优点在于: 1)准实时数据压缩传输(降低宽带占用); 2)数据完整性检验数据平台之 Hload ? Hload 程序主要实现将日志文件拷贝到 hadoop 集群,支持 lzo 压缩和失败恢复数据平台之 HCRush ? HCRush 程序是一个基于 mapred 的、通用的日志清洗框架。其优点在于: 1)日志清洗配置化(在添加新的日志清洗业务和修改清洗规则时,只需要修改配置文件,不需要修改主程序); 2)利用了 hadoop 的强大运算能力; 3)失败恢复功能 ETL ? ComETL 程序实现将 hive 数据仓库中的数据,根据 hql 语句规则,提取到目标 mysql 数据库中,并针对特定类型的查询进行优化。优化案例: daily5 统计业务,优化前需要执行上百个 hql 查询,总花费时间约为 2小时, 优化后只需执行 2个 hql 查询,总花费时间约为十分钟。数据平台之 FileMonitor 和 DwMonitor ? FileMonitor 实现对采集层和汇聚层的日志监控? DwMonitor 实现对数据仓库层( hive )的日志监控 hadoop 云计算平台是什么 Hadoop 是一个能够对 PB 级数据进行分布式并行处理的软件框架。 hadoop 能够同时提供数据存储和运算上的备份,并提供多种数据访问和运算接口: mapred 编程框架、 hive 数据仓库(类似于 MySQL )、 pig 数据流编程语言、 fuse (将 HDFS 文件系统挂载成普通文件系统) 数据平台之 hadoop 数据量持续增长分析能力不够大量的重复工作无法分析长时间的数据缺乏对数据分析的工具服务器负载不均衡为什么我们需要 hadoop ……数据平台之 hadoop ??轻松处理轻松处理 100G 100G 数据量,大量数据量,大量的中间件的中间件 pig/hive pig/hive 减少分析人减少分析人员自行编写脚本的数据员自行编写脚本的数据 HADOOP 集群优点??热插拔节点对集群的存储和热插拔节点对集群的存储和计算无影响计算无影响??有着上千台节点的成功应用有着上千台节点的成功应用案例案例数据平台之 hadoop