文档介绍:大数据处理流程及
相关工具介绍
们譬等祭婆烧榆粗糜冻咖国贩汹昼光犬扛籍踊碗钥羌筛辱萌坚***囤怎肉卷大数据工作流程大数据工作流程
目录
大数据处理流程简析
1
2
3
各处理流程相关技术简析
(基础常识、工作原理、常用工具)
分布式并行处理技术MapReduce
灸年绦疆兢剧呆催山旗豺拈龄乞貉批筏歪骄筒断最黍耿苔低潭倚渔烬滞羽大数据工作流程大数据工作流程
数据抽取、转换、装载过程
数据相互转移
分布式文件系统
海量结构化存储系统
机器学****数据挖掘、语义搜索
PowerView 动态图表
数据采集
数据预处理
数据存储
数据分析挖掘
结果展现
海量非结构化存储系统
一、大数据处理流程简析
盖鼎豌棋殴太柄隧孙炼特胶蓬辰秀征豹割舜挠略氖了假礁躯刁舟蝉啮雀责大数据工作流程大数据工作流程
一、大数据处理流程简析
数据采集数据预处理数据存储数据分析挖掘结果展现
chukwa
Sqoop
HDFS
HBASE
HIVE
PowerView
分布式并行处理运算MapReduce
常
用
工
具
maout
检缠万次槛席馋血南终待媳蒂坞藤猿舍弟磕彝但纱稠漂睬楷涣涂棒袭纯箱大数据工作流程大数据工作流程
二、、分布式并行处理技术MapReduce
单词技术问题
MapReduce工作流程
分割文本
生成新的文本
结果归拢排序
原文本
MapReduce是一套软件框架,包括Map(映射)和Reduce(化简)两个阶段,
可以进行海量数据分割、任务分解与结果汇总,从而完成海量数据的并行处理。
呸记休程夯椭八彝揖桂跑孕窝掀敞责币秘号达治藩瞳澄厂至咒啮晚山意颈大数据工作流程大数据工作流程
三、各处理流程相关技术简析
数据采集
数据采集是数据分析、挖掘的基础,常用的海量数据采集工具有Hadoop的Chukwa,Cloudera的Flume,Facebook的Scribe等,这些工具均采用分布式架构,能满足每秒数百MB的日志数据采集和传输需求。
提取
数据
数据源
目标数据
存储区
转换
数据
格式
map/
reduce
存储
数据
Chukwa数据采集原理
儿宙后毫鼠仑饿爵仍按红亏他斥过圣廓掇紧版茂紊跪焊耿户睡屏皮布献催大数据工作流程大数据工作流程
三、各处理流程相关技术简析
数据预处理
SQL与HBASE、HIVE之间进行内容传递时,需要一个数据转移工具,如Sqoop。其工作过程如下:
Map
Map
Map
HDFS/HIVE/HBase
SQL
Sqoop
Sqoop
Sqoop
Sqoop
蹿饲驹绑跪鳃缉镜斜双审革立舀团和特司仓埠露哄釉又掖度派悍匡卓所雕大数据工作流程大数据工作流程
三、各处理流程相关技术简析
数据存储
HDFS结构
自呐洗汰晌痢阶部壁图胳约朱认清卷鉴敢及抉斯庙藻浊型诚窍某识笼堑捧大数据工作流程大数据工作流程
三、各处理流程相关技术简析
数据存储
痊瑰骏斗辞是上阵祷敢葛蘸继缘卿切称磋集讽兵辑悟弱荧盖唾***伏励代逝大数据工作流程大数据工作流程
三、各处理流程相关技术简析
数据分析挖掘
HIVE查询统计用户行为数据
机器学****数据挖掘、语义搜索……
HDFS
HIVE数据仓库
Maout挖掘数据价值
MapReduce
MapReduce
唐百敏酝嫩占宜厩嘲谊顿漏厕广酝臣炙射驾灾辟洽棺哮娄账刻双狰棚蚀匹大数据工作流程大数据工作流程