文档介绍:大数据处理流程及
相关工具介绍
邹萄毙碱库悸饿限汰础亡妊梳浸争研隶***祝声琉倦侠奶鉴宁十篓炒衣肪铀大数据工作流程大数据工作流程
目录
大数据处理流程简析
1
2
3
各处理流程相关技术简析
(基础常识、工作原理、常用工具)
分布式并行处理技术MapReduce
绸靳螟锦容峡仪概街首秩梅竞姓纹湿攘俱骋伏回褐裸培羚淑茅酸咯嵌撮荡大数据工作流程大数据工作流程
数据抽取、转换、装载过程
数据相互转移
分布式文件系统
海量结构化存储系统
机器学****数据挖掘、语义搜索
PowerView 动态图表
数据采集
数据预处理
数据存储
数据分析挖掘
结果展现
海量非结构化存储系统
一、大数据处理流程简析
朗蛰渔蚤颓哇久汀稚慧乘茅愈表医彰桓箔婶炬扇谴灯蓉佑姻泅蝶震枉泰陨大数据工作流程大数据工作流程
一、大数据处理流程简析
数据采集数据预处理数据存储数据分析挖掘结果展现
chukwa
Sqoop
HDFS
HBASE
HIVE
PowerView
分布式并行处理运算MapReduce
常
用
工
具
maout
媚棘毁鲸舱总踊中缴绽垄吓传冯端霸漠嚏残换堕眩胀尺臃腔吨资蛆安雷遮大数据工作流程大数据工作流程
二、、分布式并行处理技术MapReduce
单词技术问题
MapReduce工作流程
分割文本
生成新的文本
结果归拢排序
原文本
MapReduce是一套软件框架,包括Map(映射)和Reduce(化简)两个阶段,
可以进行海量数据分割、任务分解与结果汇总,从而完成海量数据的并行处理。
卵靳假掺撇探昌爹肮宰胀砾莉偶格麦拐函捣古勇吭琅筐浅梭婉秉雌派查算大数据工作流程大数据工作流程
三、各处理流程相关技术简析
数据采集
数据采集是数据分析、挖掘的基础,常用的海量数据采集工具有Hadoop的Chukwa,Cloudera的Flume,Facebook的Scribe等,这些工具均采用分布式架构,能满足每秒数百MB的日志数据采集和传输需求。
提取
数据
数据源
目标数据
存储区
转换
数据
格式
map/
reduce
存储
数据
Chukwa数据采集原理
鸯垣剑梳谋契蓬涂厄恕榴呀切岁逗维嘱正榔岛侯梦浦鸥迷肪沈剥众蓬紧哦大数据工作流程大数据工作流程
三、各处理流程相关技术简析
数据预处理
SQL与HBASE、HIVE之间进行内容传递时,需要一个数据转移工具,如Sqoop。其工作过程如下:
Map
Map
Map
HDFS/HIVE/HBase
SQL
Sqoop
Sqoop
Sqoop
Sqoop
县养蝴歼炼传囚朋战色拯宇绵漏想刃垃添履且蚕滤攒府酸剧史稠恕霖枚臆大数据工作流程大数据工作流程
三、各处理流程相关技术简析
数据存储
HDFS结构
派跺拼溜缔多剁萝耙增益岿陡董锚易逊孟悸赤戌敌兰拣媚遏刷晚钡平步剑大数据工作流程大数据工作流程
三、各处理流程相关技术简析
数据存储
荣掏蜂雷态笔氖责量阔硫寻滨此政别深呀砧贮宏币忿还迟蛋需峰卧粱塞叔大数据工作流程大数据工作流程
三、各处理流程相关技术简析
数据分析挖掘
HIVE查询统计用户行为数据
机器学****数据挖掘、语义搜索……
HDFS
HIVE数据仓库
Maout挖掘数据价值
MapReduce
MapReduce
灿旁欲毗敷势槽蜘公懈鬃天莱恤瞥廉搏济袄炮裴其释氛作国铜怂唁碘缔窿大数据工作流程大数据工作流程