1 / 16
文档名称:

大数据项目技术选型初稿综述.docx

格式:docx   大小:700KB   页数:16页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

大数据项目技术选型初稿综述.docx

上传人:分享精品 2017/8/5 文件大小:700 KB

下载得到文件列表

大数据项目技术选型初稿综述.docx

相关文档

文档介绍

文档介绍:目录结构
主流架构选用技术
Hadoop版本选型方案
选用的技术与其他工具的对比
大数据相关的技术选型版本确定
市场上的hadoop发行版厂商资料
具体操作
一、主流架构选用技术:
采集层:flume;sqoop
存储层:包括文件存储层和数据存储层
文件:采用hdfs存储
数据:采用hbase,redis等
模型层:离线处理:mr/yarn;实时流式处理spark streaming(比storm的优势)
分析层:hive
管理层:zookeeper(调度;ha)
Hadoop版本选型方案:
Hadoop提供的经典方案:HDP(Hadoop Data Platform)
管理一体化数据接入
Flume Script SQL Nosql Stream Search In-Memory Others
Sqoop Pig Hive Hbase Storm Solr Spark YARN-Ready Apps
NFS --------------------------------------------------------------------------------------------------------
WebHDFS YARN
Falcon --------------------------------------------------------------------------------------------------------
HDFS
---------------------------------------------------------------------------------------------------------
数据管理
三、选用的技术与其他工具的对比:
选用sqoop的好处:开源,抽取的数据可以直接传至hive,可操作性和可视性高
选用Flume的好处:纯Java开发,框架分明,易于开发,可以直接写hdfs且支持对text和sequence压缩
选用Spark的好处:基于内存,适合需要多次迭代计算的算法,在迭代处理计算方面比Hadoop快100倍以上,Spark采用一个统一的技术堆栈解决了云计算大数据的所有核心问题
安全操作
认证,授权,审计,数据保护准备,管理,监控
Storage:HDFS Ambari
Resource:YARN Zookeeper
Access:Hive Oozie
Pipeline:Falcon
Cluster:Knox
Hue的好处:多应用平台,便捷的操作流程;自动补全;查询结果表格化图像化
大数据相关的技术选型版本确定:
操作系统:
各个技术版本:(最新,最稳定,bug少)
Hadoop版本:hadoop-
此版本是一个相对最新且比较稳定的版本,基数版本可能不稳定,最好选用偶数版本
Zookeeper版本:zookeeper-
此版本修复了此前的9个问题,最明显的是在关闭zookeeper时会产生的一个停顿问题。
Flume 版本:apache-flume--
Kafka版本:-
http://kafka./082/
Spark版本:spark--bin-

Sqoop版本:sqoop---
Hive版本:apache-hive--
Hbase版本:hbase--
Mahout版本:apache-mahout-distribution-
五、市场上的hadoop发行版厂商资料:
版本:除了社区的 Apache Hadoop 外, Cloudera , Hortonworks , MapR , EMC , IBM , Intel , 华为等都提供了自己的商业版本。
版本
内容
特点
网址
Cloudera
CDH包括HDFS、YARN、HBase、MapReduce、Hive、Pig、Zookeeper、Oozie、Mahout、Hue和其他开源工具(包括实时查询引擎——Impala)。
CDH完全开源,比 Apache Hadoop 在兼容性,安全性,稳定性上有所增强;Clouder