1 / 13
文档名称:

大数据项目技术选型初稿.doc

格式:doc   大小:713KB   页数:13页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

大数据项目技术选型初稿.doc

上传人:2028423509 2018/11/30 文件大小:713 KB

下载得到文件列表

大数据项目技术选型初稿.doc

相关文档

文档介绍

文档介绍:目录结构
主流架构选用技术
Hadoop版本选型方案
选用的技术与其他工具的对比
大数据相关的技术选型版本确定
市场上的hadoop发行版厂商资料
具体操作
一、主流架构选用技术:
采集层:flume;sqoop
存储层:包括文件存储层和数据存储层
文件:采用hdfs存储
数据:采用hbase,redis等
模型层:离线处理:mr/yarn;实时流式处理spark streaming(比storm的优势)
分析层:hive
管理层:zookeeper(调度;ha)
Hadoop版本选型方案:
Hadoop提供的经典方案:HDP(Hadoop Data Platform)
管理一体化数据接入
Flume Script SQL Nosql Stream Search In-Memory Others
Sqoop Pig Hive Hbase Storm Solr Spark YARN-Ready Apps
NFS --------------------------------------------------------------------------------------------------------
WebHDFS YARN
Falcon --------------------------------------------------------------------------------------------------------
HDFS
---------------------------------------------------------------------------------------------------------
数据管理
三、选用的技术与其他工具的对比:
选用sqoop的好处:开源,抽取的数据可以直接传至hive,可操作性和可视性高
选用Flume的好处:纯Java开发,框架分明,易于开发,可以直接写hdfs且支持对text和sequence压缩
选用Spark的好处:基于内存,适合需要多次迭代计算的算法,在迭代处理计算方面比Hadoop快100倍以上,Spark采用一个统一的技术堆栈解决了云计算大数据的所有核心问题
安全操作
认证,授权,审计,数据保护准备,管理,监控
Storage:HDFS Ambari
Resource:YARN Zookeeper
Access:Hive Oozie
Pipeline:Falcon
Cluster:Knox
Hue的好处:多应用平台,便捷的操作流程;自动补全;查询结果表格化图像化
大数据相关的技术选型版本确定:
操作系统:
各个技术版本:(最新,最稳定,bug少)
Hadoop版本:hadoop-
此版本是一个相对最新且比较稳定的版本,基数版本可能不稳定,最好选用偶数版本
Zookeeper版本:zookeeper-
此版本修复了此前的9个问题,最明显的是在关闭zookeeper时会产生的一个停顿问题。
Flume 版本:apache-flume--
Kafka版本:-
http://kafka./082/
Spark版本:spark--bin-

Sqoop版本:sqoop---
Hive版本:apache-hive--
Hbase版本:hbase--
Mahout版本:apache-mahout-distribution-
五、市场上的hadoop发行版厂商资料:
版本:除了社区的 Apache Hadoop 外, Cloudera , Hortonworks , MapR , EMC , IBM , Intel , 华为等都提供了自己的商业版本。
版本
内容
特点
网址
Cloudera
CDH包括HDFS、YARN、HBase、MapReduce、Hive、Pig、Zookeeper、Oozie、Mahout、Hue和其他开源工具(包括实时查询引擎——Impala)。
CDH完全开源,比 Apache Hadoop 在兼容性,安全性,稳定性上有所增强;Clouder

最近更新

2024年第一年工作计划模板集合五篇 15页

2024年端午节高中作文 24页

2020高考物理一轮复习 专题5-5 卫星的发射和回.. 11页

2022年注册会计师《会计》试题及答案(新版)71.. 5页

2023届四川省成都市新都区中考考前最后一卷物.. 16页

2023年学前教育宣传月活动总结报告四篇 11页

2024年武汉地区十一校中考语文模拟试题含解析.. 15页

2024年立面租赁合同范本 19页

《发酵工程原理与技术》习题集 13页

【中考真题】2021年吉林省长春市中考生物试卷.. 22页

2024年空间的经典心情说说 8页

中华人民共和国海事局关于印发《船舶能耗数据.. 4页

2024年稻草人读书笔记(精选22篇) 25页

2024年税务主管岗位的岗位职责(18篇) 13页

2024年程序员工作总结通用15篇 43页

2024年秦时明月语录 8页

2024年租房合同范本优秀[15篇] 37页

古建筑木结构施工方案 5页

四年级下学期环境教育试题一 28页

基于matlab的车牌识别系统的设计与实现剖析 22页

建筑排水用硬聚氯乙烯(PVC-U)管材检测报告及原.. 4页

房地产年度推广计划(3篇) 20页

数学史试题及答案 17页

沈阳市中级人民法院关于上诉案件移送管理若干.. 14页

《2023年度中国在线旅游市场数据报告》发布 3页

箱式变压器安装方案 3页

2022高考全国1卷物理试题及答案 10页

2、国家重点研发计划资金管理使用常见问题问答.. 22页

川崎病的护理查房课件 26页

2020年12月英语四级真题第2套 8页