1 / 82
文档名称:

HadoopMPP技术介绍对比与应用.docx

格式:docx   大小:2,511KB   页数:82页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

HadoopMPP技术介绍对比与应用.docx

上传人:qiang19840906 2018/1/14 文件大小:2.45 MB

下载得到文件列表

HadoopMPP技术介绍对比与应用.docx

相关文档

文档介绍

文档介绍:大数据技术介绍(Hadoop与MPP部分,包含与传统技术的区别)
版本号:
目录
1 概述 5
大数据及大数据技术 5
引入大数据的意义 5
术语、定义和缩略语 5
2 大数据技术的引入 6
传统数据仓库数据特征 7
大数据技术应用场景 8
Hadoop与MPP与传统数据库技术对比与适用场景 8
3 Hadoop实施指导意见 9
应用场景 9
前期方案设计阶段的建议 10
对Hadoop软件选择的建议 10
所需硬件设备建议 13
组网方式建议 15
规划节点规模时需要考虑的因素 18
建设过程中的建议 19
对压缩的考虑 19
HBase设计 20
参数设置建议 21
系统调优 26
上线前注意事项 31
上线后效果评估 32
运维阶段的建议 32
任务调度 33
监控管理 33
告警管理 34
部署管理 34
配置管理 34
安全管理 34
日志管理 35
组织和培训建议 35
人员安排建议 36
培训建议 36
4 MPP数据库指导意见 37
应用场景 37
数据集市 37
数据分级存储(历史库或者明细库) 37
ETL 38
小结 39
前期方案设计阶段的建议 39
软件平台选型建议 39
容量评估方法建议 41
网络评估方法建议 41
建设过程中的建议 42
数据分布规划 42
故障与恢复策略规划 44
运维阶段的建议 45
系统监控 45
告警管理 45
SQL监控 46
备份恢复 46
安全及权限控制 46
扩容及数据重分布 46
开发工具 47
组织和培训建议 47
5 系统集成建议 47
数据互通的建议 48
方式分析 48
技术实现 48
统一管理 49
透明访问 50
6 附录A-大数据技术介绍 51
Hadoop及生态圈 51
Hadoop 简介 51
Hadoop生态圈系统 58
特性 60
特性 61
Hadoop选型 63
Hadoop HA 方案对比 64
MPP数据库 67
数据库架构风格 67
MPP数据库基本架构 68
MPP数据库主要运行机制 69
MPP平台技术规范和要点 70
X86服务器平台 71
网络 72
InfiniBand 72
万兆网 75
千兆网 76
适用场景 76
硬盘 77
硬盘类型介绍 77
硬盘比较分析 77
硬盘选购建议 78
虚拟化 79
概念 79
虚拟化技术介绍 80
适用场景 80
概述
大数据及大数据技术
大数据(Big Data)的定义众说纷纭,从技术讲上它通常具备数据量大(volume)、数据类型多(variety)和数据处理和响应速度快(velocity)的特征。麦肯锡定义大数据为超过了常规数据库软件所能搜集/存储/管理和分析的规模的数据集。大数据处理技术可以认为是处理大数据以便从中获取价值的技术。大数据及其技术正在影响着IT产业,利用Hadoop和关系数据库混搭来解决大数据难题是当前通常采用的方法。
引入大数据的意义
引入原则
传统数据仓库系统已经建设运营十年,新技术的引入不能影响原有的使用感知,需要按照分阶段逐步引入的方式。可以参考如下的几个引入原则:
1、先增量后存量。现有的数据处理系统引入大数据处理技术,面临着模型改造、流程改造等一系列的问题,可以首先在新上线应用引入大数据处理技术。
2、先边缘后核心。对于原有功能的迁移,可以先迁移非关键的应用。这些应用不涉及到关键生产任务,可以忍受数据处理延迟和故障修复时间较高等可能出