文档介绍:大数据技术介绍(Hadoop与MPP部分,包含与传统技术的区别)版本号: 4大数据及大数据技术 4引入大数据的意义 4术语、定义和缩略语 4大数据技术的引入 5传统数据仓库数据特征 6大数据技术应用场景 6Hadoop与MPP与传统数据库技术对比与适用场景 7Hadoop实施指导意见 8应用场景 8前期方案设计阶段的建议 9对Hadoop软件选择的建议 9所需硬件设备建议 12组网方式建议 13规划节点规模时需要考虑的因素 17建设过程中的建议 18对压缩的考虑 18332 HBase设计 19参数设置建议 20系统调优 25上线前注意事项 30上线后效果评估 31运维阶段的建议 31任务调度 32监控管理 32告警管理 32部署管理 33配置管理 33安全管理 33日志管理 34组织和培训建议 34人员安排建议 34培训建议 35MPP数据库指导意见 35应用场景 36数据集市 36数据分级存储(历史库或者明细库). 36ETL 37小结 37前期方案设计阶段的建议 38软件平台选型建议 38容量评估方法建议 39网络评估方法建议 40建设过程中的建议 41数据分布规划 41故障与恢复策略规划 43运维阶段的建议 44系统监控 44告警管理 44443 SQL监控 44备份恢复 45安全及权限控制 45扩容及数据重分布 45开发工具 45组织和培训建议 46系统集成建议 46数据互通的建议 46方式分析 46技术实现 47统一管理 48透明访问 49附录A-大数据技术介绍 49Hadoop及生态圈 49Hadoop简介 49Hadoop生态圈系统 60Hadoop选型 62HadoopHA方案对比 62MPP数据库 66数据库架构风格 66MPP数据库基本架构 67MPP数据库主要运行机制 68MPF平台技术规范和要点 69X86服务器平台 70网络 71InfiniBand 71万兆网 73千兆网 74适用场景 75硬盘 76硬盘类型介绍 76硬盘比较分析 76硬盘选购建议 77虚拟化 78概念 78虚拟化技术介绍 78适用场景 (BigData)的定义众说纷纭,从技术讲上它通常具备数据量大 (volume)、数据类型多(variety)和数据处理和响应速度快(velocity)的特征。麦肯锡定义大数据为超过了常规数据库软件所能搜集 /存储/管理和分析的规模的数据集。 大数据处理技术可以认为是处理大数据以便从中获取价值的技术。大数据及其技术正在影响着 IT产业,利用Hadoop和关系数据库混搭来解决大数据难题是当前通常采用的方法。, 新技术的引入不能影响原有的使用感知, 需要按照分阶段逐步引入的方式。可以参考如下的几个引入原则:1、 先增量后存量。现有的数据处理系统引入大数据处理技术,面临着模型改造、流程改造等一系列的问题,可以首先在新上线应用引入大数据处理技术。2、 先边缘后核心。对于原有功能的迁移,可以先迁移非关键的应用。这些应用不涉及到关键生产任务,可以忍受数据处理延迟和故障修复时间较高等可能出现的风险。3、 先简单后复杂。数据处理逻辑较简单的应用也可以首先尝试引入大数据处理技术,降低实施的复杂度,积累运维经验。通过在大数据处理技术的规划、实施及运维过程中积累经验及教训, 不断提升和完善大数据技术的应用水平,逐步拓展大数据技术应用领域。、定义和缩略语名词解释Hadoop一个开源的分布式系统基础架构,由 Apache基金会开发。基于Hadoop框架,用户可以方便的开发分布式程序,充分利用集群的威力高速运算和存储。MapReduceMapReduce是Hadoop一种并行计算框架,用于大规模数据集的并行运算,其缩略语为MRHive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为数据库表,并提供常用的 SQL支持。Hive查询引擎将SQL语句转换为Hadoop平台的MapReduce任务运行。Key-value键值对,其缩略语为 K-V。K-VStoreKey-Value存储引擎,业界使用广泛的有 GoogleBigTable和ApacheHBaseCassandra、MangoDB等。K-VStore系统是经典的NoSQL实现,与传统的关系型数据库相比,目前不支持 SQL语言查询、事物、回滚等复杂机制。基于K-VStore开发的应用,其数据表设计模式也与基于关系型数据库的开发有显著区别。由于 K-VStore模型简单,可靠性咼,易于扩展,在互联网、大数据领域有非常广泛的应用。JDBCJava数据库连接MPP数据库Massive