1 / 100
文档名称:

Hadoop 大数据平台体系:马太航.pptx

格式:pptx   页数:100页
下载后只包含 1 个 PPTX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

Hadoop 大数据平台体系:马太航.pptx

上传人:yunde113 2015/5/12 文件大小:0 KB

下载得到文件列表

Hadoop 大数据平台体系:马太航.pptx

相关文档

文档介绍

文档介绍:Hadoop 大数据平台体系
UAP中心数据平台产品部
马太航
2013年4月20日
math@
Hadoop
Hadoop、版本、流处理、HDFS、MapReduce、文件结构、压缩存档、API
1
Hive 工作流程、API、模块组件、架构组件、HQL、元数据管理、CLI
2
Hbase 模块组件、DML、DDL、Client API、存储方式、性能优化
3
Zookeeper 处理机制、API、Zookeeper Shell、功能模块
4
Apache Pig 设计原理、API、关键字、综合案例、典型函数
5
Hadoop 简介
Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。简单地说来,Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。 Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性(fault-tolerent)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以流的形式访问(streaming access)文件系统中的数据。 下面列举hadoop主要的一些特点: 1 扩容能力(Scalable):能可靠地(reliably)存储和处理千兆字节(PB)数据。
2 成本低(Economical):可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。
3 高效率(Efficient):通过分发数据,hadoop可以在数据所在的节点上并行地(parallel)处理它们,这使得处理非常的快速。
4 可靠性(Reliable):hadoop能自动地维护数据的多份复制,并且在任务失败后能自动地重新部署(redeploy)计算任务。
流处理框架
S4
S4(Simple Scalable Streaming System)是Yahoo最新发布的一个开源流计算平台,它是一个通用的、分布式的、可扩展性良好、具有分区容错能力、支持插件的分布式流计算平台,在该平台上程序员可以很方便地开发面向无界不间断流数据处理的应用,开发语言为Java。
Storm
Storm是***开源的分布式实时计算系统,Storm通过简单的API使开发者可以可靠地处理无界持续的流数据,进行实时计算,开发语言为Clojure和Java,非JVM语言可以通过stdin/stdout以JSON格式协议与Storm进行通信。Storm的应用场景很多:实时分析、在线机器学****持续计算、分布式RPC、ETL处理,等等。
StreamBase
StreamBase是一个关于复杂事件处理(CEP)、事件流处理的平台。其本身是商业应用软件,但提供了Developer Edition,开发语言为Java。
HStreaming
HStreaming构建在Hadoop之上,可以和Hadoop及其生态系统紧密结合起来提供实时流计算服务。这使得HStreaming的用户可以在同一个生态系统中分析处理大数据,开发语言为Java。
流处理框架
Esper & NEsper
Esper是专门进行复杂事件处理(CEP)的流处理平台,Java版本为Esper,.Net版本为NEsper。Esper & NEsper可以方便开发者快速开发部署处理大容量消息和事件的应用系统,不论是历史的还是实时的消息。
Kafka
Kafka是Linkedin于2010年12月份开源的高吞吐、基于Pub-Sub的分布式消息系统,主要用于处理活跃的流式数据,开发语言为Scala。
Scribe
Scribe是Facebook开源的日志收集系统,开发语言为C,通过Thrift可以支持多种常用客户端语言,在Facebook内部已经得到大量的应用。它能够从各种日志源上收集日志,存储到一个中央存储系统(可以是NFS,分布式文件系统等)上,以便于进行集中统计分析处理。它为日志的“分布式收集,统一处理”提供了一个可扩展的,高容错的方案。Scribe通常与Hadoop结合使用,Scribe用于向HDFS中push日志,而Hadoop通过MapReduce作业进行定期处理。
Flume
Flume是Cloudera提供的一个分布式、可靠的、高可用的日志收集系统,用于收集、聚合以及移动大量日志数据,开

最近更新

2024年辽宁省沈阳市行政职业能力测验题库及1套.. 147页

办公室副主任个人述职报告 3页

2024年长沙南方职业学院单招职业适应性测试题.. 53页

2024年青海交通职业技术学院单招职业适应性测.. 55页

2024年黑龙江建筑职业技术学院单招职业适应性.. 56页

北京市选调生考试(行政职业能力测验)综合能.. 148页

安徽省池州市选调生考试(行政职业能力测验).. 149页

江西省南昌市选调生考试(行政职业能力测验).. 149页

河北省邢台市事业单位招聘考试(职业能力倾向.. 148页

浙江省温州市选调生考试(行政职业能力测验).. 148页

福建省三明市选调生考试(行政职业能力测验).. 148页

分析竞争对手医疗器械市场开发策略的关键一步.. 31页

冷沉淀检测对类风湿关节炎患者炎症因子的评估.. 26页

冷沉淀在运动医学治疗中的潜力探究 33页

2024年足球知识题库及参考答案(黄金题型) 12页

县乡教师选调考试《教师职业道德》题库及完整.. 45页

县乡教师选调进城考试《教育心理学》题库及答.. 122页

县乡教师选调进城考试《教育法律法规》题库及.. 130页

科普知识竞赛题库100道含答案【考试直接用】 18页

冠状动脉搭桥术后患者的胸痛评估与处理 26页

内训师学习方法培训课程提高学习效果 25页

全科医学的职业发展与前景 27页

语音厅小游戏策划方案 3页

游戏推广员的周报 6页

田径国家一级裁判模拟试题 61页

四年级英语下册第四单元教案 17页

丙烯酰胺与nn一亚甲基双丙烯酰胺的凝胶反应 13页

ck520立式车床总体及床身设计 37页

先天性心脏病患儿护理查房 26页

2018年某市委第三巡察组副组长填表的说明及其.. 4页