1 / 36
文档名称:

大数据应用技术介绍培训课件专业知识讲座.ppt

格式:ppt   大小:2,375KB   页数:36页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

大数据应用技术介绍培训课件专业知识讲座.ppt

上传人:梅花书斋 2020/7/16 文件大小:2.32 MB

下载得到文件列表

大数据应用技术介绍培训课件专业知识讲座.ppt

文档介绍

文档介绍:mon分布式文件系统和通用I/O的组件与接口(序列化,JavaRPC和持久化数据结构)Avro支持高效的跨语言RPC和持久数据存储的序列化系统MapReduce分布式数据处理模型和执行环境,运行在大型商用机集群HDFS分布式文件系统,用于大型商用机集群PIGPig是SQL-like语言,是在MapReduce上构建的一种高级查询语言,把一些运算编译进MapReduce模型的Map和Reduce中,并且用户可以定义自己的功能。Hive分布式、按列存储的数据仓库。Hive管理HDFS中存储的数据,并提供基于SQL的查询语言(由运行时引擎翻译成MapReduce作业)Hbase分布式、按列存储的数据库。HBase使用HDFS作为底层存储,同时支持MapReduce的批量式计算和点查询(随机读取)ZooKeeper分布式、可用性高的协调服务。提供类似分布式锁的基础服务。Sqoop在数据库和HDFS之间高效传输数据的工具Flume分布式、可靠、和高可用的海量日志聚合的系统。ChukwaChukwa是基于Hadoop的大集群监控系统,由yahoo贡献。Hadoop介绍HDFS缺点HDFS部署结构HDFS读写过程MapReduce部署结构MapReduce计算模型Inputk1,v1Mapk2,v2Reducek3,v3OutputMapReduce扩展接口InputFormatMapperPartitionerReducerOutputFormat