1 / 28
文档名称:

大数据技术基础.pptx

格式:pptx   大小:4,401KB   页数:28页
下载后只包含 1 个 PPTX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

大数据技术基础.pptx

上传人:花开花落 2019/2/27 文件大小:4.30 MB

下载得到文件列表

大数据技术基础.pptx

相关文档

文档介绍

文档介绍:第二章:大数据技术基础《大数据分析及应用实践》,为用户提供了系统底层细节透明的分布式基础架构Hadoop是基于Java语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中Hadoop的核心是分布式文件系统HDFS(HadoopDistributedFileSystem)和MapReduceHadoop被公认为行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力几乎所有主流厂商都围绕Hadoop提供开发工具、开源软件、商业化工具和技术服务,如谷歌、雅虎、微软、思科、淘宝等,,Hadoop项目不断完善和成熟,目前已经包含多个子项目(如下图2-2所示)除了核心的HDFS和MapReduce以外,mon、Avro、Zookeeper、HBase、Hive、Chukwa、Pig等子项目,:日志采集;2:传输日志;3:将日志写入HDFS;4:从HDFS中将日志装载入数据仓库中;5:对装载的数据进行分析;6:调用Hadoop集群的M/R执行并行计算,并返回结果;7:将结果中有价值的数据写入HBASE数据库;8:报表系统&应用程序端通过HBASE查询数据并展现;,它是一个分布式的、可扩展的大数据仓库,是一个构建在HDFS上的分布式列存储系统;从逻辑上讲,HBase将数据按照表、行和列进行存储。与hadoop一样,Hbase目标主要依靠横向扩展,通过不断增加廉价的商用服务器,来增加计算和存储能力。HBase表特点:,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错的方式并行处理上T级别的数据集。Map—映射Reduce——归纳MapReduce就是“任务的分解与结果的汇总”•Hive是建立在Hadoop上的数据仓库基础构架,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。•,Pig包含两个部分:PigInterface,PigLatin。它提供的SQL-LIKE语言叫PigLatin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口。Pig简介