1 / 28
文档名称:

大数据技术基础.ppt

格式:ppt   大小:2,118KB   页数:28页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

大数据技术基础.ppt

上传人:erterye 2020/10/1 文件大小:2.07 MB

下载得到文件列表

大数据技术基础.ppt

相关文档

文档介绍

文档介绍:《大数据分析及应用实践》第二章:大数据技术基础据目录CONTENTS21基础架构支持22云计算23数据釆集24数据存储《^于布计平台,为彐了系“布基架构可以部在价的计算Hp核是分式交件系DS(HadoopDistnbutedFileSystem天MlapRedcHadoop)公为行业大簽老标生开源软牛,在分行式境下提供了海平数活不处理能力厂三斯有三流使都王Haop提洪开发工具、开原软件、商业化工黑和支术服务,如歌、雅!、软、思科、淘宝等,都支剂Hadoop《]发展,Hkop目不斩完毒和热,目前经包含多个?项目如下要23安HDFSFIMapReduce以,Hadoop项目还包括(ommon、Awm、Zookeeper,HBase,Hie,Chukwa,等了买彐,它是共了生眨务或三层一出了更层版务数据处理数据分析、统计和挖掘工具集Mahout数据统计机器学****fromRevoulionAnalytics交互式据仓库盘据泡处理婚关系数ETL工具maPreduce分布式、高维数据库HBaseHBae094的改运和新,提供即时数据处理分布式协车服务HDFSHadoop技术架构图《@项目架构8旦1:E志2:传输E志4:队HDF中将日志装载入数据仓库中6;雨Hadoop群MR二并二算,并返三7:#同口价直据写入HBASE数据车8:报表系&用程通过HBAS[查忌现《,它是一个分布Ecosystem式的可扩晨的大数据含库,是一个构建在HD的式ETLToolsBlReporting:RDBMSHBse*建在HDFs之上口从逻辑上计,HBase将数据按表、行和列进行存谑,HBase(ColumnDBBasel内部管理的文件全部存慵在日与had样,Hbse目标主要砖年横向扩展,通过不断增HDFs中价的商月务器,实增加计算和存请能力(HadoopDistrbutedFleSys)ruderalABases点;a大b元模式面列d稀疏e数据多版本f数据类型单《,基于它写出来的应用程序能运行在由上千个商用机畀組威的大型集群上,并以种可帘错的式井行处理上T級別的数据集。MaP映射Reduce-归纳MapReduce就是“任务的分解与结果的汇总"中间数据Reducersreducelmap(MapReduce处理流程《ⅳe是建立在Hadoop的数据仓库基础构架,可以将結构囯文件腴射为-张数库表,并提供类SQL查询呲能。本质是将SQ转换为MapReduce程序提交任务到HcaHve处理,换成MapReduceMapReduce三行咄VEHDFSHive与Hadoop关系《大数分析及应用实践g据Pig简介User它提供SQL语言叫PigLatin,家若泽会把类Q担分标湾求装Map-ReducePg为复杂海并行计算烘了一个单操作和寐知口,《大数分析及应用实践