1 / 164
文档名称:

hadoop权威指南总结.docx

格式:docx   大小:3,878KB   页数:164页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

hadoop权威指南总结.docx

上传人:85872037 2020/2/18 文件大小:3.79 MB

下载得到文件列表

hadoop权威指南总结.docx

相关文档

文档介绍

文档介绍:目录Hadoop:TheDefinitiveGuid总结Chapter1~2初识Hadoop、MapReduce 5Hadoop:TheDefinitiveGuid总结Chapter3Hadoop分布式文件系统 11Hadoop:TheDefinitiveGuid总结Chapter4HadoopI/O 23Hadoop:TheDefinitiveGuid总结Chapter5MapReduce应用开发 36Hadoop:TheDefinitiveGuid总结Chapter6MapReduce的工作原理 42Hadoop:TheDefinitiveGuid总结Chapter7MapReduce的类型与格式 51Hadoop:TheDefinitiveGuid总结Chapter8MapReduce的特性 62Hadoop:TheDefinitiveGuid总结Chapter9构建MapReduce集群 77Hadoop:TheDefinitiveGuid总结Chapter10管理Hadoop 80Hadoop:TheDefinitiveGuid总结Chapter1~2初识Hadoop、MapReduce :当磁盘的存储量随着时间的推移越来越大的时候,对磁盘上的数据的读取速度却没有多大的增长从多个磁盘上进行并行读写操作是可行的,但是存在以下几个方面的问题:1).第一个问题是硬件错误。使用的硬件越多出错的几率就越大。一种常用的解决方式是数据冗余,保留多分拷贝,即使一份数据处理出错,还有另外的数据。HDFS使用的也是类似的方式,但稍有不同。2).第二个问题是数据处理的相关性问题。例如很多分析工作在一快磁盘上处理出来的结果需要与其他磁盘上处理处理出来的结果合并才能完成任务。各种分布式系统也都给出了合并的策略,但是做好这方面确实是一个挑战。MapReduce提供了一种编程模型,他将从硬盘上读写数据的问题抽象出来,转化成对一系列键值对的计算简而言之,Hadoop提供了一个可靠的存储和分析系统。存储由HDFS提供,分析由MapReduce提供。 ).RDBMS为什么需要MapReduce?,如果数据访问模式由寻道时间支配的话,在读写数据集的一大部分的时候速度就会较流式读取慢很多,这样就出现了瓶颈。,传统的B-树工作的比较好,但是在更新数据集的大部分数据的时候B-树就显得比MapReduce方式慢了。MapReduce使用排序/合并操作去重建数据库(完成数据更新).,并且要使用批处理方式,特别是特定的分析的情况;RDBMS点查询方面占优势,或在已编制索引的数据集提供低延迟的检索和更新的数据,但是数据量不能太大。MapReduce适合一次写入,多次读取的操作,但是关系数据库就比较适合对数据集的持续更新。,。一个对集群级别的数据量而写的MapReduce可以不加修改的应用于小数据量或者更大数据量的处理上。更重要的是当你的输入数据增长一倍的时候,相应的处理时间也会增加一倍。但是如果你把集群也增长一倍的话,处理的速度则会和没有增加数据量时候的速度一样快,这方面对SQL查询来说不见得是正确的。,并删除冗余。这样做给MapReduce提出了新的问题:它使得读数据变成了非本地执行,而MapReduce的一个重要前提(假设)就是数据可以进行高速的流式读写。 2).,这样就变成了本地的读取。,但是这就要求程序员明确的处理数据流等情况,而MapReduce只提供高层次的操作:程序员只需考虑处理键值对的函数,而对数据流则是比较隐晦的。(Shared-nothing)的架构,当MapReduce实现检测到map或者reduce过程出错的时候,他可以将错误的部分再执行一次。MPI程序员则需要明确的考虑检查点和恢复,这虽然给程序员很大自由,但是也使得程序变得难写。 3).志愿计算MapReduce是针对在一个高聚合网络连接的数据中心中进行的可信的、使用专用的硬件工作持续数分钟或者数个小时而设计的。相比之下,志愿计算则是在不可信的、链接速度有很大差异的、没有数据本地化特性的,互联网上的计算机上运行永久的(超长时间的)计算, ,我们关注以下特点:1) 数据