文档介绍:传统的海量数据分析方案ORACLERADATA可扩展能力差专有硬件针对叫LTP进行了优化价格昂贵实例:纽约证券交易所(NYSE)日交易量49Billion交易/天NYSE5,,000花费1000万美元构建的数据仓库4个月里容量和性能就无法再满足要求1,0005002Billion数据量增长的速度远远超过了交易/天传统DBMS的处理能力2006年6月2007年1月7年8月ApacheHadoop项目2004年Dongcutting参考Google的论文开始实现Hadoop2006年Yahoo年雇佣DongCutting组队专职开发2006年2月,ApacheHadoop开源项目正式启动。ApacheHadoopApacheHadoopEcosystemETLToOlsBIReportingRDBMSPig(DataFlow,Hive(SQL)ScoopMapReduce(JobScheduling/EXecutionSystem)lI8HBase(key-valuestore)I(Streaming/PipesAPIs)9HDFS(HadoopDistributedFileSystem)HDFS设计1个NameNode+若干个DataNode将文件划分为若干块(Chunk)存储于各DataNode节点上每个块固定大小(64M)通过冗余来提高可靠性每个数据块(Chunk)至少在3个DataNode上冗余通过单个Namenode来协调数据访问、元数据存储结构简单,容易保持元数据一致性HDFS体系结构查找元数据获得文件存储位置元数据(文件名,存储位置)(读文DatanodesDatanodes机架机架2答尸端(写文MapReduce-“分而治之”inputmaptasKsreducetasksoutputpOeducepartOsplit2maporeducepartmapSHreduceart2map()h交Inputsplshuffleoutput聚集查询(SUM、AVG等)最终查询结果P4D4MapReduce用户自定义Map、Reduceforkfork分配Master分配lap存储于GFS的Worker输入数据写入GFS0utput写入本地WorkerFile0读取文件系统WorkerChunkOutputWorkerWorkerMapReduce执行流程提交任务mastermap调度reducereduceworkers