文档介绍:Hadoop 概述传统数据的介绍 1、数据来源 a 数据采集终端 b 企业内部管理系统 2、数据特征 a 数据增长速度比较缓慢 b 数据量为 GB,TB级别 3、数据处理方式 a 保存在数据库中,通过应用程序到数据库中检索 b 通过编写应用程序对数据进行数据挖掘 4、遇到的问题分析速度查询的速度数据处理的速度 2 大数据 3 大数据:指数据集的大小超过了现有典型的数据库软件和工具的处理能力的数据。与此同时,与及时捕捉、存储、聚合、管理这些大数据以及对数据的深度分析的新技术和新能力,正在快速增长。 KB 》 MB 》 GB 》 TB 》 PB 》 EB 》 ZB 》 YB 1024 传统数据与大数据的比较企业新宠 Hadoop Hadoop Hadoop 是一个能够对大量数据进行数据挖掘、数据分析、数据存储、管理、维护的可靠、高效、可伸缩的分布式处理软件框架。 5 Hadoop 优点 6 集群集群是一组相互独立的、通过高速网络互联的计算机,它们构成了一个组,并以单一系统的模式加以管理。优点 1、集群节点横向扩展 2、集群容量无限大 3、大文件存储 4、高容错性 5、数据格式没有限制 6、数据处理速度快 7、存储子系统简单 8、硬件价格低廉(无需数据库) 9、使用 HDFS 存储数据, Hadoop 自己提供运行程序环境 Hadoop 缺点 Hadoop 缺点 1、 Hadoop 以及 MapReduce 所处的环境并非 SQL 环境。 2、不善于处理小而多的文件 3、存在单点问题 4、网络带快,磁盘 IO 7 Hadoop 的历史 2003 年, Google 发表论文 The Google File System , SOSP 2003 ?这篇论文描述了如何构造一个分布式的文件系统,能够容量海量的数据,数据容量能够达到整个互联网所有数据的容量。 2004 年, Google 发表论文 MapReduce : Simplified Data Processing on Large Cluster, OSDI2004 ?这篇论文描述了如何在一个分布式环境下进行编程,以进行大规模的数据处理, 同时不陷入到对于系统编程的细节中。 2006 年, Google 发表论文 Bigtable : A Distributed Storage System for Structured Data, OSDI 2006 ?这篇论文描述了如何在分布式文件系统的基础之上建立用以存储结构化数据的分布式数据库系统。 2006 年, Google 在同一个会议上发表另一篇论文 The Chubby Lock Service for Loosely-Coupled Distributed Systems ?这篇论文提供了基于 Paxos 实现的一个分布式的锁服务,以文件系统的形式提供编程接口 Hadoop 的历史 Hadoop 脱胎于 Apache 的另外两个个项目( 2002~2004 ) ? Lucene ( http://lucene. ),这是一个用 Java 编写的文件索引引擎的 API ? Nutch ( http://nutch. ),这是使用 Lucene 引擎做的搜索引擎 Nutch 在构建大规模搜索引擎的时候遇到性能瓶颈,即无法存储大量的网站数据 Dong Cutting 依据 GFS 以及 MapReduce 论文将 DFS 以及 MapReduce 在 Nutch 中实现,最初版本在 2004 年实现 2006 年1月雅虎聘请 Dong Cutting ,将 Hadoop 作为独立的开源软件提供 Hadoop 的历史 Hadoop 名字的来历: Dong Cutting 小孩的玩具大象 2006 年之后, Hadoop 不断完善,基本上还是遵循着 Google 发表的一系列论文来完成实现