1 / 17
文档名称:

windows 下, Hadoop 伪分布式环境搭建.doc

格式:doc   大小:451KB   页数:17页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

windows 下, Hadoop 伪分布式环境搭建.doc

上传人:86979448 2017/12/1 文件大小:451 KB

下载得到文件列表

windows 下, Hadoop 伪分布式环境搭建.doc

相关文档

文档介绍

文档介绍:Hadoop 伪分布式环境搭建
Hadoop 的起源
我们生活在数据时代,随着计算机的飞速发展,磁盘存储量的快速增加,普通计算机TB级的硬盘都已经司空见惯。TB、PB甚至更高的海量数据的处理对于一般计算机而言,意味着非常严峻甚至无法胜任的挑战。因此,如何高效的分析和管理海量数据,已成为当前急需解决的问题。
2002年,Apache 开源组织创建了 Nutch 项目,该项目是一个网页爬取工具和搜索引擎系统,但是该架构可扩展度不够,不能解决数十亿网页的搜索问题。、
而在之后的2003,谷歌公布了GFS(Google File System)、MapReduce等高可扩展、高性能的分布式海量数据处理框架,并证明了该框架在处理海量数据时的优越性。
受谷歌GFS的启发,2004年Apache开始着手创建一个开源的实现,即NDFS(Nutch的分布式文件系统)
2005年初,该项目在Nutch 上得到了实现,并用MapReduce 和 NDFS来运行
2006年,Apache 将 NDFS和MapReduce 移出 Nutch,形成 Lucene下的一个子项目,并命名为为Hadoop。
2008年4月,Hadoop在209秒内,完成了对1TB数据的排序,打破了世界纪录
MapReduce:分布式计算(Map:任务的分解,Reduce:结果的汇总)
HDFS(Hadoop Distributed File System):分布式文件系统
Hadoop 名称由来:
Hadoop项目的名称是由该项目的创建者Doug Cutting的孩子,给一头棕色大象形状的填充玩具起的名字。由于该名字简短,容易发音和拼写,而且没有太多的含义,并且不会被用于别处而产生混淆,于是Doug Cutting 就把它作为该项目的名字,并且,hadoop的图标也是一头大象。
下载搭建环境需要的软件
Hadoop
下载地址:http://apache./mon/
我们这里使用的版本是稳定版
Cygwin
下载地址:/
hadoop 环境需要搭建在 Linux 操作系统下, Cygwin 是一款在windows平台上运行的Linux模拟环境,当然,如果直接使用 Linux 或者用虚拟机搭建 Linux 也可以,我们这里是以 Cygwin 为例,如在 Linux 下的搭建与此大同小异。
软件安装
jdk安装
方法:略,网上例子很多。
注:JDK 的安装路径禁止包含空格,因为 Linux 下的路径对空格的处理很麻烦,所以,以下凡是涉及到路径的地方,建议最好不要使用空格。
MyEclipse 安装
方法:略,推荐使用 MyEclipse 以上,因为之后需要安装 Hadoop 的 Eclipse 插件
。我们这里使用的是 MyEclipse 。
Hadoop 安装
方法:将下载的 Hadoop 文件解压,随便拷贝到一个目录。我们这里将 hadoop 的文件夹放到 D:/unSetup/ 目录下。
Cygwin 安装
双击 ,点击下一步,如下图:
选择安装路径,点击下一步
选择本地的安装文件,因为我们是从互联网直接安装的,不用管这里,下一步
这里选择接入互联网的方式,保持默认,下一步
选择下载站点,我们选择 163镜像,下一步
下载中,等待即可
期间会提示
第一次安装,不用管它,直接确定,下载完成之后,点击确定,下载完成后直接下一步
选择需要安装的软件包
Net Default 下的:openssh,openssl
Base Default 下的:sed (若需要Eclipse,必须sed)
Devel Default下的:subversion(建议安装)。具体请参考下面的图示
Skip 为跳过,点击即可选中,表示安装。然后点击下一步
安装选中的软件包,点击下一步
自动下载并安装,安装时间依网速而定。
点击完成,结束安装
将CygWin的bin目录以及usr/sbin 追加到系统环境变量PATH中,至此,cygwin 安装结束
注:安装完成之后先别急着打开,Cygwin在第一次启动时,会自动根据windows 下的环境变量,生成 Linux 的环境变量,所以我们先在 windows 下将需要配置的环境变量都配置好,参考检查环境变量一章
软件配置
Cygwin配置
创建 SSH 服务
SSH 为 Secure Shell 的缩写,它是目前较可靠,专为远程登录会话和其他网络服务提供安全性的协议。
Cygwin 控制台输入以下命令:
SSH-HOST-CONFIG
当系统提示(yes/no) 时,一路 yes,
系统提示: