1 / 14
文档名称:

在MyEclipse中搭建Nutch开发环境.doc

格式:doc   页数:14
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

在MyEclipse中搭建Nutch开发环境.doc

上传人:n22x33 2012/9/8 文件大小:0 KB

下载得到文件列表

在MyEclipse中搭建Nutch开发环境.doc

文档介绍

文档介绍:在MyEclipse中搭建Nutch开发环境
以Java Project形式搭建
第一步:下载Nutch的压缩包
到Nutch的网站上下载Nutch的压缩包,。Nutch各版本的下载地址为http://archive./dist/nutch/,进入该网页后,找到apache-nutch--,将其下载到自己的电脑里。
第二步:新建一个Java项目
打开MyEclipse,点击File→New→Java Project新建一个Java项目,输入Project ,点击Finish按钮。如下图所示。
第三步:导入Nutch的代码
将第一步下载的Nutch压缩包解压,解压后的目录结构如下图所示。
将src/。
第四步:导入Nutch的配置文件、Jar包、插件
在第三步解压后的目录下,找到conf、lib、plugins三个文件夹,(即与src目录同级)。Copy完后,。
第五步:替换Nutch中Hadoop的核心包
官方版本的Hadoop是不支持Windows下的存取操作的,我们需要将其替换为自己修改过的Jar包。,找到Hadoop的核心包(如:hadoop--),将其删除,然后将自己的Jar包(hadoop--)copy到该目录下。
第六步:在MyEclipse中为项目加载Jar包
,可以看到如下所示的目录结构。
我们会发现src目录下有错误存在,这是因为尽管该项目的lib目录下有Jar包,但是没有将其加入到ClassPath变量中。下面来解决这个问题。
→Build Path→Configure Build Path…将打开如下所示的对话框。
在Libraries选项卡里,点击Add JARs…按钮,将出现如下所示的对话框。
,展开lib目录,将lib文件夹及其子文件夹下的全部Jar包选中,然后单击OK按钮,如下图所示。
单击OK按钮后,将回到Libraries选项卡,此时该选项卡将如下所示。
最后,单击Libraries选项卡里的OK按钮,回到MyEclipse的主页面,看看src目录上的错误是不是消失了。
第七步:在MyEclipse中为项目加载配置文件
同理,虽然conf目录下已经有配置文件了,但Java虚拟机仍不能识别它们,因为它们也没有加入到ClassPath变量中。下面我们来将其加入。
在conf目录上单击右键→Build Path→Use as Source Folder。然后我们会发现conf目录变成了一个“Source Folder”,这样conf目录下的配置文件就被中加入到ClassPath变量中了。
第八步:修改Nutch中的配置
Nutch中默认的配置并不能使Nutch正常运行,需要修改几个地方后才能使Nutch运行起来。
修改nutch-
在conf目录下找到nutch-,将其打开,,如果该项的value值为空,则随便加入一个值,然后保存。如下图所示。
修改crawl-
在conf目录下找到crawl-,将其打开,找到# accept hosts in ,将其下面的正则表达式+^http://([a-z0-9]*\.)*+^http://([a-z0-9]*\.)*。找到# skip URLs containing certain characters as probable queries, etc. 配置项,如果其下面有-[?*!@=]形式的正则表达式,将其删除,或将-号改为+号。最后,保存所作的修改。如下图所示。
此外,还可以修改nutch-。(这里略去,不作修改)
第九步:测试Crawl类,修正运行中的各种错误
经过以上的操作,Nutch的开发环境的搭建就有可能大功告成了,现在我们就可以开始运行Nutch了。我们通过Crawl类来运行Nutch,运行时将出现两种结果,一是顺利地运行完成,二是程序被各种异常终止(即运行失败)。如果出现第一种结果,恭喜你,Nutch的开发环境搭建成功;如果出现