1 / 38
文档名称:

KETTLE使用经验总结.doc

格式:doc   大小:1,666KB   页数:38页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

KETTLE使用经验总结.doc

上传人:雾里看花 2019/11/13 文件大小:1.63 MB

下载得到文件列表

KETTLE使用经验总结.doc

文档介绍

文档介绍:--------------------------校验:_____________-----------------------日期:_____________KETTLE使用经验总结 目录 1安装说明 1安装jdk 1安装PDI 1创建资源库 2修改配置文件 3启动服务器 7运行转换/作业 7转换的并行 7作业的并行 9集群的使用 9记录日志 11连接hbase 16读取XML文件 26连接hive2 31大字段处理 34利用好数据库性能 35增大提交的记录数及大字段数据处理 35全量抽取先抽取后建索引 36增量抽取注意去重数据量 36利用中间表分段处理数据 37聚合优先 37大量数据抽取导致内存溢出 37字段值丢失 37输出记录数大于输入记录数 38软件安装安装说明本文档对应的产品及版本是。由于该产品使用java开发,所以需要在服务器上配置java环境。如果是linux系统,为了操作方便,可以在linux上部署服务器,Windows启动客户端。安装jdk下载或以上安装包,安装成功后,配置java环境变量。JAVA_HOME:java安装目录CLASSPATH:%JAVA_HOME%\lib\dPATH:添加%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin;LINUX下配置环境变量:进入/etc/profile(系统)(用户)exportJAVA_HOME= exportPATH=$JAVA_HOME/bin:$PATH  exportCLASSPATH= 配置完成后检查java-version和$JAVA_HOME是否启用安装PDI地址下载PDI二进制文件到各服务器中并解压,data-integration目录里面包含了PDI所有内容。根据需要连接的数据库,将驱动包放入lib文件夹下。创建资源库DI可使用文件或资源库的形式来存储作业、转换和其它服务器配置。使用资源库来存储任务,可以方便地存储和分发作业到不同的服务器执行,实现数据的并发处理。打开SPOON时,会提示新建资源库;或者进入主界面后,通过工具>资源库>连接资源库,打开资源库连接对话框:点击左上角“+”按钮,选择Kettledatabaserepository项目,在弹出的资源库信息框中,点新建按钮新建一个数据库连接,选择JDBC连接数据库,并填写连接到数据库的相应信息,该数据库就是存储DI资源的数据库。然后点击“创建或更新”按钮,在弹出的框中输入管理员密码。出现一个SQL语句的对话框,点击执行按钮。这样资源库就创建好了,输入用户名admin和密码登录。,找到文件,该文件存储了服务器到资源库的数据库连接,。,将整个目录拷贝到root下。修改配置文件在data-integration/pwd目录中有几个示例配置文件,它们是DI服务器启动的配置文件。在主服务器上,修改master配置文件,在<slaveserver>段中,修改主机名,端口,用户名和密码等信息,为安全起见,:(encr-kettlepassword)(注意:地址请使用IP,不然其他服务器无法读取)<slaveserver><name>master</name><hostname>ip</hostname><port>8080</port> <username>cluster1</username><password>Encrypted2be98afc86aa7f2e4a815bb63ca97bd8b</password><master>Y</master></slaveserver>添加<repository>段,设置资源库的连接方式: <repository> <id>KettleDatabaseRepository</id> <name>kettle_res</name> <description>kettlereposity</description> <username>admin</username> <password>Encrypted2be98afc86aa7f2e4cb79ce71da9fa6d4</password> </repository>在从服务器上修改配置文件,需要配置<masters>,<report_to_masters>,<slaveserver>段,同样地,需要添加<repository>段。<masters><slaveserver