1 / 8
文档名称:

ibm公司面试题.pdf

格式:pdf   大小:142KB   页数:8页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

ibm公司面试题.pdf

上传人:文档大全 2020/7/29 文件大小:142 KB

下载得到文件列表

ibm公司面试题.pdf

相关文档

文档介绍

文档介绍:ibm公司面试题 1、 Data Stage 分为几个部分(组件),各部分的功能是什么?  Administrator – add/delete projects, set defaults Manager – import meta data, backup projects Designer – assemble jobs, compile, and execute Director – execute jobs, examine job run logs  2、 Parallel job 和sequence job 的区别? (What is difference between Parallel job and Sequence job)  Basic difference is server job runs on windows platform usually and parallel job runs on UNIX platform.  server job runs on one node whereas parallel job runs on more than one  3、 在stage中会有虚线分为哪两种,有什么作用?  在stage中有两种虚线  参考(reference link):以它所连接的文件作参考 拒绝(rejects link):把不满足条件的输出到另一个文件  4、 Partition和pipeline的概念?  DataStage中有两种实现并行的方法,一种是分区(partitioning),另一种则是管道(pipeline)。 所谓分区,是指将输入的数据按照某种规则,分成大小尽量相等的多块数据,每块数据都可以由一行节点并行读取,这样就实现了并行。  有以下几类:Round robin循环分区  随机(Random)  Same分区  完全分区(Entire) Auto分区 hash分区 modulus分区 DB2分区而所谓管道,则是指一条数据在被一个stage处理完成后,立即被输出到一条管道(pipeline)中,下一个stage也立即读取这条管道中的数据进行操作,再一个stage也是如此,一直到最后一个stage。这种情况下,大致上每个stage都同时处在运行状态。因此这也是一种并行。  5、 Combine 和transform都有什么?  combine:merge lookup join 等  transform : transformer  Remove Duplicates Stage 等  6、 DATA SET FILE 和SEQUENCE FILE的区别,SEQUENCE FILE 如和转换成DATA SET   data set分为两种,,是虚拟的临时性的数据文件,,是永久性的数据。由于data set是DataStage的底层数据文件格式,处理过程中不需要进行任何的处理。它是二进制格式。如果数据需要落地,尽量使用data set。用dataset保存数据,对数据的分区信息也会保存起来,因此效率非常高。  Sequential file: Read data from or write data one or more flat files. Th