1 / 23
文档名称:

ETL架构师面试题.doc

格式:doc   大小:77KB   页数:23页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

ETL架构师面试题.doc

上传人:xgs758698 2018/11/12 文件大小:77 KB

下载得到文件列表

ETL架构师面试题.doc

文档介绍

文档介绍:本部分的题目来自Kimball的ETLToolkit著作,原著未直接给出答案。这里的中文题目和答案是我参考其原著按自己的理解整理而来的,仅供参考。对于其中不确切的地方,欢迎大家一起沟通。有兴趣的朋友可以直接阅读原著。?它对ETL项目组的作用是什么?,数据探索阶段的主要目的是什么????各有什么优缺点??。?。。?为每类提供一种实现技术。????简述代理键替换管道如何工作。?。,并说明ETL的过程中如何处理它们。??怎样来处理这个问题?。。。优化/,以及为了保证引用完整性该以什么样的顺序对它们进行加载。。,需要分哪几步去找到ETL系统的瓶颈问题。。。。。1WhatisalogicaldatamappingandwhatdoesitmeantotheETLteam?什么是逻辑数据映射?它对ETL项目组的作用是什么?答:逻辑数据映射(LogicalDataMap)用来描述源系统的数据定义、目标数据仓库的模型以及将源系统的数据转换到数据仓库中需要做操作和处理方式的说明文档,通常以表格或Excel的格式保存如下的信息:目标表名:目标列名:目标表类型:注明是事实表、维度表或支架维度表。SCD类型:对于维度表而言。源数据库名:源数据库的实例名,或者连接字符串。源表名:源列名:转换方法:需要对源数据做的操作,如Sum(amount)等。逻辑数据映射应该贯穿数据迁移项目的始终,在其中说明了数据迁移中的ETL策略。在进行物理数据映射前进行逻辑数据映射对ETL项目组是重要的,它起着元数据的作用。项目中最好选择能生成逻辑数据映射的数据迁移工具。2Whataretheprimarygoalsofthedatadiscoveryphaseofthedatawarehouseproject?在数据仓库项目中,数据探索阶段的主要目的是什么?答:在逻辑数据映射进行之前,需要首先对所有的源系统进行分析。对源系统的分析通常包括两个阶段,一个是数据探索阶段(DataDiscoveryPhase),另一个是异常数据检测阶段。数据探索阶段包括以下内容:、数据字典等内容。,如谁在用、每天多少人用、占多少存储空间等内容。(System-of-Record)。(DataProfiling)来对源系统的数据关系进行分析。数据探索阶段的主要目的是理解源系统的情况,为后续的数据建模和逻辑数据映射打下坚实的基础。3Howisthesystem-of-recorddetermined?如何确定起始来源数据?答:这个问题的关键是理解什么是System-of-Record。System-of-Record和数据仓库领域内的其他很多概念一样,不同的人对它有不同的定义。在Kimball的体系中,System-of-Record是指最初产生数据的地方,即数据的起始来源。在较大的企业内,数据会被冗余的保存在不同的地方,在数据的迁移过程中,会出现修改、清洗等操作,导致与数据的起始来源产生不同。起始来源数据对数据仓库的建立有着非常重要的作用,尤其是对产生一致性维度来说。我们从起始来源数据的越下游开始建立数据仓库,我们遇到垃圾数据的风险就会越大。Lprocess?在ETL过程中四个基本的过程分别是什么?答