1 / 25
文档名称:

2020年面试ETL题总汇汇编.doc

格式:doc   大小:47KB   页数:25页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

2020年面试ETL题总汇汇编.doc

上传人:非学无以广才 2019/12/12 文件大小:47 KB

下载得到文件列表

2020年面试ETL题总汇汇编.doc

文档介绍

文档介绍:2020年面试ETL题总汇ETL面试题总汇一、?它对ETL项目组的作用是什么?WhatisalogicaldatamappingandwhatdoesitmeantotheETLteam?答:逻辑数据映射(LogicalDataMap)用来描述源系统的数据定义、目标数据仓库的模型以及将源系统的数据转换到数据仓库中需要做操作和处理方式的说明文档,通常以表格或Excel的格式保存如下的信息:目标表名:目标列名:目标表类型:注明是事实表、维度表或支架维度表。SCD类型:对于维度表而言。三种SCD(SlowlyChangingDimension)技术SCD1直接修改原维表信息,不保存任何维历史信息。SCD2创建新的记录而不删除或修改原有维信息。可通过为每条记录设定过期时间、生效时间两个字段来区分各历史记录和当前记录(历史记录的过期时间均早于当前记录的生效时间)。SCD3在维表中定义历史信息字段,只保存有限的历史信息(此技术很少应用)源数据库名:源数据库的实例名,或者连接字符串。源表名:源列名:转换方法:需要对源数据做的操作,如Sum(amount)等。逻辑数据映射应该贯穿数据迁移项目的始终,在其中说明了数据迁移中的ETL策略。在进行物理数据映射前进行逻辑数据映射对ETL项目组是重要的,它起着元数据的作用。项目中最好选择能生成逻辑数据映射的数据迁移工具。-----------------------------补充:逻辑数据映射分为两种:1:模型映射:从源模型到DW目标模型之间的映射类型有:一对一:一个源模型的数据实体只对应一个目标模型的数据实体。如果源类型与目标类型一致,则直接映射。如果两者间类型不一样,则必须经过转换映射。一对多:一个源模型的数据实体只对应多个目标模型的数据实体。在同一个数据存储空间,常常出现会一个源实体拆分为多个目标实体的情况下。在不同的存储空间中,结果会对应到不同的存储空间的实体。一对零:一个源模型的数据实体没有与目标模型的数据实体有对应,它不在我们处理的计划范围之内。零对一:一个目标模型的数据实体没有与任何一个源数据实体对应起来。例如只是根据设计考虑,时间维表等。多对一:多个源模型的数据实体只对应一个目标模型的数据实体。多对多:多个源模型的数据实体对应多个目标模型的数据实体。2:属性映射一对一:源实体的一个数据属性列只对应目标实体的一个数据属性列。如果源类型与目标类型一致,则直接映射。如果两者间类型不一样,则必须经过转换映射。一对多:源实体的一个数据属性列只对应目标实体的多个数据属性列。在同一个实体中,常常出现会一个源属性列拆分为目标的多个属性列情况。在不同实体中,结果会对应到不同的实体的属列。一对零:一个源实体的数据属性列没有与目标实体的数据属性列有对应,它不在我们处理的计划范围之内。零对一:一个目标实体的数据属性列没有与任何一个源数据属性列对应起来。例如只是根据设计考虑,维表和事实表中的时间戳属性,代理健等。多对一:源实体的多个数据属性列只对应目标实体的一个数据属性列。多对多:源实体的多个数据属性列对应目标实体的多个数据属性列。作用:1为开发者传送更为清晰的数据流信息。映射关系包括有关数据在存储到DW前所经历的各种变化的信息,对于开发过程中数据的追踪审查过程非常重要。2把ETL过程的信息归纳为元数据,将数据源结构,目标结构,数据转换规则,映射关系,数据的上下文等元数据保存在存储知识库中,为元数据消费者提供很好的参考信息,追踪数据来源与转换信息,有助于设计人员理解系统环境变化所造成的影响;开发设计者可以轻松的回答以下的问题:1、这些数据从那里来?2、这样的结果通过什么样的计算和转化得来?3、这些数据是如何组织的?4、数据项之间有什么联系?5、如果源发生变化,有那几个系统,目标受影响?,数据探索阶段的主要目的是什么?Whataretheprimarygoalsofthedatadiscoveryphaseofthedatawarehouseproject?答:在逻辑数据映射进行之前,需要首先对所有的源系统进行分析。对源系统的分析通常包括两个阶段,一个是数据探索阶段(DataDiscoveryPhase),另一个是异常数据检测阶段。数据探索阶段包括以下内容:A、收集所有的源系统的文档、数据字典等内容。B、收集源系统的使用情况,如谁在用、每天多少人用、占多少存储空间等内容。C、判断出数据的起始来源(System-of-Record)。D、通过数据概况(DataProfiling)来对源系统的数据关系进行分析。数据探索阶段的主要目的是理解源系统的情况,为后续的数据建模和逻辑数据映射打下坚实的基础。?Howisthesystem-of-recordd