1 / 12
文档名称:

面试ETL题总汇.docx

格式:docx   大小:21KB   页数:12页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

面试ETL题总汇.docx

上传人:沐雪 2022/3/10 文件大小:21 KB

下载得到文件列表

面试ETL题总汇.docx

文档介绍

文档介绍:ETL面试题总汇
一、分析
1.什么是逻辑数据映射?它对ETL工程组的作用是什么?
What is a logical data mapping and what does it mean to the ETL team?
答:
数据的起始来源〔System-of-Record〕。
D、通过数据概况〔Data Profiling〕来对源系统的数据关系进行分析。
数据探索阶段的主要目的是理解源系统的情况,为后续的数据建模和逻辑数据映射打下坚实的根底。
3.如何确定起始来源数据?
How is the system-of-record determined?
如何确定起始来源数据?
答:
这个问题的关键是理解什么是System-of-Record。System-of-Record和数据仓库领域内的其他很多概念一样,不同的人对它有不同的定义。在Kimball的体系中,System-of-Record是指最初产生数据的地方,即数据的起始来源。在较大的企业内,数据会被冗余的保存在不同的地方,在数据的迁移过程中,会出现修改、清洗等操作,导致与数据的起始来源产生不同。
起始来源数据对数据仓库的建立有着非常重要的作用,尤其是对产生一致性维度来说。我们从起始来源数据的越下游开始建立数据仓库,我们遇到垃圾数据的风险就会越大。
二、架构
4.在ETL过程中四个根本的过程分别是什么?
What are the four basic Data Flow steps of an ETL process?
在ETL过程中四个根本的过程分别是什么?
答:
Kimball数据仓库构建方法中,ETL的过程和传统的实现方法有一些不同,主要分为四个阶段,分别是抽取〔extract〕、清洗〔clean〕、一致性处理〔confirm〕和交付〔delivery〕,简称为ECCD。
A、抽取阶段的主要任务是:
读取源系统的数据模型。
连接并访问源系统的数据。
变化数据捕获。
抽取数据到数据准备区。
B、清洗阶段的主要任务是:
清洗并增补列的属性。
清洗并增补数据结构。
清洗并增补数据规那么。
增补复杂的业务规那么。
建立源数据库描述数据质量。
将清洗后的数据保存到数据准备区。
C、一致性处理阶段的主要任务是:
一致性处理业务标签,即维度表中的描述属性。
一致性处理业务度量及性能指标,通常是事实表中的事实。
去除重复数据。
国际化处理。
将一致性处理后的数据保存到数据准备区。
D、交付阶段的主要任务是:
加载星型的和经过雪花处理的维度表数据。
产生日期维度。
加载退化维度。
加载子维度。
加载1、2、3型的缓慢变化维度。
处理迟到的维度和迟到的事实。
加载多值维度。
加载有复杂层级结构的维度。
加载文本领实到维度表。
处理事实表的代理键。
加载三个根本类型的事实表数据。
加载和更新聚集。
将处理好的数据加载到数据仓库。
从这个任务列表中可以看出,ETL的过程和数据仓库建模的过程结合的非常紧密。换句话说,ETL系统的设计应该和目标表的设计同时开始。通常来说,数据仓库架构师和ETL系统设计师是同一个人。
5.在数据准备区中允许使用的数据结构有哪些?各有什么优缺点?
What are the permissible data structures for the data staging area? Briefly describe the pros. and cons. of each.
在数据准备区中允许使用的数据结构有哪些?各有什么优缺点?
答:
A、固定格式的文本文件。〔Flat File〕
Flat File指的是一种保存在系统上的一种文本文件格式,它以类似数据库的表的方式用行和列来保存数据。这种文件格式经常用来进行数据交换。用于保存数据不太适宜。
B、XML数据集。
多用于数据交换,用户保存数据不太适宜。
C、关系数据库的表。
保存数据的较理想选择。
D、独立的数据库表。
独立的数据库表一般指建立的表和其他表没有外键约束关系。这样的表多用于数据处理。
E、三范式或者关系型模型。
F、非关系型数据源。
非关系型数据源一般包括COBOL copy books、VSAM文件、Flat文件、Spreadsheets等。
G、维度模型。
H、原子事实表和聚集事实表。
I、代理键查找表。
6.简述ETL过程中哪个步骤应该出于平安的考虑将数据写到磁盘上?
When should data be set to disk for safekeeping during the ETL?
简述ETL过程中哪个步骤应该出于平