1 / 7
文档名称:

数仓相关面试题.docx

格式:docx   大小:14KB   页数:7页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数仓相关面试题.docx

上传人:fengruiling 2022/8/8 文件大小:14 KB

下载得到文件列表

数仓相关面试题.docx

相关文档

文档介绍

文档介绍:数仓相关面试题
前期业务调 研,如需 求调 研、数据 调研、 技术 调研
提炼业务模 型、总线 矩阵 、划分主 题域
定制规 范, 如命名规范、开 发规 范、流程规范
数仓架 构分 层
以阿里巴巴OneData建设为例:一般分为操中的,在ETL过 程中开发人员会对数据清洗这其实就是治理的一部分,再加上后期数据 资产的管理和落定都有数据治理的渗入。
如何控制 数据质量?
数据质量保证原则:完整性, 准确性,数据质量, 及时性,一致性
数据质量方法:数据资产等级的划定
数据加工过程卡点校验
风险点监控:针对在线或者离线数据的监控
质量衡量:故障等级的划定以及数据质量的事件的记录 元数据的理解?元数据 管理系统? 元数据主要记录数据仓库中模型的定义、各层级间的映射关系、监控 数据仓库的数据状态及ETL任务的运行状态。
元数据有重要的应用价值, 是数据管理、数据内容、数据应用的基 础,在数据管理方面为集团数据提供在计算、存储、成本、质量、安全、 模型等治理领域上的数据支持。
元数据管理系统:首先梳理清楚元仓底层数据,对元数据做分类, 如计算元数据、存储 元数据、质 量元数据等,减少数据重复建设,保障 数据的唯 一性。
另外,要丰富表和字段使用说明,方便使用和理解。根据元仓底层 数据构建元仓中间层,建设元数据基础宽表,也就 是元数据中间层,打 通从数据 产生到消 费整个链路 。
数仓如何分层的?及每 一层的作用?
结合 Inmon 和 Kimball 的集 线器 式和 总线 式的 数据 仓库 的优 点 ,分层 可 为 ODS 【 -MID 】-DW-DM-OLAP/OLAM/app (不同 企业 略有差异 )。
ODS 层是将 OLTP 数据 通过 ETL 同步 到数据仓 库来 作为数据仓库 最基础的数据来源。在这 个过程中,数据经过了一定的清洗,比如 字段 的统一,脏数据的去除等,但是数据的粒度是不会变化的。ODS层的数 据可以只保留一定的时间。
MID 中间层是采用 Inmon 集线器架构的方式,使用范式建模(贴源) 的方法。这一 层主要是做规范化的 事情,比如 应用库表非规范化,字段 格式复杂( json 格式)需做一 些处理。这一层 不是 必须 有的 。也不 会对 外开放使用。 范式建模保证了数据一致性、唯一性、正确性。
DW-DM 层是采用 Kimball 的总线式的数据仓库架构,针对 部门(比 如财务部门)或者 某一主题(比如商户、用户),通过 维度建模(推荐 星型模型),构建一致性维度,原子粒度的数据是 DW 层,按照实体或 者主题经过一定的汇总,建设数据集市模型。数据集市可以为 OLAP 提 供服务
数据挖掘 ,由加拿 大 Simon Fraser 大学 Jiawei Han 教授等数 据立 方体的
基础上提出的一种新的数据挖掘技术。OLAM技术将数据挖掘技术 (DM)和联机分析处理技术(OLAP)集成在一起,在多维数据库中 发现知识 。
为什么要分层的思考? 空间换时间:通过建设多层次的数据模型供用户使用,避免用户直接使 用操作型数据,可以更高效的访问数据。
复杂问题简单化:将一个复杂的任务分解成多个步骤来完成,每一 层只处理单一的步骤,比较简单和容易理解。而且便于维护数据的准确 性,当数 据出现