文档介绍:数据中台介绍
2021/4/17
1
精品PPT
数据中台的概念由阿里巴巴首次提出,它是一个承接技术,引领业务,构建规范定义的、全域可连接萃取的、智慧的数据处理平台,建设目标是为了高效满足前台数据分析和应用的需求。数据中台是的需要,不能让扩展字段过度侵入核心模型,破坏了核心模型的架构简洁性与可维护性。
公共处理逻辑下沉及单一
越是底层公用的处理逻辑更应该在数据调度依赖的底层进行封装与实现,不要让公共的处理逻辑暴露给应用层实现,不要让公共逻辑在多处同时存在。
成本与性能平衡
适当的数据冗余换取查询和刷新性能,不宜过度冗余与数据复制。
开发过程规则
表命名需清晰、一致,表名需易于消费者理解和使用,相同的字段含义在不同表中字段命名必须相同,必须使用规范定义表中的名称。
数据中台设计原则
2021/4/17
4
精品PPT
规范定义是指以维度建模作为理论基础,构建总线矩阵,划分和定义数据域、业务过程、维度、度量/原子指标、修饰类型、修饰词、时间周期、衍生指标等。
一般指标组成体系可以划分为:原子指标、衍生指标、修饰类型、修饰词、时间周期。
原子指标
时间
周期
修饰词
衍生指标
修饰类型
数据规范定义设计
2021/4/17
5
精品PPT
数据地图管理,是对整个数据中台内的数据进行统一查询、管理的“地图”,数据地图主要面向数据开发者,汇聚用户所有数据信息,通过元数据信息收集、数据血缘探查、数据权限申请授权等手段,帮助数据中心专有云完成数据信息的收集和管理,解决"有哪些数据可用"、"到哪里可以找到数据"的难题,并且提升数据资源的利用率。
基本管理
自动探查平台内存在的表信息,记录表名、字段、分区、存储等信息,同时支持数据预览。
血缘关系管理
根据任务、脚本等因素自动建立血缘关系,实现数据链路的可查询、可跟踪。
生命周期管理
覆盖全部数据的自动化生命周期管理,提高存储系统利用效率。
权限管理
表级、字段级的权限授权、审批等流程,从更高层面保障数据安全。
支持多级表类目管理,实现最快时间找到最需要的数据。
类目体系管理
对同步任务产生的脏数据统一查看与管理。
脏数据管理
对新建、删除、变更表结构等操作自动记录,实现数据操作踪迹可查询。
操作记录管理
数据资产管理
2021/4/17
6
精品PPT
数据模型管理,主要是为解决架构设计和数据开发的不一致性,是为了约束平台使用者的表名、字段名的规范性,架构师从工具层合理的进行模型分层和统一开发规范,包括2部分,一个是规则配置,另一个是对表名、字段名的定期校验。
规范化
检测中心
模型设计
基础配置
表级
模型层级(ODS/DWD/DWS)
主题域(销售、库存、用户)
刷新频率(天、周、日)
增量定义(全量、增量)
模型生成规则
字段级
原子指标
衍生指标
规则生成
层级
主题域
刷新频率
自定义
+
+
+
示例:
ODS_sales_D_customAnaly
模型检测
模型不规范原因分析
字段检测
字段不规范原因分析
数据资产管理
2021/4/17
7
精品PPT
在实际生产中,数据计算任务没有告警,但不代表数据就是正确的,比如源数据异常、代码逻辑修改等原因都会造成结果数据错误。数据质量就是保障数据正确性的工具,主要包括这么几部分:一是支持准确性校验规则,二是支持双表校验,三是输出校验报告。
支持的数据源
目前已支持6种数据源,符合绝大多数场景下的质量校验
校验规则
基于数据生产的实战经验,内置20余种校验规则
支持表级、字段级2类规则
质量报告
支持字段级、表级校验报告,具备历史数据统计功能,辅助定位数据质量的问题根源
数据资产管理
2021/4/17
8
精品PPT
以云计算,大数据,人工智能技术为基础平台,搭建全域、实时、智能的数据中台。
网站统计
移动统计
客流统计
DMP
价格监测
品牌卫士
经营分析
管理决策
市场洞察
广告营销
反
黄牛
接待大屏
媒体大屏
接待大屏
行业定制数据应用
数据中台
数据资产
数据研发
数据地图
数据血缘
资产分析
资产管理
资产运营
数仓规划
指标规范
模型构建
数据同步
数据开发
日志分析
用户画像
推荐引擎
营销引擎
智能风控
舆情分析
分析报表
数据大屏
机器学****br/>人脸识别
图像识别
全域数据中心
萃取数据中心
统一ID
数据类目体系
数据标签体系
数据集成
数据智能中台
实时计算
离线计算
机器学****br/>数据管