1 / 58
文档名称:

数据仓库与数据挖掘课件.ppt

格式:ppt   大小:997KB   页数:58页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据仓库与数据挖掘课件.ppt

上传人:孔乙己 2022/4/21 文件大小:997 KB

下载得到文件列表

数据仓库与数据挖掘课件.ppt

文档介绍

文档介绍:数据仓库与数据挖掘课件
1-2 数据仓库与数据库
操作型数据库 分析型数据仓库
系统目的 支持日常操作 支持管理需求,获取信息
使用人员 sional Data Schema)表示。
每一个多维数据模式都是由一个事实表(Fact Table)和一组维表(Dimension Table)组成。
事实表的主码是组合码,维表的主码是简单码,每一张维表中的简单码与事实表组合码中的一个组成部分相对应。
第一章 数据仓库的基本概念
企业销售数据的多维数据模式图
第一章 数据仓库的基本概念
时间码
日期
月份
季度
年度
时间码
产品码
地区码
销 售 量
销 售 额
销售成本
产品码
产品大类
产品细类
产品名称
地区码
国 家
地 区
城 市
时间维表
事 实 表
产品维表
地区维表
多维数据模型的优势:
多维数据模型是已知标准化的结构,即包含多个多维数据模式,每一个多维数据模式都对应一张事实表和多张维表。
这种多维结构能支持最终用户不可预知的操作,原因在于多维数据模型的各个维是逻辑等价的。
多维数据模型对决策分析有好的扩展性。
汇总数据的巨大价值。
第一章 数据仓库的基本概念
1-4-2 星型模式
星型模式是事实表与维表通过星型方式连接而成,如下图:
第一章 数据仓库的基本概念
产品码(PK)
产品大类
产品细类
产品名称
地区码(PK)
国 家
地 区
城 市
产品维表
地区维表
时间码(FK)
产品码(FK)(PK)
地区码(FK)
销 售 量
销 售 额
销售成本
事 实 表
时间码(PK)
日期
月份
季度
年度
时间维表
第一章 数据仓库的基本概念
星型模式的优点:
星型模式结构简单,表的数目少,建模方便。
星型模式支持多维数据建模,支持使用人员从不同的维度对数据进行分析。
星型模式能较好地为数据仓库提供查询支持。
星型模式可以提高查询速度。
第一章 数据仓库的基本概念
主码、外码和代理码:
主码(Primary Key):主码是表中的一个属性或属性的组合,它能唯一地标识表中的每条记录。
外码(Foreign Key):外码是出现在一个表中,同时在另一个表中被定义成主码的属性。
代理码(Surrogate Key):所有的主码和外码一般都是采用没有具体含义的代理码,例如,从1开始的自然数编码。
第一章 数据仓库的基本概念
事实表:
事实表是星型模式的核心,它是按维进行分析形查询的对象,其中存储的是业务事实,例如:销售量、销售额、销售成本等。
事实表中的数据一般是数值型,具有可加性。
事实表的主码为外码的组合,唯一的标识各条事实记录,事实表的外码对应各维表的主码。
第一章 数据仓库的基本概念
维表:
维表用于指导从不同的角度在事实表中选择数据行。
维表中有一个主码,其余非主码的列为属性,维表中的属性数据通常是字符型数据。
维表具有层次性,维表的层次性可用来分割其他的明细维表,维表层次的级别数量取决于查询的粒度。
第一章 数据仓库的基本概念
1-4-3 数据仓库的总线型结构
著名的数据仓库专家Ralph Kinball认为,数据仓库的建设应该是一步步完成的,以部门级数据集市的建设为出发点,但必须统观全局,使数据集市成为完整的企业级数据仓库的一个逻辑子集。
这种建设思想的实现是以一种特定的结构为指导的,称为数据仓库的总线型结构(Data Warehouse Bus Architecture)。
第一章 数据仓库的基本概念
统一的维:
统一的维是指:一个维,无论其维表与哪一个事实表相连接,维的含义是完全相同的。
建立、公布、维护和完善统一的维是全局数据仓库项目小组一项非常重要的工作。
公布了统一维之后,各数据集市必须严格执行。
第一章 数据仓库的基本概念
统一的事实:
统一的事实的定义工作与统一的维的定义工作同时进行,由数据仓库项目:小组负责,工作量相对较少,但要注意以下几点;
统一的计算口径
统一的