文档介绍:第一章
1、 数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。
2、 元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目 录,根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。
3、 数据处理通常分成两大类:联机事务处理和联机分析处理。
4、 多维分析是指以“维”形式组织起来的数据(多维数据集)采取切片、切块、钻取和旋转等各 种分析动作,以求剖析数据,使拥护能从不同角度、不同侧面观察数据仓库中的数据,从而深入 理解多维数据集中的信息。
5、 ROLAP是基于关系数据库的 OLAF实现,而MOLAI是基于多维数据结构组织的 OLAF实现。
6数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储于管理和数据表现等。
7、 数据仓库系统的体系结构根据应用需求的不同,可以分为以下 4种类型:两层架构、独立型数 据集合、以来型数据结合和操作型数据存储和逻辑型数据集中和实时数据仓库。
8、 操作型数据存储实际上是一个集成的、 面向主题的、可更新的、当前值的(但是可“挥发”的)、 企业级的、详细的数据库,也叫运营数据存储。
9、 “实时数据仓库”以为着源数据系统、决策支持服务和仓库仓库之间以一个接近实时的速度交 换数据和业务规则。
10、 从应用的角度看,数据仓库的发展演变可以归纳为 5个阶段:以报表为主、以分析为主、以 预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。
第二章
1、 调和数据是存储在企业级数据仓库和操作型数据存储中的数据。
2、 抽取、转换、加载过程的目的是为决策支持应用提供一个单一的、权威数据源。因此,我们要 求ETL过程产生的数据(即调和数据层)是详细的、历史的、规范的、可理解的、即时的和质量 可控制的。
3、 数据抽取的两个常见类型是静态抽取和增量抽取。静态抽取用于最初填充数据仓库,增量抽取 用于进行数据仓库的维护。
4、 粒度是对数据仓库中数据的综合程度高低的一个衡量。粒度越小,细节程度越高,综合程度越 低,回答查询的种类越多。
5、 使用星型模式可以从一定程度上提高查询效率。因为星型模式中数据的组织已经经过预处理, 主要数据都在庞大的事实表中。
6维度表一般又主键、分类层次和描述属性组成。对于主键可以选择两种方式:一种是采用自然 ■ 键,另一种是采用代理键。
7、 雪花型模式是对星型模式维表的进一步层次化和规范化来消除冗余的数据。
8、 数据仓库中存在不同综合级别的数据。一般把数据分成 4个级别:早期细节级、当前细节级、 轻度综合级和高度综合级。
第三章
1、 SQL Server SSAS提供了所有业务数据的同意整合试图,可以作为传统报表、在线分析处理、 关键性能指示器记分卡和数据挖掘的基础。
2、 数据仓库的概念模型通常采用信息包图法来进行设计,要求将其 5个组成部分(包括名称、维 度、类别、层次和度量)全面地描述出来。
3、 数据仓库的逻辑模型通常采用星型图法来进行设计,要求将星型的各类逻辑实体完整地描述出 来。
4、 按照事实表中度量的可加性情况,可以把事实表对应的事实分为 4种类型:事务事实、快照事 实、线性项目事实和事件事实。
5、 确定了数据仓库的粒度模型以后,为提高数据仓库的使用性能,还需要根据拥护需求设计聚合 ■ 模型。
6在项目实施时,根据事实表的特点和拥护的查询需求,可以选用时间、业务类型、区域和下属
组织等多种数据分割类型。
7、 当维表中的主键在事实表中没有与外键关联时,这样的维称为退化维。它于事实表并无关系, 但有时在查询限制条件(如订单号码、出货单编号等)中需要用到。
8、 维度可以根据其变化快慢分为元变化维度、缓慢变化维度和剧烈变化维度三类。
9、 数据仓库的数据量通常较大,且数据一般很少更新,可以通过设计和优化索引结构来提高数据 存取性能。
10、 数据仓库数据库常见的存储优化方法包括表的归并与簇文件、反向规范化引入冗余、表的物 理分割(分区)。
第四章
1、 关联规则的经典算法包括 Apriori算法和FP-growth算法,其中FP-grownth算法的效率更高。
2、 如果 L2={{a,b},{a,c},{a,d},{b,c},{b,d}}, 则
连接产生的 C3={{a,b,c},{a,b,d},{a,c,d},{b,c,d}}
再经过修剪,C3={{a,b,c},{a,b,d}}
3、 设定supmin=50%交易集如 则 L仁{A},{B},{C} L2={A,C}
T1 A B C
T2 A C
T3 A D
T4 B E F
第五章
1、 分类的过程包括获取数据、预处理、分类器设计和