文档介绍:数据仓库与数据挖掘
学号:
姓名:
任课教师: 朱焱
二零一四年十二月
目录
目录 1
数据仓库的构建与OLAP分析 1
1
1
1
2
4
创建OLAP数据立方体 5
5
5
5
5
6
通过OLAP进行数据分析 7
7
7
7
7
9
“Frequent-Flyer flight segment“ 10
:“Frequent-Flyer flight segment”信息进行数据仓储化管理. 10
10
,一个事实表对应多个飞机事件,一个飞机事件对面3个机场表:起始机场、中转机场、终点机场。雪花模型中还有时间表、顾客模型等。如图1-13: 11
11
12
Apriori关联规则算法应用实例 13
13
13
13
14
15
KMeans聚类算法应用实例 16
16
16
16
17
17
KNN分类算法应用实例 18
18
18
18
18
19
在SQL Server2008上完成上述的数据挖掘实验 20
1实验目的 20
2实验内容 20
3实验相关的算法原理或所涉及的模型介绍 20
4实验结果与总结 20
数据仓库的构建与OLAP分析
(1)熟悉SSIS工具,初步掌握数据仓库数据的ETL过程及操作流程
(2)加深对ETL(提取、转换、加载的理解)
此实例的背景是基于Adventure Works cycle公司,该公司新增了5个销售区域,以前这5个销售区域的数据没有汇总到数据仓库中,现在需要用到这些数据,于是公司让这5个区域的主管把客户信息全部导入到一个文本文件中,。因为这几个区域的数据完全混合在一起,而且有一些数据是无效销售区域的数据,现在的任务就是要通过SSIS的数据提取、,同时对于一个错误的数据用一个特定的文件保存起来。
ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程)作为BI/DW(Business Intelligence)的核心和灵魂,能够按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。
ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。
ETL是数据仓库中的非常重要的一环。它是承前启后的必要的一步。相对于关系数据库,数据仓库技术没有严格的数学理论基础,它更面向实际工程应用。所以从工程应用的角度来考虑,按着物理数据模型的要求加载数据并对数据进行一些系列处理,处理过程与经验直接相关,同时这部分的工作直接关系数据仓库中数据的质量,从而影响到联机分析处理和数据挖掘的结果的质量。
数据仓库是一个独立的数据环境,需要通过抽取过程将数据从联机事务处理环境、外部数据源和脱机的数据存储介质导入到数据仓库中;在技术上,ETL主要涉及到关联、转换、增量、调度和监控等几个方面;数据仓库系统中数据不要求与联机事务处理系统中数据实时同步,所以ETL可以定时进行。
SSIS是Microsoft SQL Server 2005 Integration Services的简