文档介绍:数据仓库与商务智能
钱沄涛
浙江大学计算机学院人工智能研究所
******@zju.
1
主要内容
数据仓库与数据挖掘概述
数据仓库的数据模型与数据组织
数据仓库的设计
数据加载技术
数据仓库系统的体系结构与实现技术
数据挖掘中的常用方法
关联规则挖掘
分类和预测
聚类分析
时序数据和序列数据的挖掘
Web数据挖掘
数据挖掘的应用
2
教学方式与考核方式
教学方式
本课程以课堂教学为主,以课件的内容为主线
课外阅读指定的参考文献并利用网上资源,加深对教学内容的理解。
考核方式及要求
撰写课程论文一篇
课程论文的内容不仅包括数据仓库与数据挖掘的综述,而且应包括对某一方面深入的分析、独立的见解或实际应用。
课程论文的格式按照正式发表学术论文的要求,篇幅一般可大于正式发表的论文。
进行大组报告与交流。
3
教材与参考书
W. H. Inmon , 《Building the Data Warehouse》,王志海等译,机械工业出版社,
康晓东等,《基于数据仓库的数据挖掘技术》,机械工业出版社,
Jiawei Han,Micheline Kambr,《DATA MINING CONCEPTS AND TECHNIQUES》(影印版),高等教育出版社
陈京民等,《数据仓库与数据挖掘技术》,电子工业出版社,2002
Tom Mitchell,《Machine Learning》,McGraw-panies, 1997
网上有关参考资料和文献
学术刊物上有关论文
4
第1章 数据仓库与数据挖掘概述
数据仓库的发展
数据仓库的基本概念
数据挖掘的发展
数据挖掘的基本概念
数据仓库与数据挖掘的集成
5
数据仓库的发展
NCR公司为WalMart建立了第一个数据仓库。
1996年,加拿大的IDC公司调查了62家实现了数据仓库的欧美企业,结果表明:数据仓库为企业提供了巨大的收益。
早期的数据仓库大都采用当时流行的客户/服务器结构。近年来分布式对象技术飞速发展,整个数据仓库体系结构从功能上划分为若干个分布式对象,这些分布式对象不仅可以直接用于建立数据仓库,还可以在应用程序中向用户提供调用的接口。
IBM的实验室在数据仓库方面已经进行了10多年的研究,并将研究成果发展成为商用产品。
其他数据库厂商在数据仓库领域也纷纷提出了各自的解决方案。
6
数据仓库的发展
IBM: ,并于1998年12月推向中国市场,除了用于OLAP(联机分析处理)的后台服务器DB2 OLAP Server外,IBM还提供了一系列相关的产品,包括前端工具,形成一整套解决方案。
Informix公司: 在其动态服务器IDS(Informix Dynamic Server)中提供一系列相关选件,如高级决策支持选件(Advanced Decision Support Option)、OLAP选件(MetaCube ROLAP Option)、扩展并行选件(Extended Parallel Option)等,这种体系结构严谨、管理方便、索引机制完善,并行处理的效率更高,其中数据仓库和数据库查询的SQL语句的一致性使得用户开发更加简便。
7
数据仓库的发展
微软公司: 在其SQL Server2000中集成了代号为Plato的OLAP服务器。
Sybase: 提供了专门的OLAP服务器Sybase IQ,并将其与数据仓库相关工具打包成Warehouse Studio 。
PLATINUM: 提出了由InfoPump(数据仓库建模与数据加载工具)和Forest&Trees(前端报表工具)构成的一套较有特色的整体方案。;
Oracle公司: 则推出从数据仓库构建、OLAP到数据集市管理等一系列产品包(如Oracle Warehouse Builder、Oracle Express、DataMart Suit等)。
8
数据仓库的我国的发展
现状:数据仓库的概念已经被国内用户接受多年,但在应用方面的收效仍很有限。
原因:
尚不存在可靠的、完善的、被广泛接受的数据仓库标准;
现有的数据库系统不健全,数据积累还不够,无法提出决策支持需求;
缺乏能够担负规划、设计、构建和维护数据仓库的重任的复合型人才;
缺乏数据仓库前端工具(如OLAP工具、数据挖掘工具等);
由于国内外文化的差异,一些用于构建数据仓库的知名产品无法处理一些难以预料的问题,使得建立数据仓库的困难加大。
9
数据仓库的我国的发展
前景:随着计算机技术的发展,尤其是分布式技术的发展, 数据仓库在我国有着广阔的发展空间和良好的发展前景。例如:
由于银行商业化的步伐正在加大,各