文档介绍：上课时间
第一周
上课节次
3节
课型
理论
课题
绪论
教学目的
使学生初步认识数据挖掘与数据仓库
教学方法
讲授
重点、难点
数据挖掘与数据仓库的定义及其应用价值
时间分配
教学内容
板书或课件版面设计

数据挖掘产生的前提是需要从多年积累的大量数据中找出隐藏在其中的、有用的信息和规律。
计算机技术和信息技术的发展使其有能力处理这样大量的数据。

应用数据挖掘从大量数据中发现规律是面向某一应用的规律,具有具体的指导意义。
早期数据挖掘主要应用于商业领域,随着人们对数据挖掘了解的逐步深入,其应用领域逐步扩大到科学研究、市场营销、金融分析和体育比赛等领域。

数据挖掘是20世纪80年代人工智能研究项目失败后,人工智能转入实际应用时提出的,是一个新兴的、面向商业应用的人工智能研究。

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

20世纪80年代出现了数据仓库的思想,数据仓库是面向主题的、集成的、包含历史的、不可更新的、面向决策支持的、面向全企业的、最明细的数据存储、数据快照式的数据获取。

传统数据库的处理方式和决策分析中的数据需求在决策处理的系统吸纳供应问题、决策数据需求的问题以及决策数据操作的问题方面不相称,导致企业无法使用现有的业务处理来满足决策分析的需要,因此决策分析需要一个能够不受传统事务处理的约束、高效率处理决策分析数据的支持环境,这就是数据仓库存在的价值。

数据仓库是一种新的数据处理体系结构,是企业内部各部门业务数据和各种外部数据进行统一和综合的中央数据仓库,为企业决策支持系统提供所需的信息,是一种信息管理技术。
目前世界上最大数据仓库是NRC公司建立的基于其Tera data数据库拥有24TB数据量的Wal-Mart数据仓库系统。

数据仓库是面向主题的、集成的、不可更新的、随时间不断变化的数据集合,用以支持经营管理中的决策制定过程。

(1)数据仓库系统的数据可以作为数据挖掘的数据源
(2)数据挖掘的数据源不一定必须是数据仓库系统

数据挖掘的目标是从数据中发现隐含的、有意义的知识,包括概念描述、关联分析、分类与预测、聚类分析、趋势分析、孤立点分析以及偏差分析7个方面的功能。
(1)概念描述
对某类对象的内涵进行描述,并概括这类对象的有关特征。其中,特征性描述用于描述某类对象的共同特征,区别性描述用于描述不同类对象之间的区别。
(2)关联分析
关联分析的目的在于找出数据中隐藏的关联网。
(3)分类与预测
所谓分类就是依照分析对象的属性分门别类、加以定义、建立类组,其关键是确定对数据按照什么标准或什么规则进行分类。
所谓预测就是利用历史数据就爱能力模型,再运用最新数据作为输入值,获得未来变化的趋势或者评估给定样本可能具有的属性值或值的范围。
(4)聚类分析
又称为无指导的学****其目的在于客观地按照被处理对象的特征分类,将有相同特征的对象归为一类。
(5)趋势分析
又称为时间序列分析,是从相当长的时间的发展中发现规律和趋势,是时序数据挖掘最基本的内容。
(6)孤立点分析
又称为孤立点挖掘,是指数据库中包含的一些与数据的一般行为或模型不一致的数据。
(7)偏差分析
又称为比较分析,是对差异和极端特例的描述,用于揭示事物偏离常规的异常现象。

数据挖掘算法是数据挖掘技术的一部分,数据挖掘技术用于执行数据挖掘功能,一个特定的数据挖掘功能只适用于给定的领域。
聚类检测方法
是最早的数据挖掘技术之一,在聚类检测技术中,不是搜寻预先分类的数据,也没有自变量和因变量之分,因此也称为无指导的知识发现或无监督学****br/>聚类生成的组叫簇,是数据对象的集合。
聚类检测的过程就是使同一个簇内的任意两个对象之间具有较高的相似性,不同簇的两个对象之间具有较高的向异性。
用于数据挖掘的聚类检测方法有:划分的方法、层次的方法、基于密度的方法、基于网络的方法和基于模型的方法等。
决策树方法
主要应用于分类和预测,提供了一种展示类似在什么条件下会得到什么值这类规则的方法。一个决策树表示一系列的问题,每个问题决定了继续下去的问题会是什么。
决策树方法适合于处理费数值型数据。