文档介绍:2-数据仓库与数据挖掘概述
(OLTP)
(OLAP)
(OLTP)
联机事物处理(On 一,字长不一致等。
将原始数据结构做一个从面向应用到面向主题的大转变。
(3)数据仓库是稳定的
数据仓库中包括了大量的历史数据。数据经集成进入数据仓库后是极少或根本不更新的。
(4)数据仓库是随时间变化的
数据仓库内的数据时限在5~10年,故数据的键码包含时间项,标明数据的历史时期,这适合DSS进行时间趋势分析。
而数据库只包含当前数据,即存取某一时间的正确的有效的数据。
(5)数据仓库的数据量很大
大型DW的数据是一个TB(1000GB)级数据量(一般为10GB级DW,相当于一般数据库100MB的100倍)
(6)数据仓库软、硬件要求较高
需要一个巨大的硬件平台
需要一个并行的数据库系统
从机器学****到数据挖掘
数据挖掘含义
数据挖掘与OLAP的比较
数据挖掘与统计学
从机器学****到数据挖掘
学****是人类具有的智能行为,主要在于获取知识。
机器学****是研究使计算机模拟或实现人类的学****行为,即让计算机通过算法自动获取知识。
机器学****是人工智能领域中的重要研究方向。
20世纪60年代开始了机器学****的研究。
(1) 1980年在美国召开了第一届国际机器学****研讨会;
明确了机器学****是人工智能的重要研究方向
(2) 1989年8月于美国底特律市召开的第一届知识发现(KDD)国 际学术会议;
首次提出知识发现概念
(3) 1995年在加拿大召开了第一届知识发现和数据挖掘(DM)国际学术会议;
首次提出数据挖掘概念
(4) 我国于1987年召开了第一届全国机器学****研讨会。
知识发现(KDD):从数据中发现有用知识的整个过程。
数据挖掘(DM) :KDD过程中的一个特定步骤,它用专门算
法从数据中抽取知识。
如在人类数据库中挖掘知识为:
(头发=黑色)∨(眼睛=黑色)→亚洲人
该知识覆盖了所有亚州人的记录。
1. OLAP的多维分析
OLAP的典型应用,通过商业活动变化的查询发现的问题,经过追踪查询找出问题出现的原因,达到辅助决策的作用。
2. 数据挖掘
数据挖掘任务在于聚类(如神经网络聚类)、分类(如决策树分类)、预测等。
数据挖掘与统计学
统计学与国家政治有紧密的关系。
支配着社会现象的法则和方法是概率论。
通过对全部对象(总体)进行调查,为制定计划和决策提供依据。
统计学中应用于数据挖掘的内容
(1)常用统计
(2)相关分析
(3)回归分析
(4)假设检验
(5)聚类分析
(6)判别分析
(7) 主成份分析
统计学与数据挖掘的比较
统计学主要是对数量数据(数值)或连续值数据(如年龄、工资等),进行数值计算(如初等运算)的定量分析,得到数量信息。
数据挖掘主要对离散数据(如职称、病症等)进行定性分析(覆盖、归纳等),得到规则知识。
统计学与数据挖掘是有区别的。但是,它们之间是相互补充的。
数据仓库和数据挖掘的结合
数据仓库和数据挖掘的区别与联系
基于数据仓库的决策支持系统
数据仓库和数据挖掘的区别与联系
1. 数据仓库与数据挖掘的区别
1. 数据仓库与数据挖掘的区别
数据仓库是一种存储技术,它能适应于不同用户对不同决策需要提供所需的数据和信息。
数据挖掘研究各种方法和技术,从大量的数据中挖掘出有用的信息和知识。
数据仓库与数据挖掘都是决策支持新技术。但它们有着完全不同的辅助决策方式。
在数据仓库系统的前端的分析工具中,数据挖掘是其中重要工具之一。它可以帮助决策用户挖掘数据仓库的数据中隐含的规律性。
数据挖掘用于数据仓库实现决策支持:
(1)预测客户购买倾向;
(2)客户利润贡献度分析;
(3)分析欺诈行为;
(4)销售渠道优化分析等。
数据仓库