1 / 9
文档名称:

数据挖掘--ch3.docx

格式:docx   大小:165KB   页数:9页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘--ch3.docx

上传人:分享精品 2017/8/13 文件大小:165 KB

下载得到文件列表

数据挖掘--ch3.docx

相关文档

文档介绍

文档介绍:数据挖掘概论
第三章数据仓库
前言
作用:对经过集成、清洗、归约预处理后的数据进行存储的载体—数据仓库(DW)。
企业历史数据的主要处理方式:
删除历史数据
备份历史数据
预处理后存入数据仓库
基于数据仓库的应用:OLAP(Online Analysis Process)--联机分析处理、多粒度和多维度的数据分析、OLAM(Online Analysis Mining)。
数据库基本概念回顾
(1) 数据库简介
数据:数据库中存储的基本对象,以描述事物的符号记录。
数据库:以一种结构化的方式存储数据的文件系统。
特点:较小冗余度,较高独立性和易扩展性,可被多用户并发访问,可长期存储。
(2) 数据库、表、记录和域及其关系
二维表实例:()。
(3) 数据库管理系统—DBMS
DBMS的功能:提供定义、建立、维护数据库服务的核心软件。其目的是保证数据库的安全、一致性和完整性。
注意:常见的DBMS有DB2、Oracle、MS SQL Server、MySQL和MS Access等。还有曾经辉煌的FOX、FOXPRO、Sybase、Informix等著名的DBMS系统及其形成的历史数据资源。
DBMS的主要功能:
数据存储、检索和更新:完成存储、查询、修改、删除等操作。
事务支持:对数据库的一系列操作作为整体执行。
注意:一个事务具有原子性、一致性、隔离性和持久性特点。(P39)
原子性:多个对数据库的操作可以看做是一个不可分割的原子操作。
一致性:数据库状态从一个状态到另一个状态的转变时是一致性转变的。
隔离性:不同事务的操作之间是互不影响的。
持久性:事务对数据库的影响和改变是永久性的。
并发控制:多个事务并发执行(读取或修改同一数据或文件)。
数据仓库简介
数据仓库的特点
William H. Inmon定义:DW是一个面向主题的、集成的、时变的、非易失的数据集合,用于支持管理部门的决策过程。
面向主题(Subject-Oriented):
DW总是围绕重要的课题或主题展开,如顾客、产品、销售等。
总着眼于决策者的数学建模和分析处理,而不是简单的日常操作与事务处理。
针对特定主题提供简明扼要的有价值的数据进行呈现。
集成(Integrated):
DW的建立是通过集成和整合多个不同的异构数据源完成。
注意:异构数据源包含关系型数据库、一般数据文件、联机事务记录等。
DW的建立需要经过数据清洗和数据集成技术的支撑。以保证命名规则、编码结构、属性值的度量等方面保持一致。
时变的(Time Variant):
早时间层面上,DW中的数据的事件跨度要长于操作性数据库中的数据。有的跨度超过若干年。
DW中的数据结构一般都包含了时间元素。
非易失的(Non-Volatile):
DW中的数据一般都在物理上分开存储。
DW中一般没有数据更新和修改操作发生。
数据仓库概念
数据仓库之父的定义:—数据仓库是一个把不同来源数据进行集成,为用户提供决策和分析的平台,同时提供用户对信处理的支持的数据库系统。
数据仓库的作用
提高客户关注度—购买模式和喜好倾向的获得
微调生产策略—最大限度地提高利润
查找利润来源—指导产品