1 / 12
文档名称:

数据仓库与数据挖掘.docx

格式:docx   大小:176KB   页数:12页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据仓库与数据挖掘.docx

上传人:mazhuangzi1 2022/6/27 文件大小:176 KB

下载得到文件列表

数据仓库与数据挖掘.docx

文档介绍

文档介绍:数据资源 狭义:指数据本身,即企业运作中积累下来的各种各样的数据记录,如客户记录、销售记录 人事记录、采购记录、财务数据和库存数据等。
广义:涉及数据的产生、处理、传播、交换的整个过程,包括数据本身、数据的管理工具(计 算机与通信技术)和据。
(10) 将数据分发到数据集市。
OLTP与OLAP的比较
OLTP
OLAP
用户
操作人员,低层管理人员
决策人员,高级管理人员
功能
日常操作处理
分析决策
DB设计
面向应用
面向主题
数据
当前的、最新的、细节的、一维 的、分立的
历史的、聚集的、多维的、集成的、统一 的
存取
读/写数十条记录
读上百万条记录
工作单位
简单的事务
复杂的查询
用户数
上千个
上百个
DB大小
100MB 〜1GB
100GB 〜1TB
什么是OLAP? OLAP是一种技术还是一种数据库? OLAP的特性与不足?
定义一:OLAP(联机分析处理)是针对特定问题的联机数据访问和分析。通过对信息(维数据) 的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行 深入观察。
定义2 : OLAP(联机分析处理)是使分析人员、管理人员或执行人员能够从多种角度对从原 始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、 一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。 (OLAP 委员会的定义)
OLAP 的目标:是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是 “维” 这个概念,因此OLAP也可以说是多维数据分析工具的集合。
OLAP的特性:多维数据库;预处理聚合;方便理解
OLAP的不足:管理复杂;需要数据集市;延迟;只读
挖掘出的知识一般有哪些类型?
广义知识;关联知识;分类知识;预测知识;偏差知识。
广义知识就是对大量数据的归纳、概括,提炼出带有普遍性的、概括性的描述统计知识。 若两个或多个变量的取值之间存在某种规律性,就称为关联。
分类知识是反映同类事物共同性的特征型知识和不同事物之间的差异型特征知识。 预测型知识指的是预测连续值,是根据时间序列型数据,由历史的和当前的数据去推测未来 的数据,也可以认为是以时间为关键属性的关联知识。
偏差型知识是对差异和极端特例的描述,揭示事物偏离常规的异常现象。
原始数据中常存在哪些主要问题?产生这些问题的原因是什么?
不一致:一是多元数据之间的不一致;一是数据记录内部自相矛盾。
重复:同一事物在数据库中存在两条或多条完全相同的记录,或者相同的信息冗余地存在 于多个数据源中。
不完整:在实际应用系统中,由于系统设计的不合理或者是使用过程中的某些因素,导致 某些属性值可能会缺失或者值不确定。
含噪声:有认为的,设备的和技术的等。
高维度:原始数据中通常记录食物较为全面的属性,而在一次数据挖掘中,这些属性并不 全是有用的,只需要一部分属性就可以得到希望知道的知识,而且无用属性的增加还会导致 无效归纳,把挖掘结果引向错误的结论。
怎样处理空缺值? 引起空缺值的原因:设备异常;与其他已有数据不一致而被删除;因为误解而没有被输入的 数据;在输入时,有些数据应为得不到重视而没有被输入;对数据的改变没有进行日志记载 空缺值要经过推断而补上。
忽略该记录
去掉属性
手工填写空缺值
使用默认值
使用属性平均值
使用同类样本平均值
预测最可能的值
数据归约的目的是什么?数据归约有哪些方法? 数据归约的目的是为了获得比原始数据小得多的,但不破坏数据完整性的挖掘数据集,该数 据集可以得到与原始数据相同的挖掘结果。
有下列几种方法:
数据立方体聚集。数据立方体聚集就是把聚集的方法用于数据立方体。
维归约。维归约就是检测并删除不相关、弱相关或冗余属性。
数据压缩。数据压缩就是选择正确的编码压缩数据集。
数值归约。数值归约就是用较少的数据替代原数据或采用较短的数据单位、数据模型替代 原数据。
离散化和概念分层生成。使连续的数据离散化,就是用确定的有限个区段值代替原始值; 概念分层是指用较高层次的概念替换低层次的概念,以此来减少取值个数。
ID3Tree (T ,T-attributelist)
T为样本空间,T-attributelist为属性集。
(1) 创建根结点 N。
⑵IF T都属于同一类C,则返回N为叶结点,标记为类Co
IF T-attributelist为空或T中所剩的样本数少于某给定值,则返回N为叶结点,标记为T 中出现最多的类。
FOR EACH T-attributelist中的属性,计算信息增益 information gain。
⑸ 结点N的分裂