文档介绍:数据仓库与数据挖掘技术
第6章数据预处理技术
主讲人:孙水华副教授
信息科学与工程学院
1
目录
数据预处理概述
数据清理
数据集成
数据变换
数据归约
小结
2
数据预处理(data preprocessing)是指在对数据进行数据挖掘主要的处理以前,先对原始数据进行必要的清洗、集成、转换、离散和归约等等一系列的处理工作,以达到挖掘算法进行知识获取研究所要求的最低规范和标准。
现实世界的数据库往往易受噪声、丢失数据和不一致数据的侵扰,因为数据库太大(常常多达数千兆字节,甚至更多),并且多半来自多个异构数据源。低质量的数据将导致低质量的挖掘结果。这就需要进行数据预处理,从而提高数据质量,进而提高挖掘结果的质量。
现在人们已经积累了大量的数据预处理技术。如何恰当选择和应用这些技术得到更有效的数据,是一个值得探讨的问题。
3
数据仓库和数据挖掘的应用产生了大量的数据,这些数据不一定是规范化的,它以不同的形式存储在不同的地方。根据“垃圾进,垃圾出”原理,这些低质量的数据进入系统将会导致昂贵的操作费用和系统漫长的响应时间,并且对从数据集中抽取的模式的正确性和导出规则的准确性产生巨大的影响,更严重的是会使得决策支持系统产生错误的分析结果,误导决策。
数据预处理概述
数据预处理的必要性
4
现实世界采集到的大量的各种各样的数据是不符合挖掘算法进行知识获取研究所要求的规范和标准的。主要具有以下特征:
(1)不完整性。指的是数据记录中可能会出现有些数据属性的值丢失或不确定的情况,还有可能缺失必需的数据。这是由于系统设计时存在的缺陷或者使用过程中一些人为因素所造成的,如有些数据缺失只是因为输入时认为是不重要的;相关数据没有记录可能是由于理解错误,或者因为设备故障;与其他记录不一致的数据可能已经删除;历史记录或修改的数据可能被忽略等等。
5
(2)含噪声。指的是数据具有不正确的属性值,包含错误或存在偏离期望的离群值。产生的原因很多。比如收集数据的设备可能出故障;人或计算机的错误可能在数据输入时出现;数据传输中也可能出现错误。不正确的数据也可能是由命名约定或所用的数据代码不一致,或输入字段(如时间)的格式不一致而导致的。实际使用的系统中,还可能存在大量的模糊信息,有些数据其至还具有一定的随机性。
(3)杂乱性(不一致性)。原始数据是从各个实际应用系统中获取的,由于各应用系统的数据缺乏统一标准的定义,数据结构也有较大的差异,因此各系统间的数据存在较大的不一致性,往往不能直接拿来使用。同时来自不同的应用系统中的数据由于合并而普遍存在数据的重复和信息的冗余现象。
6
常见的数据预处理方法有:数据清洗、数据集成、数据变换和数据归约。。
数据预处理的基本方法
数据清理
数据集成
数据变换
数据归纳
-2,32,100,59,48
-,,,,
属性
属性
数据预处理的典型形式
7
数据清理(data cleaning)处理例程通常包括:填补遗漏的数据值、平滑有噪声数据、识别或除去异常值,以及解决不一致问题。
数据集成(data integration)就是将来至多个数据源的数据合并到一起,形成一致的数据存储,如将不同数据库中的数据集成入一个数据仓库中存储。之后,有时还需要进行数据清理以便消除可能存在的数据冗余。
数据变换(data transformation)主要是将数据转换成适合于挖掘的形式,如将属性数据按比例缩放,使之落入一个比较小的特定区间。这一点对那些基于距离的挖掘算法尤为重要。包括平滑处理、聚集处理、数据泛化处理、规格化、属性构造。
数据归约(data reduction)在不影响挖掘结果的前提下,通过数值聚集、删除冗余特性的办法压缩数据,提高挖掘模式的质量,降低时间复杂度。
8
目前,数据仓库和数据挖掘在理论和应用上都获得了极大的发展,数据预处理作为其重要的、必不可少的组成部分,技术也随之快速发展。现阶段数据预处理技术中研究最多的是数据清洗和数据归约技术。
数据预处理的研究现状
9
数据清洗研究内容主要涉及以下几方面:
(1)对数据集进行检测。现阶段主要有以下方法:可以采用统计学的方法来对数据进行统计分析,计算属性值的各种数值,如考虑属性值之间差别大小,方差等。还有可以对与其他数据格式不一致的数据进行格式转换,使之格式符合数据挖掘的需要。
(2)对数据集中重复的对象进行消除,也就是对重复记录的清理。对重复数据的处理在数据仓库环境下特别重要,因为在具有多个数据源的时候可能会产生大量的重复记录。
(3)对缺失数据的补齐,研究者大多采用可靠的