1 / 98
文档名称:

第5章 数据预处理.ppt

格式:ppt   页数:98页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

第5章 数据预处理.ppt

上传人:zhangbing32159 2014/2/13 文件大小:0 KB

下载得到文件列表

第5章 数据预处理.ppt

文档介绍

文档介绍:数据挖掘原理与SPSS Clementine应用宝典
元昌安主编
邓松李文敬刘海涛编著
电子工业出版社
第5章数据预处理
本章包括:
数据预处理基本功能
数据预处理的方法
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但有潜在的有用信息和知识的过程。
数据挖掘:为企业决策者提供重要的、有价值的信息或知识,从而为企业带来不可估量的经济效益。
数据挖掘过程一般包括数据采集、数据预处理、数据挖掘以及知识评价和呈现。
在一个完整的数据挖掘过程中,数据预处理要花费60% 左右的时间,而后的挖掘工作仅占总工作量的10% 左右。

目前对数据挖掘的研究主要集中于挖掘技术、挖掘算法、挖掘语言等。
数据挖掘的必要性:
在海量的原始数据中,存在着大量杂乱的、重复的、不完整的数据,严重影响到数据挖掘算法的执行效率,甚至可能导致挖掘结果的偏差。
数据预处理分类:
从对不同的源数据进行预处理的功能来分,数据预处理主要包括数据清理、数据集成、数据变换、数据归约等4个基本功能。
在实际的数据预处理过程中, 这4种功能不一定都用到,而且,它们的使用也没有先后顺序, 某一种预处理可能先后要多次进行。
从数据预处理所采用的技术和方法来分:
基本粗集理论的简约方法;
复共线性数据预处理方法;
基于Hash函数取样的数据预处理方法;
基于遗传算法数据预处理方法;
基于神经网络的数据预处理方法;
Web挖掘的数据预处理方法等等。

在数据挖掘整体过程中,海量的原始数据中存在着大量杂乱的、重复的、不完整的数据,严重影响到数据挖掘算法的执行效率,甚至可能导致挖掘结果的偏差。为此,在数据挖掘算法执行之前,必须对收集到的原始数据进行预处理,以改进数据的质量,提高数据挖掘过程的效率、精度和性能。数据预处理主要包括数据清理、数据集成、数据变换与数据归约等技术。
数据清理
数据清理要去除源数据集中的噪声数据和无关数据,处理遗漏数据和清洗脏数据、空缺值, 识别删除孤立点等。

噪声是一个测量变量中的随机错误或偏差,包括错误的值或偏离期望的孤立点值。对于噪声数据有如下几种处理方法:
分箱法
聚类法识别孤立点
回归