1 / 63
文档名称:

数据挖掘概念与技术原书第2版第2章数据预处理.ppt

格式:ppt   页数:63页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘概念与技术原书第2版第2章数据预处理.ppt

上传人:799474576 2013/8/4 文件大小:0 KB

下载得到文件列表

数据挖掘概念与技术原书第2版第2章数据预处理.ppt

文档介绍

文档介绍:数据预处理
为什么对数据进行预处理
描述性数据汇总
数据清理
数据集成和变换
数据归约
离散化和概念分层生成
第二章数据预处理
现实世界的数据是“肮脏的”——数据多了,什么问题都会出现
不完整
缺少数据值;缺乏某些重要属性;仅包含汇总数据;
., occupation=""
有噪声
包含错误或者孤立点
. Salary = -10
数据不一致
., 在编码或者命名上存在差异
., 过去的等级: “1,2,3”, 现在的等级: “A, B, C”
., 重复记录间的不一致性
., Age=“42” Birthday=“03/07/1997”
为什么进行数据预处理?
不完整数据的成因
数据收集的时候就缺乏合适的值
数据收集时和数据分析时的不同考虑因素
人为/硬件/软件问题
噪声数据(不正确的值)的成因
数据收集工具的问题
数据输入时的人为/计算机错误
数据传输中产生的错误
数据不一致性的成因
不同的数据源
违反了函数依赖性
数据为什么会变“脏”?
没有高质量的数据,就没有高质量的挖掘结果
高质量的决策必须依赖高质量的数据
. 重复值或者空缺值将会产生不正确的或者令人误导的统计
数据仓库需要对高质量的数据进行一致地集成
数据预处理将是构建数据仓库或者进行数据挖掘的工作中占工作量最大的一个步骤
数据预处理为什么是重要的?
一个广为认可的多维度量观点:
精确度
完整度
一致性
合乎时机
可信度
附加价值
可解释性
跟数据本身的含义相关的
内在的、上下文的、表象的以及可访问性
数据质量的多维度量
数据清理
填写空缺的值,平滑噪声数据,识别、删除孤立点,解决不一致性
数据集成
集成多个数据库、数据立方体或文件
数据变换
规范化和聚集
数据归约
得到数据集的压缩表示,它小得多,但可以得到相同或相近的结果
数据离散化
数据归约的一部分,通过概念分层和数据的离散化来规约数据,对数字型数据特别重要
数据预处理的主要任务
动机:为了更好的理解数据
获得数据的总体印像
识别数据的典型特征
凸显噪声或离群点
度量数据的中心趋势
均值、中位数、众数(模)、中列数
度量数据的离散程度
四分位数、四分位数极差、方差等
描述性数据汇总