1 / 158
文档名称:

数据挖掘数据预处理.ppt

格式:ppt   大小:6,746KB   页数:158页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘数据预处理.ppt

上传人:977562398 2018/6/13 文件大小:6.59 MB

下载得到文件列表

数据挖掘数据预处理.ppt

相关文档

文档介绍

文档介绍:2018/6/13
第二章数据预处理
2018/6/13
1
为什么要进行数据挖掘?
现实世界的数据是脏的
不完整: 缺乏属性值,缺乏有意义的属性,或者只包含了汇总数据
., occupation=“”
有噪声: 包含错误的数据或异常值
., Salary=“-10”
不一致: 在代码或者名字中存在矛盾或不一致
., Age=“42” Birthday=“03/07/1997”
., Was rating “1,2,3”, now rating “A, B, C”
., discrepancy between duplicate records
2018/6/13
2
为什么数据预处理重要?
No quality data, no quality mining results!
Quality decisions must be based on quality data
., duplicate or missing data may cause incorrect or even misleading statistics.
Data warehouse needs consistent integration of quality data
Data extraction, cleaning, and prises the majority of the work of building a data warehouse
2018/6/13
3
2018/6/13
4
数据预处理的主要内容:
2018/6/13
数据预处理的主要内容
一、原始数据的表述
二、数据清理
三、数据变换
四、元组的归约
五、属性的归约
2018/6/13
5
数据样本是数据挖掘过程的基本组成部分。
一、原始数据的表述
2018/6/13
6
每个样本都用几个特征来描述,每个特征有不同类型的值。
2018/6/13
2018/6/13
常见的数据类型有:数值型和分类型。
数值型包括实型变量和整型变量
注:具有数值型值的特征有两个重要的属性:其值有顺序关系和距离关系。
7
2018/6/13
2018/6/13
一个有两个值的分类型变量:
分类型变量的两个值可以平等或不平等。
原则上可以转化成一个二进制的数值型变量,这种数值型变量有两个值:0或1;
而有N值的分类型变量原则上可以转化成一个二进制的数值型变量,这种数值型变量有N个值。
8
2018/6/13
2018/6/13
例如:如果变量“眼睛颜色”有4个值:黑色、蓝色、绿色、褐色。
特征值编码
黑色 1000
蓝色 0100
绿色 0010
褐色 0001
9
2018/6/13
2018/6/13
变量的分类:连续型变量和离散型变量。
连续型变量也认为是定量型或是量度型,是指在一定区间内可以任意取值的变量。
离散型变量也叫定性型变量,是指全部可能取到的不相同的值是有限个的变量。
注:一种特殊类型的离散型变量是周期变量,例如:星期、月和年中的日期。
10