文档介绍:第4章数据预处理
数据预处理概述
原始数据中存在的问题
.不一致
.重复
.不完整
.含噪声
.维度高
.数据不平衡
.
.数据?#洗(datacleaning)
.数据集成(dataint97
3154
324
1720
1702
5841
750、
陆育国房家装文具商品类型
表*3"销售记录”表结构
题性名称
数据类型
长度
说明
goods_typc
String
10
商品类型
year
string
4
年的
province
string
20
省粉
sales
real
6
期售金额(万元)
图4-2销售数据立方体
维归约
.逐步向前选择
.逐步向后删除
.向前选择和向后删除结合
.判定树(dicisiontree)归纳
.基于统计分析的归约
数据压缩
数值归约
(histogram)
图4-5购买数据的单桶直方图
(sampling)
图4-6购买数据的等宽直方图(箱宽5)
21
800
0
58
23。口
0
34
4000
1
32
21CQ
2
54
1800
2
50
3QCQ
2
26
1800
0
23
1600
1
28
4500
1
44
3500
2
age
income
level
age
inconnc
level
21
8tXI
0
21
800
0
23
1600
0
■*-
26
1800
]
26
1S00
1
28
4500
L
age
income
level
age
iTicome
level
34
4000
1
■
34
4000
1
32
2100
2
age
income
level
age
income
level
44
3500
2
44
350。
2
age
income
level
age
income
level
56
2300
0
50
3000
2
54
l«00
2
50
3000
2
图4-8用户数据按年龄分层抽样
.线性回归
.非线性回归
.
分稻后的却隹风
1,数值数据的离散化与概念分层生成
黑,会
D1:
TJH
DI
「7120)二>LiaoddT)最高位有6个不同的值,
分成3个等览的区域
U〔谓TNCJ2^5O%最高位有之个不同的面
£T-D3V^-分成4个等就的区域
Cj5J0T5\\O25^°l5\\
1)22VvD32V\
P24D34
图4-103-4-5规则产生的概念分层
J"
5%95%
图4-11数据集D的分布曲线
最高位有4个不同的值,分成4个等宽的区域
Q(j^yoT)(^[2o3oT)
D2D3D4
图4-12在置信区间[5%,
95%]上的第一层划分
图4-13对缺失区间补充的划分
[-10,30]
[-13,10)
[-10,0)
[10,20)
|独岫
[30,32)
|10J2)
[3031)
)
[)
[31,32)
Uk⑹
L24J6)
[26,28)
TT)
CJUVO)
图4-14对图4-13进一步分层
U?5匚)Cfripnth^c^fendayT^
th
图4-15对属性组:year,month,day的概念分层
习题4
.列举实际业务操作数据中存在的问题以及这些问题产生的原因。
.数据预处理涉及哪些方法,这些方法分别用于解决数据中的哪方面的问题?
.说明属性