文档介绍:数据挖掘实验报告
数据挖掘实验报告
学 院名称 计算机科学与技术学院
专业名称
学生姓名
学 号 5
指导教师
二。一六年十一月
实验内容
实验一
一、实验原理
.缺省值的处理:用均值替换、回归查补和多一部分用于测试。
3、使用tree包里的tree函数以及训练数据构 建CART决策树模型,使用predict函数和构 建的CART决策树模型分别对训练数据和测 试数据进行分类。
4、使用nnet包里面的nnet函数以及训练数 据构建神经网络模型,使用 predict函数和构 建的神经网络模型分别对训练数据和测试数 据进行分类。
5、对比分析CART决策树和神经网络模型对
数据处理的结果。
五、实验结果
1、划分后的决策树
也I* ni_i Hl < icjiiijiih
2、运行的nnet脚本
小 weighr;
f! 51
initial
valLie
17^.2:74797
1T&T
IC
value
.S7&931
iter
20
value
&&733
iter
30
value
50.^84392
40
value
E04SS9722
it-ei
SC
value
£
[七三H
€0
value
iter
70
value
^
itex
30
value
50,123235
iter
9c
value
itex
二。。
val^.e
4g , 9572
Xinal vaius ^9 .
wtugpta 二 io。 =二kiq二w
I
六、思考与分析
1、尝试采用神经网络对数据进行分类,并与 CART决策树的结果进行比较。比较结果如下图 显示
里闻」WAWWQCI 士m」
10
o o
00 02 04 06 08
False positive rate
实验三
一、实验原理
K-means算法是硬聚类算法,是典型的基于 原型的目标函数聚类方法的代表,它是数据点到 原型的某种距离作为优化的目标函数, 利用函数 求极值的方法得到迭代运算的调整规则。 K-means算法以欧式距离作为相似度测度,它是 求对应某一初始聚类中心向量 V最优分类,使 得评价指标J最小。算法采用误差平方和准则函 数作为聚类准则函数。
二、实验目的:
1、利用R实现数据标准化。
2、利用R实现K-Meams聚类过程。
三、实验内容
1、依据航空公司客户价值分析的 LRFMC模型 提取客户信息的LRFMC指标。对其进行标准差 标准化并保存后,采用k-means算法完成客户的 聚类,分析每类的客户特征,从而获得每类客户 的价值。编写R程序,完成客户的k-means聚 类,获得聚类中心与类标号,并统计每个类别的 客户数
四、实验步骤
1、对已有的数据进行数据清理,对处理后的数 据进行保存。
2、数据探索,确定探索分析的变量,去掉日期 型变量,最终输出变量最值、缺失情况。
3、将数据进行标准化处理。
4、进行聚类分析,得出类别分布。
五、实验结果
1、数据清理结果
Flip. DATE
OtNDEiH
.
MQftlLCm
•UIUCPMINCE
单 5mckji
1
S4993
zoWl 1/2
2 DOB/12/24
JE
D
:二
LN .
2
2SCD5
2007/Z/1D
2DO7/S/3
3r
口
期
CN
1
551 DS
J0C77?/1
?007/8/3>-
鼻
01
北军
CN
d
211 IRS
joos/a/j?
JE
5
Lot
CA
US
5
3954S
2CO 974/10
2DOSM/15
S
0
SE
fffr,
CN
6
5M72
20Ca/2/10
2DO9/4/29
更
6-
i
一零
CN
7
44gM
20C5/3/22
2005/1/29
二
5
二曲:r讦音
仔骗
CN
(
22⑻
20W4/9
2010M/9
文
6
运制范
CN
y
32107
2011/6/7
2D11/7/1
*
§
DRAhlCY
FR
2、聚类分析结果
X
L
R
F
M
c
1
SS8410
0 H653Q41J
0 00366IS
-OCDS