文档介绍:数据挖掘实验报告
学院名称 计算机科学与技术学院
专业名称
学 生
学 号 5
漏电评价指标进行处理并选取其中
告警及线损数据和该用户在当天是否窃漏电的标
291 个样本数据,得到专家样本,使用 CART决
策树实现分类预测模型。
注意:数据的 80%作为训练样本,剩下的
20%作为测试样本。
四、 实验步骤
1、对数据进行预处理
2、把数据随机分为两部分,一部分用于训练,一部分用于测试。
3、使用 tree 包里的 tree 函数以及训练数据构建 CART决策树模型, 使用 predict 函数和构
建的 CART决策树模型分别对训练数据和测试数据进行分类。
4、使用 nnet 包里面的 nnet 函数以及训练数据构建神经网络模型,使用 predict 函数和构
建的神经网络模型分别对训练数据和测试数据进行分类。
5、对比分析 CART决策树和神经网络模型对数据处理的结果。
五、 实验结果
1、划分后的决策树
2、运行的 nnet 脚本
六、 思考与分析
1、尝试采用神经网络对数据进行分类, 并与 CART决策树的结果进行比较。 比较结果如下图
显示
实验三
一、 实验原理
K-means 算法是硬聚类算法,是典型的基于原型的目标函数聚类方法的代表,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规
则。 K-means 算法以欧式距离作为相似度测度,它是求对应某一初始聚类中心向量 V 最优分类,使得评价指标 J 最小。算法采用误差平方和准则函数作为聚类准则函数。
二、 实验目的:
1、利用 R 实现数据标准化。
2、利用 R 实现 K-Meams聚类过程。
三、 实验容
1、依据航空公司客户价值分析的 LRFMC模型提取客户信息的 LRFMC指标。对其进行标准差
标准化并保存后, 采用 k-means 算法完成客户的聚类, 分析每类的客户特征, 从而获得每类
客户的价值。编写 R 程序,完成客户的 k-means 聚类,获得聚类中心与类标号,并统计每个
类别的客户数
四、 实验步骤
1、对已有的数据进行数据清理,对处理后的数据进行保存。
2、数据探索,确定探索分析的变量,去掉日期型变量,最终输出变量最值、缺失情况。
3、将数据进行标准化处理。
4、进行聚类分析,得出类别分布。
五、 实验结果
1、数据清理结果
2、聚类分析结果
六、 思考与分析
1、使用不同的预处理对数据进行变化,再使用
k-means
算法进行聚类,对比聚类的结果。
k-means
算法接受参数
k ;然后将事先输入的
n 个数据对象划分为
k 个聚类以便
使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。
聚类相似度是利用各聚类中对象的均值所获得一个 “中心对象” (引力中心) 来进行计算的。
优点: 1. 计算时间段,速度快; 2. 容易解释; 3. 聚类效果还不错。
实验四
一、 实验原理
Apriori
算法是一种挖掘关联规则的频繁项集算法,
其核心思想是通过候选集生成和情
节的向下封闭检测两个阶段来挖掘频繁项集。该算法的基本思想是:首先找出所有的频集,
这些项集出现的频繁性至少和预定义的最小支持度一样。 然后由频集产生强关联规则, 这些
规则必须满足最小支持度和最小可信度。 然后使用第 1 步找到的频集产生期望的规则, 产生
只包含集合的项的所有规则, 其中每一条规则的右部只有一项, 这里采用的是中规则的定义。一旦这些规则被生成, 那么只有那些大于用户给定的最小可信度的规则才被留下来。 为了生成所有频集,使用了递归的方法。
二、 实验目的
掌握
R 语言