文档介绍:数据挖掘报告 8 7 2 8 4
认真整理的精品 word 文档,下载即可编辑!!
2
细心整理,认真做精品
哈尔滨工业高校
数据挖掘理论与算例子〕:
认真整理的精品 word 文档,下载即可编辑!!
细心整理,认真做精品
由于试验承受的是 10-fold 穿插验证,因此最终准确率应当是每一折准确率的平均值。上述代码也包含了训练决策树和使用测试集验证决策树的代码,即:
该试验的最终准确率约是:test right rate:
基于树桩的Adaboost 算法
在python 中同样也实现了adaboost 算法,需要使用AdaBoostClassifier〔〕方法构造它。它有假设干可选项:
base_estimator 是设置adaboost 算法使用的弱分类器,默认是一层决策树,即树桩。
7
n_estimators 是设置迭代次数,每一次迭代时该算法选择数据集中的某一特征作为树桩的分类节点,训练集中被错误分类的记录将被增加权重,正确分类的记录将被降低权重,权重更新后的数据集将用于下一次迭代。初始时各个记录权重均为 1/n,n 为记录数目。
主要的实现语句如下:
……
最终在测试集上,由adaboost 生成的强分类器的准确率为:
kmeans 算法
读取数据集
Kmeans 算法的数据集是酒的品种数据。有 13 个属性,一个分类属性。共分成 3 类,数据集前 58 号为第一类,59-129 号为其次类,130-177 号为第三类。
初始化kmeans 参数
Python 包中的kmeans 类来创立方法实例。需要设置的主要参数是n_clusters,即聚簇数量。具体代码如下:
固然可以设置init 参数为random,表示随机生成初始质心。默认值的kmeans++,智能选择数据中的假设干项作为质心。
8
认真整理的精品 word 文档,下载即可编辑!!
细心整理,认真做精品
还有max_iter 可选项,表示kmeans 方法迭代次数。
聚类划分
聚簇划分代码如下:
错误率
计算聚簇划分的错误率,代码
结果:
[1
1
1
1
2
1
1
1
1
1
1
1
1
1
1
1
1
1
1
2
2
2
1
1
2
2
1
1
2
1
1
1
1
1
1
2
2
1
1
2
2
1
1
2
2
1
1
1
1
1
1
1
1
1
1
1
1
1
1
0
2
0
2
0
0
2
0
0
2
2
2
0
0
1
2
0
0
0
2
0
0
2
2
0
0
0
0
0
2
2
0
0