文档介绍:机器学****与数据挖掘
学生姓名:
学号:6008
专业:计算机科学与技术
班级:计算机2084班
1实验内容
(1)
(2)属性个数对该关系的影响
2实验思路
。对于第一个问题来说,影响算法精度的因素很多,数据集大小只是其中的一个。在研究训练集对算法精度影响实验中要求固定其他影响因素,,对训练集进行多次不同随机采样,采用同样的测试集测试模型精度并记录每次测试的结果,最后分析比较得出结论。在研究测试集对算法精度影响时,采用同样的训练集对测试集进行不同的抽样得到不同的测试集,然后进行测试并记录结果,对结果进行归纳总结得出结论。对于第二个问题,使用同一个数据集,采用带筛选器的分类器,对处理后的数据进行10重交叉验证,记录所得精度,修改筛选器的抽样比率,得到不同的数据集,重复实验,比较得最后的结论。
此次试验要求采用多组数据进行相同的测试,最后分析归纳得出结论。
3实验过程
对实验数据进行预处理,将数据中的数值型数据转变为离散型数据。。选中Choose中的Discretize得到图2的界面进行参数设置attributeIndices设置的是想要离散化属性的标号,bins设置将属性离散为几个离散值。这里设置的是将第1,5,10个属性分别离散到三个数据段内。点击确定返回主页面并点击Apply完成离散化。
图1
,实例个数1100,属性个数13为例进行实验过程:
(1),,对原训练数据集进行无监督的随机抽样,选中ReservoirSample进行参数设置得到图2,将sampleSize属性设置为100,点击确定返回主页面并点击Apply即抽取100个数据作为新的训练数据集。
图2
(2) test set选项,点击set打开测试集进行测试如图3
图3
(3)%。这个结果相对来说比较低。
图4
(4),修改抽样个数,重复试验得到如下数据:
训练集抽样数
100
200
300
400
500
600
700
800
900
1100
模型
精度%
(5)对其他数据进行同样的实验得到下列数据:
,实例个数,属性个数17
训练集抽