文档介绍:: .
ArffViewer 可以在安装目录下查看
软件自带的几个 ARFF 文件。
图 1
图 2
3数据挖掘-WAKA 实验报告
如图 2,打开文件后选择 data 自目录下的任意一张表,我们都可以看到如图 3
所示的二维表格存储在如下的 ARFF 文件中。这也就是 WEKA 自带的
“contact-”文件。这里我们要介绍一下 WEKA 中的术语。表格
里的一个横行称作一个实例(Instance),相当于统计学中的一个样本,或者数
据库中的一条记录。竖行称作一个属性(Attrbute),相当于统计学中的一个变
量,或者数据库中的一个字段。这样一个表格,或者叫数据集,在 WEKA 看来,
呈现了属性之间的一种关系(Relation)。图 1 中一共有 22 个实例,5 个属性,
关系名称为“contact-lenses”。
除了 ARFF格式,WEKA 还支持另外一种常见格式,CSV 格式。CSV 同样是
一种二进制保存的文本格式,我们可以在 WEKA 中直接打开 CSV 格式的文件,
并保存为 ARFF 格式。这样就给我提供了把常见的数据格式转换为 ARFF 格式的
方法,如对于 Excel 文件,我们 可以通过把张表保存为每 CSV 格式,进而保存
为 ARFF 格式,与此同时,我们可以利用 filter 对数据进行相应的预处理。而对
于 Matlab 格式的数据,我们可以通过命令 csvwrite 把数据转化成 CSV 格式的文
件,进而转化为 ARFF 格式文件。对于海量数据,一般保存在数据库中,WEKA
同时支持 JDBC 访问数据库。
图 3
4数据挖掘-WAKA 实验报告
打开WEKA,首先出现一个命令行窗口。原以为要在这个命令行下写java语
句呢,不过稍等一秒,WEKA GUI Chooser的出现了。这是一个很简单的窗体,
提供四个按钮:Simple CLI、Explorer、Experimenter、KnowledgeFlow。Simple
CLI应该是一个使用命令行的界面,有点像SAS的编辑器;Explorer是则是视窗
模式下的数据挖掘工具;Experimenter和 KnowledgeFlow的使用有待进一步摸
索....
图4
(1) Explorer
使用 WEKA 探索数据的环境。在这个环境中,WEKA提供了数据的预处理,
数据格式的转化(从CSV格式到ARFF格式的转化),各种数据挖掘算法(包括分
类与回归算法,聚类算法,关联规则等),并提供了结果的可视化工具。对于一
个数据集,通过