1 / 22
文档名称:

数据挖掘WEKA实验报告.pdf

格式:pdf   大小:1,725KB   页数:22页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘WEKA实验报告.pdf

上传人:guoxiachuanyue002 2022/5/20 文件大小:1.68 MB

下载得到文件列表

数据挖掘WEKA实验报告.pdf

文档介绍

文档介绍:: .
录。竖行称作一个属性(Attrbute),相当于统计学中的一个变
量,或者数据库中的一个字段。这样一个表格,或者叫数据集,在 WEKA 看来,
呈现了属性之间的一种关系(Relation)。图 1 中一共有 22 个实例,5 个属性,
关系名称为“contact-lenses ”。
除了 ARFF 格式,WEKA 还支持另外一种常见格式,CSV 格式。CSV 同样是
一种二进制保存的文本格式,我们可以在 WEKA 中直接打开 CSV 格式的文件,
并保存为 ARFF 格式。这样就给我提供了把常见的数据格式转换为 ARFF 格式的
方法,如对于 Excel 文件,我们 可以通过把每张表保存为 CSV 格式,进而保存
为 ARFF 格式,与此同时,我们可以利用 filter 对数据进行相应的预处理。而对
于 Matlab 格式的数据,我们可以通过命令 csvwrite 把数据转化成 CSV 格式的文
件,进而转化为 ARFF 格式文件。对于海量数据,一般保存在数据库中,WEKA
同时支持 JDBC 访问数据库。
图 3
4数据挖掘-WAKA 实验报告
打开WEKA,首先出现一个命令行窗口。原以为要在这个命令行下写java语
句呢,不过稍等一秒,WEKA GUI Chooser的出现了。这是一个很简单的窗体,
提供四个按钮:Simple CLI、Explorer、Experimenter、KnowledgeFlow。Simple
CLI应该是一个使用命令行的界面,有点像SAS的编辑器;Explorer是则是视窗
模式下的数据挖掘工具;Experimenter和 KnowledgeFlow的使用有待进一步摸
索....
图4
(1) Explorer
使用 WEKA 探索数据的环境。在这个环境中,WEKA提供了数据的预处理,
数据格式的转化(从CSV格式到ARFF格式的转化),各种数据挖掘算法(包括分
类与回归算法,聚类算法,关联规则等),并提供了结果的可视化工具。对于一
个数据集,通过简单的数据的预处理,并对数据挖掘算法进行选择(
版本之后,加入了算法的过滤功能,可以过滤掉那些不适合当前数据集类型的算
法),接着通过窗口界面对算法的参数进行配置。可视化工具分为对数据集的可
视化和对部分结果的可视化,并且我们可以通过属性选择工具(Select Attribute),
通过搜索数据集中所有属性的可能组合,找出预测效果最好的那一组属性。
Explorer是普通用户最常用的一个界面。用户可以从ARFF文件(Weka使用
的一种文本文件格式)、网页或数据库中读取数据集。打开数据文件后,可以选
择算法对数据进行预处理。这时窗体上给出了这个数据集的一些基本特征,如含
有多少属性,各属性的一些简单统计量,右下方还给出一些可视化效果图。这些
都是比较直观的分析,如果想发现隐藏在数据集背后的关系,还需要选择Weka
5数据挖掘-WAKA 实验报告
提供的各种分类、聚类或关联规则的算法。所有设置完成后,点击Start按钮,
就可以安心地等待weka带来最终的结果。哪些结果是真正有用的还要靠经验来
判断。
(2)Experimenter
运行算法试验、管理算法方案之间的统计检验的环境。Experiment环境可以
让用户创建,运行,修改和分析算法试验,这也许比单独的分析各个算法更加方
便。例如,用户可创建一次试验,在一系列数据集上运行多个算法(schemes),
然后分析结果以判断是否某个算法比其他算法(在统计意义下)更好。
Explorermenter主要包括