1 / 12
文档名称:

数据挖掘-weka.doc

格式:doc   页数:12页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘-weka.doc

上传人:yzhluyin9 2016/7/13 文件大小:0 KB

下载得到文件列表

数据挖掘-weka.doc

相关文档

文档介绍

文档介绍:信息管理学院 08计科刘晓龙 200808030109 W eka 介绍目录 (购物篮分析) WEKA 的全名是怀卡托智能分析环境( Waikato Environment for Knowledge Analysis ) , 得到。同时 weka 也是新西兰的一种鸟名,而 WEK A的主要开发者来自新西兰。 WEKA 作为一个公开的数据挖掘工作平台, 集合了大量能承担数据挖掘任务的机器学****算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。如果想自己实现数据挖掘算法的话,可以看一看 weka 的接口文档。在 weka 中集成自己的算法甚至借鉴它的方法自己实现可视化工具并不是件很困难的事情。 2005 年8月,在第 11 届 ACM SIGKDD 国际会议上,怀卡托大学的 Weka 小组荣获了数据挖掘和知识探索领域的最高服务奖, Weka 系统得到了广泛的认可,被誉为数据挖掘和机器学****历史上的里程碑,是现今最完备的数据挖掘工具之一(已有 11 年的发展历史)。 Weka 的每月下载次数已超过万次。 2. 数据格式首先我们来看看 WEKA 所用的数据应是什么样的格式。跟很多电子表格或数据分析软件一样, WEKA 所处理的数据集是图 1那样的一个二维的表格。图1新窗口打开这里我们要介绍一下 WEKA 中的术语。表格里的一个横行称作一个实例( Instance ), 相当于统计学中的一个样本, 或者数据库中的一条记录。竖行称作一个属性( Attrbute ), 相当于统计学中的一个变量,或者数据库中的一个字段。这样一个表格,或者叫数据集,在 WEKA 看来,呈现了属性之间的一种关系(Rela tion) 。图 1中一共有 14 个实例, 5个属性,关系名称为“ weather ”。 WEKA 存储数据的格式是 ARFF ( Attribute-Relation File Format )文件,这是一种 ASCII 文本文件。图1 所示的二维表格存储在如下的 ARFF 文件中。这也就是 WEKA 自带的“ ”文件,在 WEK A安装目录的“ data ”子目录下可以找到。 Code: %ARFF file for the weather data with some numric features %***@relation weather ***@attribute outlook {sunny, overcast, rainy} ***@attribute temperature real ***@attribute humidity real ***@attribute windy {TRUE, FALSE} ***@attribute play {yes, no} ***@data %%14 instances %sunny,85,85,FALSE,no sunny,80,90,TRUE,no overcast,83,86,FALSE,yes rainy,70,96,FALSE,yes rainy,68,80,FALSE,yes rainy,65,70,TRUE,no overcast,64,65,TRUE,yes sunny,72,95,FALSE,no sunny,69,70,FALSE,yes rainy,75,80,FALSE,yes sunny,75,70,TRUE,yes overcast,72,90,TRUE,yes overcast,81,75,FALSE,yes rainy,71,91,TRUE,no 需要注意的是,在 Windows 记事本打开这个文件时,可能会因为回车符定义不一致而导致分行不正常。推荐使用 UltraEdit 这样的字符编辑软件察看 ARFF 文件的内容。下面我们来对这个文件的内容进行说明。识别 ARFF 文件的重要依据是分行,因此不能在这种文件里随意的断行。空行(或全是空格的行)将被忽略。以“% ”开始的行是注释, WEKA 将忽略这些行。如果你看到的“ ”文件多了或少了些“% ”开始的行,是没有影响的。除去注释后,整个 ARFF 文件可以分为两个部分。第一部分给出了头信息( Head information ),包括了对关系的声明和对属性的声明。第二部分给出了数据信息( Data information ), 即数据集中给出的数据。从“***@data ”标记开始,后面的就是数据信息了。关系声明关系名称在 ARFF 文件的第一个有效行来定义,格式为***@relation <relation-name> <relation