1 / 29
文档名称:

Weka平台使用方法.doc

格式:doc   大小:1,892KB   页数:29页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

Weka平台使用方法.doc

上传人:mh900965 2018/2/26 文件大小:1.85 MB

下载得到文件列表

Weka平台使用方法.doc

相关文档

文档介绍

文档介绍:第一节知识获取平台— Weka简介
◆Weka简介
Weka是由新西兰怀卡托大学开发的智能分析系统(Waikato Environment for Knowledge Analysis) 。在怀卡托大学以外的地方,a,是一种现今仅存活于新西兰岛的,健壮的棕色鸟, 非常害羞,好奇心很强,但不会飞。
Weka是用Java写成的,它可以运行于几乎所有的操作平台,包括Linux,Windows等操作系统。
Weka平台提供一个统一界面,汇集了当今最经典的机器学习算法及数据预处理工具。做为知识获取的完整系统,包括了数据输入、预处理、知识获取、模式评估等环节,以及对数据及学习结果的可视化操作。并且可以通过对不同的学习方法所得出的结果进行比较,找出解决当前问题的最佳算法。
2005年8月,在第11届ACM SIGKDD国际会议上,怀卡托大学的Weka小组荣获了数据挖掘和知识探索领域的最高服务奖,Weka系统得到了广泛的认可,被誉为数据挖掘和机器学习历史上的里程碑,是现今最完备的数据挖掘工具之一(已有11年的发展历史)。Weka的每月下载次数已超过万次。
◆Weka平台在哪里下载?如何安装?
,然后在已安装了Java的机器上以通常的方式运行weka 。 .
用户名:liulizhen 口令:2001123
◆Weka包含了什么?
Weka提供了许多用于数据可视化及预处理的工具(也称作过滤器),包括种类繁多的用于数据集转换的工具等。所有机器学习算法对输入数据都要求其采用ARFF格式。
Weka作为一个公开的知识过去的工作平台,集合了大量能承担数据(知识)挖掘任务的机器学习算法,包括分类,回归、聚类、关联规则等。
如果想实现自己提出或改进的数据挖掘算法,可以根据Weka的接口文档,在Weka中集成自己的算法。
◆Weka的使用方法
一、是将一种学习方法应用于一个数据集,然后分析其输出,从而更多地了解这些数据(分析数
据集的潜在知识)。
二、是使用已学习到的模型对新的实例做出分类预测
三、是应用几种不同的学习器,再根据它们的性能表现选择其中一种用来做预测。
在Weka中将学习方法又称作分类器或学习器,用户可在Weka互动式界面的菜单中选择一种想要的分类器。许多分类器带有可调节的参数,这些参数可通过属性列表或对象编辑器进行更改。所有学习器的性能都是通过一个共同的评估模块进行衡量。
与选择学习器一样,用户也要从菜单中选择能满足或对应该学习器的过滤器(进行数据预处理)。不同的过滤器具有不同的参数。
Weka与许多数据分析软件一样,Weka所处理的数据集是一个二维的表格
这里我们要介绍一下Weka中的术语。表格里的一个横行称作一个实例(Instance),相当于统计学中的一个样本,或者数据库中的一条记录。竖行称作一个属性(Attrbute),相当于统计学中的一个变量,或者数据库中的一个字段。
这样一个表格叫做数据集,在Weka看来,呈现了属性之间的一种关系(Relation)。图中一共有14个实例,5个属性,关系名称为“weather”。 Weka存储数据的格式是ARFF(Attribute-Relation File Format)文件,这是一种ASCII文本文件。
图1所示的二维表格存储在如下的ARFF文件中。这也就是Weka自带的“”文件,在Weka安装目录的“data”子目录下可以找到。
简单说明
在第三列数据 85 90 86 96 ... 是相应的“humidity”值。其次,最后一个声明的属性被称作class属性,在分类或回归任务中,它是默认的目标变量。\都是以字母开头的字符串
每个实例占一行。实例的各属性值用逗号“,”隔开。如果某个属性的值是缺失值(missing value),用问号“?”表示. 如:***@data sunny,85,85,FALSE,no ?,78,90,?,yes ……………………
识别ARFF文件的重要依据
◆Weka中的属性介绍
数据集中的每一个属性都有它对应的“***@attribute”语句,来定义它的属性名称和数据类型。
Weka支持的有四种,分别是
numeric-------------------------数值型
nominal-specification-----------分类(nominal)型
string----------------------------字符串型
date []--------日期和时间型