文档介绍：Clementine 基础
School of Economics and Management
李向东
河北工业大学
Clementine软件概述
Clementine最早属英国ISL(Integral Solutions Limited)公司的产品,后被SPSS公司收购
2009年,SPSS被IBM公式收购,更名为IBM SPSS Modeler, V14版。
自2000年以来,KDnuggets公司面向全球开展“最近12个月你使用的数据挖掘工具”的跟踪调查,Clementine一直列居首位
Clementine软件概述
Clementine的操作与数据分析的一般流程相吻合
Clementine形象地将各个环节表示成若干个节点,将数据分析过程看作是数据在各个节点之间的流动,并通过图形化的“数据流”方式,直观表示整个数据挖掘
操作使用Clementine的目标:建立数据流,即根据数据挖掘的实际需要,选择节点,依次连接节点建立数据流,不断修改和调整流中节点的参数,执行数据流,最终完成相应的数据挖掘任务
内容索引
CRISP-DM 过程模型
Clementine用户界面
节点基本操作
数据流的基本管理和执行
示例()
CRISP-DM 过程模型
跨行业数据挖掘标准过程(CRISP-DM)
定位是面向行业、工具导向、面向应用
适用于大型工业和商业实践的一般标准
六个阶段:
商业理解
数据理解
数据准备
建模
模型评估
结果发布
Clementine用户界面
数据流区域
工具栏
菜单栏
选项板区
节点
数据流,
输出和模型
管理器窗口
项目管理窗口
一个图标代表在 Clementine 中进行的一个操作
一系列连接在一起的节点
状态窗口
选项板(卡)区
源节点——将数据读入 Clementine 中
记录选项节点——记录操作
字段选项节点——字段操作
图形节点——展示数据分布特征和变量关系规律的可视化数据
Favorites中集中放置常用的节点。
选项板区
建模节点——存放建立数据模型;注意:建模算法产生生成的模型
输出节点——存放展示数据和数据基本统计特征
导出节点——将数据转换成其它格式
Clementine软件概述
数据流的建立遵循数据挖掘方法论
读入数据
浏览数据
Source
选项卡
Output
选项卡
观察单变量分布特点
观察多变量相关性
Graphs
选项卡
Output
选项卡
评估数据质量
数据转换和派生
数据精简
Field Ops
选项卡
Record Ops选项卡
建立多个模型
评价选择模型
Modeling
选项卡
建立数据源
数据理解
数据准备
建立模型
集成数据
基本分析
深入分析
数据筛选
管理选项板