1 / 9
文档名称:

DW-DM实验(李向东)Clementine3样本管理.doc

格式:doc   大小:414KB   页数:9
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

DW-DM实验(李向东)Clementine3样本管理.doc

上传人:Q+1243595614 2017/10/20 文件大小:414 KB

下载得到文件列表

DW-DM实验(李向东)Clementine3样本管理.doc

文档介绍

文档介绍:第4章 Clementine样本的管理①
[流4(4).str]
变量管理和样本管理是数据准备的重要方面,是建立数据模型的前提和基础。本章将集中讨论样本管理。
样本管理主要针对样本,实现样本的排序、条件筛选、抽样、浓缩、分类汇总、平衡处理以及数据转置和重新组织等。样本管理的节点工具放置在节点工具箱的记录( Record Ops)卡中,具体节点如图4-1所示,还有一些相关节点放置在字段(Field Ops)卡中。
图4-1 记录选项(Record Ops)卡中的节点工具
样本的排序
样本排序有很广泛的应用,通过将样本数据按某个或某几个变量值的升序或降序重新排列,不仅便于浏览数据,而且还能够帮助发现数据可能存在的异常值。因为异常值往往是那些极大值或极小值。应通过记录选项(Record Ops)卡中的排序(Sort)节点实现样本排序。
这里,以高中学生某学期期末各科考试成绩数据()为例,说明排序的具体操作。操作目标是,分性别将总成绩按降序排序。
首先,;其次,建立导出(Derive)节点计算总成绩;再次,选择记录选项(Record Ops)卡中的排序(Sort)节点并将其连接到数据流的相应位置上,右击鼠标,选择弹出菜单中的Edit选项进行参数设置,显示的窗口如图4-2所示。
在字段(Field)列选择排序变量,在顺序(Order)列指定升序(Ascending)或降序(Descending)。这里,首先选择性别,指定按升序排序;再选择总成绩,指定在性别相同的情况下按降序排序。可通过输出(Output)卡中的表(Table)节点浏览排序结果。
图4-2 排序(Sort)节点的参数设置窗口
样本的条件筛选
分析有时只针对某类特征的样本进行,这时要首先给出条件,将满足条件的样本筛选出来。应通过记录选项(Record Ops)卡中的选择(Select)节点实现样本筛选。
这里,仍以高中学生某学期期末各科考试成绩数据()为例说明样本筛选的具体操作。操作目标是,筛选出总成绩大于500分的所有男生(性别为1)
样本。
首先,
数据;其次,建立导出(Derive)节点计算总成绩;最后,选择记录选项(Record Ops)卡中的选择(Select)节点并将其连接到导出(Derive)节点之后,右击鼠标,选择弹出菜单中的编辑(Edit)选项进行参数设置,显示的窗口如图4-3所示。
图4-3 选择(Select)节点的参数设置窗口
在条件(Condition)框中输入CLEM表达式以表示筛选条件,也可以按右边的钮借助Clementine的CLEM 输入面板输入。模式(Mode)选项中,包括(Include)表示筛选出满足条件的样本,丢弃(Discard)表示剔除满足条件的样本。可通过输出(Output)卡中的表(Table)节点浏览样本筛选结果。
样本的随机抽样
数据挖掘的数据量通常比较庞大,海量数据的建模效率往往不高,因此一般可通