文档介绍:Clementine 变量管理
——[流3(,,).str,流3().str,流3(,).str]
第3章 Clementine变量的管理
数据挖掘的数据通常以变量为列、样本为行的二维表形式组织,所以,Clementine数据的基本管理包括变量管理和样本管理两大方面。变量管理和样本管理是数据准备的重要方面,是建立数据模型的前提和基础。本章将集中讨论变量管理。
变量管理以变量为基本单位,实现变量说明、变量值的重新计算、变量类别值的调整、生成新变量、变量值的离散化处理、生成样本集分割变量等目标。变量管理的节点工具放置在节点工具箱的字段选项(Field Ops)卡中,具体节点如图3-1所示。
图3-1 字段选项( Field Ops)卡中的节点工具
变量说明
变量说明是对读入数据流中变量取值的有效性进行限定、检查和修正,同时指明各个
变量在未来建模中的角色。一方面,变量说明是确保高质量数据的有效手段,另一方面也
是明确变量建模地位的重要途径。变量说明应通过字段选项( Field Ops)卡中的类型(Type)节点实现。
这里,以学生参加某次社会公益活动的数据()为例,讲解变
量说明的具体操作方法。
首先,
据。浏览数据发现:
●家庭人均年收入变量中有部分样本取$null$,为系统缺失值;还有一个由于不明原因
而明显错误的数据999999。应对它们进行恰当修正。
是否无偿献血变量值填写不规范,规范值应为Yes和No,但出现了l(表示Yes)
和0(表示No)。应将l替换为Yes,0替换为No。
为处理上述问题,选择字段选项( Field Ops)卡中的类型(Type)节点并将其连接到数据流的相应位置上,右击鼠标,选择弹出菜单中的编辑(Edit)选项,所显示的参数设置窗口如图3-2所示。
图3-2 类型节点的参数设置窗口
这里,从缺失值(Missing)、变量取值有效性检查和修正(Check)、变量方向(Direction)三个方面进行说明。
取值范围和缺失值的说明
取值范围即指变量正常值的区间。缺失值通常包括两类:一类是系统缺失值,Clementine用$null$表示,还包括空格或空白等。另一类是用户缺失值,主要指那些取值明显不合理的数据。
这里,首先,添加变量值标签以规范是否无偿献血的取值,指定用户缺失值;其次,说明家庭人均年收入的合理取值范围。为此,应分别选择是否无偿献血和家庭人均年收入变量,鼠标选择图3-2中的缺失(Missing)列。其中有三个选项。
●开(*)[On(*)]:表示允许相应变量取用户缺失值,不进行修正,但用户缺失值并不等同于正常值。
●关(Off): 表示不允许相应变量取用户缺失值。
●指定(Specify):定义变量值取值范围、用户缺失值等信息。这里,选择该项,窗口如图3-3和图3-4所示。
图3-3 集(Set)类型的指定(Specify)窗口图3-4 范围(Range)类型的指定(Specify) 窗口
不同类型变量的指定(Specify)窗口略有差别,但含义大体一致。
■类型(Type)选项:显示当前变量的类型和存储类型。
■值(Values)选项:指定决定变量取值范围的方法。其中,读取数据(Read from data)表示取决于所读的外部数据;传递(Pass)表示忽略所读的外部数据;指定值和标签(Specify values and labels)表示人为指定变量取值和变量值标签。用户可根据当前变量的实际意义,手工指定其合理的取值,并在标签(Label)框中输入关于变量值含义的简短说明文字。
这里,为指示是否无偿献血的合理取值,分别在Yes和No行对应的标签(Labels)列中输入变量值标签“无偿献血”、“未无偿献血”;家庭人均年收入的取值范围不能直接由外部数据决定,否则Clementine将视999999(用户缺失值)为正常值。。
■检查值(Check values)选项:指定对变量值的修正方法,该功能同图3-2中的检查(Check)列。
■定义空白(Define blanks)选项:选中该选项,表示视下列值为空白。其中,缺失值( Missing values )框:在此处输入的离散值都当空白处理;范围—到( Range to)框:在此处输入的连续区间中的值都当作空白处理;无效值(Null) 和空白(White space):系统缺失值$null$或空格都当作空白处理。