1 / 19
文档名称:

DW-DM实验(李向东)Clementine4数据基本分析.doc

格式:doc   大小:1,630KB   页数:19
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

DW-DM实验(李向东)Clementine4数据基本分析.doc

上传人:Q+1243595614 2017/10/20 文件大小:1.59 MB

下载得到文件列表

DW-DM实验(李向东)Clementine4数据基本分析.doc

文档介绍

文档介绍:第5章 Clementine数据的基本分析
【流5(5).str】
数据挖掘往往从数据的基本分析开始,它是了解数据分布特征,把握数据间相关性强弱的基本手段,也是后续模型选择和深入分析的基础。
数据的基本分析一般从单变量的分析入手。通常,可通过探索性分析,评估数据的质量。通过计算基本描述统计量,确切掌握数据的分布特点,是数据进一步分析的基石;两变量相关性研究是数据基本分析的另一个重要方面,可通过列联表揭示变量之间的内在联系,通过均值检验了解数据之间的相互影响作用,是数据模型分析的基础。
数据的基本分析可通过具体数字实现,也可通过图形直观展示。本章将就这两个方面分析进行讨论。相应的节点放置在节点工具箱的输出(Output)卡和图形(Graphs)卡中,具体节点如图5-1和图5-2所示。
图5-1 输出(Output)卡中的节点工具
图5-2 图形(Graphs)卡中的节点工具
本章将以一份虚拟的电信客户数据为例,数据为SPSS格式,。该数据包括居住地、年龄、婚姻状况、家庭月收入(百元)、受教育水平、性别、家庭人口、基本服务累计开通月数、是否申请无线转移服务、上月基本费用、上月限制性免费服务项目的费用、无线服务费用、是否电子支付、客户所申请的服务套餐类型、是否流失15个变量。利用这份数据,可分析流失客户的一般特征,同时建立模型进行客户流失的预测。本章只对数据做基本分析。
数据质量的探索
高质量数据是数据分析的前提和分析结论可靠性的保障。Clementine数据质量的探索主要包括数据缺失问题、数据离群点和极端值两大方面,具体包括数据中有效样本比例的计算、变量中用户缺失值和空白比例的计算和处理、数据中离群点的诊断和处理等。
数据质量的探索应通过输出(Output)卡中的数据审核(Data Audit)节点实现。数据审核(Data Audit)节点还可以计算变量的基本统计量并绘制柱形图或直方图等。
电信客户数据分析的首要任务是对数据的质量进行考察。
数据的基本描述与质量探索
首先,按照读入SPSS数据的操作方法建立SPSS ;然后,建立类型(Type)节点说明变量角色。这里,指定是否流失为输出变量,其他变量均为输入变量;之后,选择输出(Output)卡中的数据审核(Data Audit)节点并将其连接到数据流的相应位置上,右击鼠标,选择弹出菜单中的编辑(Edit)选项进行参数设置,显示的窗口如图5-3所示。

(a) 参数设置窗口(b) 质量(Quality)选项卡
图5-3 数据审核(Data Audit)节点的参数设置窗口及其质量(Quality)选项卡
图5-3 (a)中,具体参数设置如下。
●默认值(Default)选项:表示对节点中的所有变量进行分析,其中类型(Type)节点中指定的输出变量将作为交叠字段(Overlay)变量,即如果交叠字段(Overlay)为分类型变量,则在所绘制的各统计图形中,分别显示该变量不同取值的分布状况。如果交叠字段(Overlay)为数值型变量,则将计算该变量与其他变量的简单相关系数、相关系数t检验的观测值和自由度、概率-p值以及协方差等;使用自定义字段(Use custom fields)选项:表示自定义参与计算的变量,如果必要,还应在交叠字段(Overlay)框中自行指定一个交叠字段(Overlay)变量。
说明:交叠变量(Overlay):“一张图中重叠,显示不同内容”
●显示(Display)选项:图形(Graphs)表示输出各变量的统计图形,包括柱形图、直方图和散点图[当交叠字段(Overlay)变量为数值型时];基本统计量(Basic statistics)表示计算输出各变量的基本描述统计量,主要包括数值型变量的最小值、最大值、均值、标准差、偏态系数等;高级统计量(Advanced Statistics)表示计算输出各变量的其他描述统计量,主要包括总和、极差、均值标准误差、方差、峰度系数等。
●计算中位数和中数(Calculate median and mode):选中表示计算各变量的中位数和众数。出于计算效率的考虑,Clementine不建议大样本时计算这两个指标。
图5-3 (b)中,具体参数设置如下。
●缺失值(Missing values)框:选中具有有效值的记录计数(Count of records with valid values),表示计算各变量上有效样本的个数;选中分解具有无效值的记录计数(Breakdown counts of records with invalid values),表示计算