文档介绍:第二章数据准备
本章目标:
分析原始大型数据集的基本表述和特征。
对数值型属性应用不同的标准化技术。
了解数据准备的不同技术,包括属性转化。
比较去除丢失值的不同方法。
构造时间相关数据的统一表达方法。
比较不同异常点探测技术。
实现一些数据预处理技术。
    原始数据的表述
常见的数据类型:
数据挖掘过程的基本对象是数据样本,每个样本都用几个特征来描述,每个特征有不同的类型的值。常见类型:数值型和分类型。数值型的值包括实型变量和整型变量。
数值型:其特征是其值有顺序关系和距离关系。
分类型:其特征是变量间是否相等,且可用二进制数来表述。
基于变量值的变量分类法:连续型变量和离散型变量.
连续型变量也称为定量型或度量型变量。可用间隔尺度或比例尺度来衡量。温度尺度属间隔尺度,没有绝对零点。高度、长度和工资属比例尺度,有绝对零点,
离散型变量也称为定性型变量。可用名义尺度或有序尺度来衡量。顾客类型标志和邮编属名义尺度,排名属有序尺度。
周期变量是一种特殊的离散变量,存在距离关系不存在顺序关系。星期、月属周期变量。
基于数据的与时间有关的行为特性的类型:静态数据和动态数据。
在数据挖掘初始阶段面对的数据也许有潜在的杂乱性,存在着丢失值、失真、误记录和不适当的样本。因此在必须根据已有的数据甚至是丢失值的数据进行建模。这样就可能避免在挖掘前处理丢失值问题。
原始数据的特性
另一个问题是必须有处理“非常值”的机制,来消除“非常值”对最终结果的影响,数据可能并不是来自我们假定的总体。异常点是典型的例子。
失真的数据、方法上错误的步骤、滥用挖掘工具、模型太理想化、超出各种不确定性和模糊性的数据来源的模型可能导致挖掘方向的错误。因此挖掘不只是简单在应用一系列工具于已知问题,而是一种批判性的鉴定、考查、检查以及评估过程。
挖掘过程中一个最关键的步骤是对初始数据集的预备和转换,数据预备有两个中心任务:
,使其能被挖掘工具和其他基于计算机的工具处理(一个关系表)
挖掘中基于n维空间距离计算的方法需要对数据进行标准化处理来达到最佳效果,将数据按比例对应到特定的范围,否则距离测量将会超出平均起来数值更大的那些特征。标准化常用技术:
原始数据的转换
(1)小数缩放:小数缩放移动小数点,但大多数原始数据保持不变。设缩放区间为[-1,1],其变换公式为:
K是保证缩放后的值落在指定区间的最小比例。方法为:在原数据集中选择绝对值最大者,取K使该值绝对值〈1,然后将该因子施加于所有数据进行缩放。
(2)最小-最大标准化:小数缩放存在这样一个问题,假设数据集在150到250之间,,只落在[-1,1]中的一个小的子区间中,为了使值在整个标准区间中有较好的分布,采用最小-最大公式: