文档介绍：公司标准化编码 [QQX96QT-XQQB89Q8-NQQJ6Q8-MQM9N]
数据挖掘数据清洗
数据预处理
数据清理
数据清洗是清除错误和不一致数据的过程，当然，数据清洗不是简单的用更新数据记录，在数要交互式的数据挖掘，根据数据挖掘前后对比对数据进行信息反馈。数据消减技术正是用于从原有庞大数据集中获得一个精简的数据集合，并使这一精简数据集保持原有数据集的完整性，这样在精简数据集上进行数据挖掘显然效率更高，并且挖掘出来的结果与使用原有数据集所获得结果基本相同。
数据消减的目的就是缩小所挖掘数据的规模，但却不会影响（或基本不影响）最终的挖掘结果。现有的数据消减包括：（1）数据聚合；（2）消减维度，通过相关分析消除多余属性；（3）数据压缩；（4）数据块消减，利用聚类或参数模型替代原有数据。
数据清洗评估
数据清洗的评估实质上是对清洗后的数据的质量进行评估，而数据质量的评估过程是一种通过测量和改善数据综合特征来优化数据价值的过程。数据质量评价指标和方法研究的难点在于数据质量的含义、内容、分类、分级、质量的评价指标等。数据质量评估至少应该包含以下两方面的基本评估指标：
数据对用户必须是可信的。可信性包括精确性、完整性、一致性、有效性、唯一性等指标。
精确性: 描述数据是否与其对应的客观实体的特征相一致。
完整性: 描述数据是否存在缺失记录或缺失字段。
一致性: 描述同一实体的同一属性的值在不同的系统是否一致。
有效性: 描述数据是否满足用户定义的条件或在一定的域值范围内。
唯一性: 描述数据是否存在重复记录。
数据对用户必须是可用的。包括时间性、稳定性等指标。
时间性: 描述数据是当前数据还是历史数据。
稳定性: 描述数据是否是稳定的，是否在其有效期内。
高质量的决策必然依赖于高质量的数据，因此，数据变换操作，如规范化和集成，是导向挖掘过程成功的预处理过程，是十分必要和重要的。
1：
　　就是一个决策树算法，它是决策树(决策树也就是做决策的节点间的组织方式像一棵树，其实是一个倒树)核心算法ID3的改进算法，所以基本上了解了一半决策树构造方法就能构造它。决策树构造方法其实就是每次选择一个好的特征以及分裂点作为当前节点的分类条件。比ID3改进的地方时：
　　ID3选择属性用的是子树的信息增益(这里可以用很多方法来定义信息，ID3使用的是熵(entropy)(熵是一种不纯度度量准则)),。也就是多了个率嘛。一般来说率就是用来取平衡用的，就像方差起的作用差不多，有两个跑步的人，一个起点是10m/s的人、其1s后为20m/s；另一个人起速是1m/s、其1s后为2m/s。如果紧紧算差值那么两个差距就很大了，如果使用速度增加率(加速度)来衡量，2个人就是一样了。在这里，其克服了用选择属性时偏向选择取值多的属性的不足。在树构造过程中进行剪枝，我在构造决策树的时候好讨厌那些挂着几个元素的节点。对于这种节点，干脆不考虑最好，不然很容易导致overfitting。对非离散数据都能处理，这个其实就是一个个式，看对于连续型的值在哪里分裂好。也就是把连续性的数据转化为离散的值进行处理。能够对不完整数据进行处理，这个重要也重要，其实也没那么重要，缺失数