1 / 7
文档名称:

数据挖掘.doc

格式:doc   页数:7页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘.doc

上传人:ffy51856fy 2016/6/11 文件大小:0 KB

下载得到文件列表

数据挖掘.doc

文档介绍

文档介绍:数据挖掘数据清理例程通过填写遗漏的值, 平滑噪音数据, 识别、删除局外者, 并解决不一致来“清理”数据. 遗漏值: 使用最可能的值填充遗漏值:可以用回归、使用贝叶斯形式化方法或判定树归纳等基于推导的工具确定. 例如,利用你的数据集中其他顾客的属性,你可以构造一棵判定树,来预测 e 的遗漏值。噪音数据: 噪音是测量变量的随机错误或偏差. 数据平滑技术分箱: 分箱方法通过考察“邻居”(即, 周围的值) 来平滑存储数据的值。按平均值平滑、按中值平滑、按边界平滑( 箱中的最大和最小值同样被视为边界) (箱中的每一个值被箱中的平均值、中值、最近的边界替换) 聚类: 局外者可以被聚类检测。聚类将类似的值组织成群或“聚类”。计算机和人工检查结合: 可以通过计算机和人工检查结合的办法来识别局外者。回归:可以通过让数据适合一个函数(如回归函数)来平滑数据。不一致数据有些数据不一致可以使用其它材料人工地加以更正。涉及集成多个数据库、数据方或文件,即数据集成数据变换操作, 如规格化和聚集, 是导向挖掘过程成功的预处理过程数据集成实体识别有些冗余可以被相关分析检测到。“重复”也应当在元组级进行检测。仔细将多个数据源中的数据集成起来, 能够减少或避免结果数据集中数据的冗余和不一致性。这有助于提高其后挖掘的精度和速度。数据变换数据变换将数据转换成适合于挖掘的形式。数据变换可能涉及如下内容: 平滑:去掉数据中的噪音。这种技术包括分箱、聚类和回归。聚集: 对数据进行汇总和聚集。例如, 可以聚集日销售数据, 计算月和年销售额。通常,这一步用来为多粒度数据分析构造数据方。数据泛化:使用概念分层,用高层次概念替换低层次“原始”数据。例如, 分类的属性,如 street , 可以泛化为较高层的概念,如 city 或 country 。类似地,数值属性,如 age ,可以映射到较高层概念, 如 young, middle-age 和 senior 。规范化: 将属性数据按比例缩放, 使之落入一个小的特定区间,如- 到 或 到 。属性构造(或特征构造) :可以构造新的属性并添加到属性集中,以帮助挖掘过程。数据规范化方法: 最小- 最大规范化、 z-score 规范化( 或零- 均值规范化)和按小数定标规范化。最小- 最大规范化: 对原始数据进行线性变换在 z- score 规范化(或零- 均值规范化)中,属性 A 的值基于 A 的平均值和标准差规范化。小数定标规范化通过移动属性 A 的小数点位置进行规范化。小数点的移动位数依赖于 A 的最大绝对值。数据归约得到数据集的压缩表示, 它小得多, 但仍接近地保持原数据的完整性,并能够产生同样的(或几乎同样的)分析结果。数据归约策略, 包括数据聚集( 例如, 建立数据方)、维归约( 例如, 通过相关分析,去掉不相关的属性) 、数据压缩(例如,使用诸如最短编码或小波等编码方案) 和数字归约( 例如, 使用聚类或参数模型等较短的表示“替换”数据)。数据方聚集:聚集操作用于数据方中的数据。维归约: 可以检测并删除不相关、弱相关或冗余的属性或维。维归约通过删除不相关的属性( 或维) 减少数据量。通常使用属性子集选择方法。属性子集选择的目标是找出最小属性集, 使得数据类的概率分布尽可能地接近使用所有属性的原分布。属性子集选择的基本启