1 / 36
文档名称:

004数据挖掘.ppt

格式:ppt   大小:312KB   页数:36页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

004数据挖掘.ppt

上传人:xunlai783 2018/5/16 文件大小:312 KB

下载得到文件列表

004数据挖掘.ppt

相关文档

文档介绍

文档介绍:预处理在数据挖掘中占重要位置
数据是系统行为测度
数据中蕴含系统规律
数据对系统表征能力
数据模型的表达能力
数据模型的可理解性
数据质量对精度影响
预处理
异构的数据源和数据对象
数据的选择、集成与整合,对问题进行限定
数据库中的数据具有噪声、缺值、不一致
数据的去噪、规范化,提高挖掘精度
数据规约
去除冗余、属性聚类——降维压缩数据
数据变换
映射到不同的空间——复杂度降低、提高挖掘效率
它汇集了原始数据库中与DM有关的所有数据的总体特征,是知识发现状态空间的基底。
4 数据挖掘的预处理





数据选择
了解业务背景,分析需求,确定分析范围
明确分析主题结构,建立数据与主题联系
确定数据仓库中要分析的数据
利用数据转换工具进行处理,ETL
确定分析主题,落实挖掘任务
形成数据视图,形成挖掘数据库
数据集成
将多文件或多数据库运行环境中的异构数据进行合并处理,解决语义的模糊性。处理数据冲突问题以及数据不一致。
数据来自多个系统,存在着异构数据的转换问。多个数据源的之间还存在许多不一致的地方,如命名、结构、单位、含义等。因此,数据集成并非是简单的数据合并,而是把数据进行统一化和规范化处理的复杂过程。
需要统一原始数据中的所有矛盾之处,如字段的同名异义、异名同义、单位不统一、字长不一致等,把原始数据在最低层次上加以转换、提炼和聚集。
数据集成中还应考虑数据类型的选择问题,尽量选择占物理空间较小的数据类型。
数据集成——冗余
冗余的原因:数据库设计,不同来源的数据引起的数据的相关性
冗余检验:属性的相关性——属性A,B 其相关性度量
语义冗余处理:合并语义相同的属性
语义相似度计算






数据清理
数据清理要去除源数据集中的噪声和无关数据
处理遗漏数据
去除知识背景上的白噪声
考虑时间顺序和数据变化等,主要包括重复数据处理和缺值数据处理
进行一些数据类型的转换
分析数据自身规律
分析数据之间的相关性
分析属性与主题之间的相关性
数据清理
数据清理可以分为有监督和无监督
有监督过程是在领域专家的指导下,分析收集的数据,去除明显错误的噪音数据和重复记录,填补缺值数据;
无监督过程是用样本数据训练算法,使其获得一定的经验,并在以后的处理过程中自动采用这些经验完成数据清理工作。
4 数据挖掘的预处理