1 / 7
文档名称:

数据挖掘数据清洗.docx

格式:docx   大小:25KB   页数:7页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘数据清洗.docx

上传人:读书百遍 2020/3/17 文件大小:25 KB

下载得到文件列表

数据挖掘数据清洗.docx

文档介绍

文档介绍:数据预处理 数据清理数据清洗是清除错误和不一致数据的过程,当然,数据清洗不是简单的用更新数据记录,在数据挖掘过程中,数据清洗是第一步骤,即对数据进行预处理的过程。数据清洗的任务是过滤或者修改那些不符合要求的数据。不符合要求的数据主要有不完整的数据、错误的数据和重复的数据3大类。各种不同的挖掘系统都是针对特定的应用领域进行数据清洗的。包括:检测并消除数据异常检测并消除近似重复记录数据的集成特定领域的数据清洗项目中的数据来源于数据仓库,其中数据是不完整的、有噪声和不一致的。数据清理过程试图填充缺失的值,光滑噪声并识别离群点,并纠正数据中的不一致。数据清洗的目的是为挖掘提供准确而有效的数据,提高挖掘效率。下面介绍数据清理的过程,该过程依照云平台的处理流程。缺失值处理对于数据集中的数据,存在有这样两种情况:数据中有大量缺失值的属性,我们一般采取的措施是直接删除,可是在有些系统进行ETL处理时,不能直接处理大量的缺失值。对于比较重要的属性,也会存在少量缺失值,需要将数据补充完整后进行一系列的数据挖掘。针对这两种不完整的数据特征,在数据清洗时采取了以下两种方式对数据填补:将缺失的属性值用同一个常数替换,如“Unknown”。这种方式用于处理上述的第一种数据特征的数据,先用一个替换值将空值进行约束替换。处理后的数据对后期挖掘工作没有价值会选择删除。利用该属性的最可能的值填充缺失值。对于第二种数据特征的数据,事先对每个属性进行值统计,统计其值的分布状态和频率,对该属性的所有遗漏的值均利用出现频率最高的那个值来填补。对缺失数据进行填补后,填入的值可能不正确,数据可能会存在偏置,并不是十分可靠的。然而,该方法使用了该属性已有数据的大部分信息来预测缺失值。在估计缺失值时,经过考虑该属性的值的整体分布与频率,保持该属性的整体分布状态。数据选择在对数据进行第一步缺失值清理后,会考虑删除掉冗余属性、或者与挖掘关系不大的属性,这称为人工选择。属性的人工选择和数据消减是不同的,即使两者的目的都是缩小所挖掘数据的规模,但却不会影响(或基本不影响)最终的挖掘结果。都属于属性的降维,可是现有的数据消减包括:数据聚合、消减维度、数据压缩和数据块消减。而人工属性选择是物理降维方式,经过对业务的理解和相关人员的沟通,对数据集中的数据进行初步的筛选。数据变换数据变换是数据清理过程的第二步,是对数据的一个标准化的处理。大部分数据需要进行数据变换。数据变换是不同来源所得到的数据可能导致不一致,因此需要进行数据变换,构成一个适合数据挖掘决的描述形式。在项目中我们进行数据转换包含的处理内容有:属性的数据类型转换。当属性之间的取值范围可能相差很大时,要进行数据的映射处理,映射关系能够去平方根、标准方差以及区域对应。当属性的取值类型较小时,分析数据的频率分布,然后进行数值转换,将其中字符型的属性转换为枚举型。属性构造。根据已有的属性集构造新的属性,以帮助数据挖掘过程。很多情况下需要从原始数据中生成一些新的变量作为预测变量。数据离散化。将连续取值的属性离散化成若干区间,来帮助消减一个连续属性的取值个数。例如年龄字段取值大于0,为了分析的方便,根据经验,能够将用户的年龄段分成几个不同的区间:0~15、16~24、25~35、36~55、大于55,分别用1,2,3,4,5来表示。数据标准化:不同来源所得到的相同字

最近更新

2025年“寻找星主播”主持人大赛策划书 32页

国家的公务员工作总结之信访接待岗与国家税务.. 12页

2025年腺样体肥大术后护理要点详解 21页

四月周工作计划与四月宣传部部长工作计划汇编.. 5页

2025年mba硕士论文致谢词 5页

内蒙古2018年保育员专业能力考试试题试卷及答.. 11页

2025年520的祝福文案 14页

化学反应固化胶粘剂的原理、工艺和应用 2页

加强高铁专业技术人员培训工作的思考 2页

2025年泌尿外科手术操作标准手册 14页

利用褐煤进行印染废水脱色的研究 2页

2025年慢性粒细胞白血病分期与治疗攻略 21页

刘家峡混凝土重力坝扬压力的观测研究 2页

分析负荷特性构筑的多小水电地区短期负荷预测.. 2页

分层异构无线网络理论性能研究和优化设计 2页

几种红果(山楂)制品的加工方法 2页

减缓钻控关井对油田产量影响的方法探讨 2页

冲击拉伸下环氧树脂试件中枝裂的动光弹研究 2页

农业技术承包,形式要灵活多样 2页

内热式盐浴炉功率的计算——系数K的探讨 2页

2025年骨肿瘤康复护理指南 14页

关于长江产业带建设总体布局的初步思考 2页

儿童文化园本课程构建的行动研究 8页

云南元阳华西白钨矿选矿试验研究 3页

2025年汽车维修行业分析报告及未来五至十年行.. 17页

六大纪律对照检查材料 3页

(完整版)考研复试个人简历模板 2页

奋进新时代主题成就展观后感范文(通用5篇) 3页

30位单亲口述体会真实 1页

2015年佛祖天书四肖料(001 8页