1 / 7
文档名称:

数据挖掘数据清洗.docx

格式:docx   大小:25KB   页数:7页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘数据清洗.docx

上传人:读书百遍 2020/3/17 文件大小:25 KB

下载得到文件列表

数据挖掘数据清洗.docx

文档介绍

文档介绍:数据预处理 数据清理数据清洗是清除错误和不一致数据的过程,当然,数据清洗不是简单的用更新数据记录,在数据挖掘过程中,数据清洗是第一步骤,即对数据进行预处理的过程。数据清洗的任务是过滤或者修改那些不符合要求的数据。不符合要求的数据主要有不完整的数据、错误的数据和重复的数据3大类。各种不同的挖掘系统都是针对特定的应用领域进行数据清洗的。包括:检测并消除数据异常检测并消除近似重复记录数据的集成特定领域的数据清洗项目中的数据来源于数据仓库,其中数据是不完整的、有噪声和不一致的。数据清理过程试图填充缺失的值,光滑噪声并识别离群点,并纠正数据中的不一致。数据清洗的目的是为挖掘提供准确而有效的数据,提高挖掘效率。下面介绍数据清理的过程,该过程依照云平台的处理流程。缺失值处理对于数据集中的数据,存在有这样两种情况:数据中有大量缺失值的属性,我们一般采取的措施是直接删除,可是在有些系统进行ETL处理时,不能直接处理大量的缺失值。对于比较重要的属性,也会存在少量缺失值,需要将数据补充完整后进行一系列的数据挖掘。针对这两种不完整的数据特征,在数据清洗时采取了以下两种方式对数据填补:将缺失的属性值用同一个常数替换,如“Unknown”。这种方式用于处理上述的第一种数据特征的数据,先用一个替换值将空值进行约束替换。处理后的数据对后期挖掘工作没有价值会选择删除。利用该属性的最可能的值填充缺失值。对于第二种数据特征的数据,事先对每个属性进行值统计,统计其值的分布状态和频率,对该属性的所有遗漏的值均利用出现频率最高的那个值来填补。对缺失数据进行填补后,填入的值可能不正确,数据可能会存在偏置,并不是十分可靠的。然而,该方法使用了该属性已有数据的大部分信息来预测缺失值。在估计缺失值时,经过考虑该属性的值的整体分布与频率,保持该属性的整体分布状态。数据选择在对数据进行第一步缺失值清理后,会考虑删除掉冗余属性、或者与挖掘关系不大的属性,这称为人工选择。属性的人工选择和数据消减是不同的,即使两者的目的都是缩小所挖掘数据的规模,但却不会影响(或基本不影响)最终的挖掘结果。都属于属性的降维,可是现有的数据消减包括:数据聚合、消减维度、数据压缩和数据块消减。而人工属性选择是物理降维方式,经过对业务的理解和相关人员的沟通,对数据集中的数据进行初步的筛选。数据变换数据变换是数据清理过程的第二步,是对数据的一个标准化的处理。大部分数据需要进行数据变换。数据变换是不同来源所得到的数据可能导致不一致,因此需要进行数据变换,构成一个适合数据挖掘决的描述形式。在项目中我们进行数据转换包含的处理内容有:属性的数据类型转换。当属性之间的取值范围可能相差很大时,要进行数据的映射处理,映射关系能够去平方根、标准方差以及区域对应。当属性的取值类型较小时,分析数据的频率分布,然后进行数值转换,将其中字符型的属性转换为枚举型。属性构造。根据已有的属性集构造新的属性,以帮助数据挖掘过程。很多情况下需要从原始数据中生成一些新的变量作为预测变量。数据离散化。将连续取值的属性离散化成若干区间,来帮助消减一个连续属性的取值个数。例如年龄字段取值大于0,为了分析的方便,根据经验,能够将用户的年龄段分成几个不同的区间:0~15、16~24、25~35、36~55、大于55,分别用1,2,3,4,5来表示。数据标准化:不同来源所得到的相同字

最近更新

论区块链技术及其在海南旅游业中的应用 3页

旅游活动的性质与特征 88页

解释方法评述 3页

西门子的技术创新机制 3页

衡南县非物质文化遗产的保护与开发研究的任务.. 4页

融资约束对企业生产要素配置的影响效应研究 3页

旅游交往的一般礼节礼貌 29页

萤火虫算法在鱼雷垂直命中导引方法中的仿真研.. 4页

茭白速冻及其生产技术的研究 3页

苏州工业园区加油站污染排放现状及管控对策 3页

节约型园林建设在园林设计中应用探究 3页

船用液压舵机新产品通过技术鉴定 4页

自锚式悬索桥边跨钢箱梁跨既有铁路施工技术 3页

利用社会传播理论派分析疫情的流调信息 4页

脉冲变压器的分析与应用 3页

聚合物链与不规则表面胶体的相互作用研究 3页

职业学校志愿服务项目化德育功能及其实现研究.. 3页

考虑局部和整体特征的手绘图案合成方法研究的.. 3页

群体房建项目超长地下结构无缝施工技术 4页

外科学发展与外科技术革新-深度研究 34页

绿色金融支持京津冀大气污染防治对策研究 3页

综采工作面自动化控制系统在马兰矿的应用研究.. 3页

继续加强对基础性研究的支持 3页

经营杠杆与财务杠杆浅析 3页

区块链技术在医疗记录安全中的探索-深度研究 33页

新职业英语-unit 69页

多维空间中的空间数据挖掘-深度研究 33页

孢子菌耐药性分析-深度研究 35页

动态环境下的路径调整-深度研究 33页

粮食作物成本与收益比较分析 4页