1 / 26
文档名称:

第二章__数据预处理.pdf

格式:pdf   页数:26页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

第二章__数据预处理.pdf

上传人:管理资源吧 2011/9/16 文件大小:0 KB

下载得到文件列表

第二章__数据预处理.pdf

文档介绍

文档介绍:数据挖掘第二章 数据预处理

由于数据库系统所获数据量的迅速膨胀(已达 或 数量级),从而导致了
现实世界数据库中常常包含许多含有噪声、不完整()、甚至是不一致
( 

)的数据。显然对数据挖掘所涉及的数据对象必须进行预处理。那
么如何对数据进行预处理以改善数据质量,并最终达到完善最终的数据挖掘结果
之目的呢?
数据预处理主要包括:数据清洗(

)、数据集成(


 )、
数据转换(


 
 )和数据消减(
 
 )。本章将介绍这四种
数据预处理的基本处理方法。
   
数据预处理是数据挖掘(知识发现)过程中的一个重要步骤,尤其是在对包
含有噪声、不完整,甚至是不一致数据进行数据挖掘时,更需要进行数据的预处
理,以提高数据挖掘对象的质量,并最终达到提高数据挖掘所获模式知识质量的
目的。例如:对于一个负责进行公司销售数据分析的商场主管,他会仔细检查公
司数据库或数据仓库内容,精心挑选与挖掘任务相关数据对象的描述特征或数据
仓库的维度(   ),这包括:商品类型、价格、销售量等,但这时他或许
会发现有数据库中有几条记录的一些特征值没有被记录下来;甚至数据库中的数
据记录还存在着一些错误、不寻常(
)、甚至是不一致情况,对于这样的数
据对象进行数据挖掘,显然就首先必须进行数据的预处理,然后才能进行正式的
数据挖掘工作。
所谓噪声数据是指数据中存在着错误、或异常(偏离期望值)的数据;不完
整( 
)数据是指感兴趣的属性没有值;而不一致数据则是指数据内涵
出现不一致情况(如:作为关键字的同一部门编码出现不同值)。而数据清洗是
指消除数据中所存在的噪声以及纠正其不一致的错误;数据集成则是指将来自多
个数据源的数据合并到一起构成一个完整的数据集;数据转换是指将一种格式的
数据转换为另一种格式的数据;最后数据消减是指通过删除冗余特征或聚类消除
多余数据。
不完整、有噪声和不一致对大规模现实世界的数据库来讲是非常普遍的情
况。不完整数据的产生有以下几个原因:()有些属性的内容有时没有,如:参
与销售事务数据中的顾客信息;()有些数据当时被认为是不必要的;()由于
 
数据挖掘第二章 数据预处理
误解或检测设备失灵导致相关数据没有记录下来;()与其它记录内容不一致而
被删除;()历史记录或对数据的修改被忽略了。遗失数据(
),尤
其是一些关键属性的遗失数据或许需要推导出来。噪声数据的产生原因有:()
数据采集设备有问题;()在数据录入过程发生了人为或计算机错误;()数据
传输过程中发生错误;如:由于技术限制(有限通讯缓冲区);()由于命名规
则(
   
 )或数据代码不同而引起的不一致。数据清洗还将删去重复
的记录行
数据清洗(
 
)处理例程通常包括:填补遗漏的数据值、平滑有
噪声数据、识别或除去异常值( 
 ),以及解决不一致问题。有问题的数据将
会误导数据挖掘的搜索过程。尽管大多数数据挖掘过程均包含有对不完全
( 
)或噪声数据的处理,但它们并不鲁棒且常常将处理的重点放在如
何避免所挖掘出的模式对数据过分准确(  
)的描述上。因此使用一些
数据清洗例程对待挖掘的数据进行预处理是十分必要的。稍后我们将详细介绍数
据清洗有关具体方法。
数据集成(


 )就是将来自多个数据源(如:数据库、文件等)
数据合并到一起。由于描述同一个概念的属性在不同数据库取不同的名字,在进
行数据集成时就常常会引起数据的不一致或冗余。例如:在一个数据库中一个顾
客的身份编码为“
 ”,而在另一个数据库则为“
 ”。命名的不一致
常常也会导致同一属性值的内容不同,如:在一个数据库中一个人的姓取“”,
而在另一个数据库中则取“”。同样大量的数据冗余不仅会降低挖掘速度,而
且也会误导挖掘进程。因此除了进行数据清洗之外,在数据集成中还需要注意消
除数据的冗余。此外在完成数